當前位置:編程學習大全網 - 源碼下載 - 如何編寫MySQL全文索引插件

如何編寫MySQL全文索引插件

1.簡介 全文索引插件用於對MYISAM的全文檢索特性進行擴展。通過全文檢索,我們可以對文檔、圖片或者視頻等豐富的數據類型進行分詞

1.簡介

全文索引插件用於對MYISAM的全文檢索特性進行擴展。通過全文檢索,我們可以對文檔、圖片或者視頻等豐富的數據類型進行分詞,建立索引,以便進行快速的檢索。

目前MySQL僅在MYISAM存儲引擎裏支持全文檢索,而對於innodb,則要在6.0以後的版本中才會實現。

但目前全文索引也有著如下的限制:

1. 只支持MyISAM

2. 不支持中文

3. 如果支持在壹個單獨表中使用多個字符集,則所有fulltext索引的列必須使用完全壹樣的字符集和庫

4. MATCH()列列表必須同該表中壹些FULLTEXT索引定義中的列列表完全符合,除非MATCH()在IN BOOLEAN MODE

5. 對AGAINST() 的參數必須是壹個常數字符串。

那麽Full Text Plugin在這其中扮演什麽樣的角色呢。MYISAM本身自帶的分詞程序會將列裏面的數據進行分詞存儲到全文索引裏,同時也會使用分詞來處理查詢中出現的字符串;Full Text Plugin可以完全接管該功能。

例如,我們可以通過Plugin實現對多媒體數據的分詞檢索,可以使用自己的算法進行分詞,甚至可以改變全文檢索的語法。

2. 如何編寫Full Text Plugin

插件的編寫主要包括: init、deinit以及parse程序;每次執行sql之前會調用壹次init(),執行完成後會調用deinit函數。Parse()函數在執行SQL的過程中進行語法分析

1)聲明插件

結構體st_mysql_ftparser用於聲明壹個full text插件

struct st_mysql_ftparser

{

intinterface_version;

int(*parse)(MYSQL_FTPARSER_PARAM *param);

int(*init)(MYSQL_FTPARSER_PARAM *param);

int(*deinit)(MYSQL_FTPARSER_PARAM *param);

};

字段

類型

描述

interface_version

int

版本號

parse

int (*parse)(MYSQL_FTPARSER_PARAM *param);

語法分析程序

init

int (*init)(MYSQL_FTPARSER_PARAM *param);

初始化函數,函數指針

deinit

int (*deinit)(MYSQL_FTPARSER_PARAM *param);

清理函數,函數指針

可以看到,這三個函數公用壹種參數類型:MYSQL_FTPARSER_PARAM,這個結構體由MySQL來初始化,但我們同樣可以修改其函數指針,以使用自定義的函數,結構體如下:

字段

類型

描述

mysql_parse

int (*mysql_parse)(struct st_mysql_ftparser_param *,

char *doc, int doc_len)

默認指向mysql內建的全文分詞函數。

mysql_add_word

int (*mysql_add_word)(struct st_mysql_ftparser_param *,

char *word, int word_len,

MYSQL_FTPARSER_BOOLEAN_INFO *)

用於對每個分解的單詞進行處理;通常會把這些單詞加到壹顆樹或列表裏。並在結束後插入/更新/刪除全文索引裏的記錄

ftparser_state

void *

我們可以在該指針分配額外的內存,用於在不同的API接口間傳遞

mysql_ftparam

void *

由MySQL內部使用,將信息傳遞給mysql_parse和mysql_add_word,編寫plugin時無需修改

cs

struct charset_info_st *

文檔的字符集

doc

char *

需要被解析的文檔,例如,我們可以填寫壹個url,,那麽在語法分析程序裏。我們可以讀取到Url對應的文件,再進行分析

length

int

文檔的長度,這是因為doc可能並不是以\0結尾的,我們在寫plugin時需要註意這壹點

flags

int

目前僅有壹個選項:MYSQL_FTFLAGS_NEED_COPY。該選項用於告訴mysql_add_word需要壹份單詞的拷貝;內建的mysql_parse()無需指定該Flag,這是因為其使用doc的指針,而doc在離開函數後也是有效的

mode

enum enum_ftparser_mode

操作的類型,主要包括以下幾種:

MYSQL_FTPARSER_SIMPLE_MODE :解析程序僅返回需要的單詞,剔除停詞、過濾詞

MYSQL_FTPARSER_WITH_STOPWORDS :用於布爾查詢的單詞匹配,這種情況下需要考慮所有的單詞,包括停詞

MYSQL_FTPARSER_FULL_BOOLEAN_ INFO :用於解析壹個包含布爾操作符的布爾查詢字符串;這種情況下,我們需要

設置mysql_add_word的參數——MYSQL_FTPARSER_BOOLEAN_INFO

當mode被設置為MYSQL_FTPARSER_FULL_BOOLEAN_ INFO時。我們需要為函數mysql_add_word設置其最後壹個參數,我們再看該函數的原型:

int (*mysql_add_word)(structst_mysql_ftparser_param *,

char *word, int word_len,

MYSQL_FTPARSER_BOOLEAN_INFO *);

最後壹個參數結構體為MYSQL_FTPARSER_BOOLEAN_INFO,也就是結構體st_mysql_ftparser_boolean_info,如下所示:

字段

類型

描述

type

enum enum_ft_token_type

用於標示token的類型,有如下幾種:

FT_TOKEN_EOF :

無需設置

FT_TOKEN_WORD :

表示普通的單詞

FT_TOKEN_STOPWORD:

停詞 ,建立索引時會被忽略

FT_TOKEN_LEFT_PAREN :

表示壹個子表達式開始

FT_TOKEN_RIGHT_PAREN :

表示壹個子表達式結束

yesno

int

用於支持布爾操作:

>0 單詞必須要匹配,對應 +

weight_adjust

int

關聯詞的重要性、

>0, 對應於>操作符

wasign

char

單詞的重要性:

非0 表示噪音單詞,會減少關聯度,對應於操作符 ~

trunc

char

如果為非0,則單詞被認為是壹個前綴,所有以此為前綴的都會被匹配,對應的操作符為 *

prev

char

忽略

quot

char*

對應於””雙引號操作符

  • 上一篇:javascript事件流是什麽?有哪些事件流?
  • 下一篇:尋找丟失的遊戲!
  • copyright 2024編程學習大全網