ElastiSearch默認分詞器

在Elasticsearch中的數據可以分為兩類：精確值(exact values)以及全文(full text) 。

精確值：例如日期類型date，若date其有兩個值:2014-09-15與2014，那麽這兩個值不相等。又例如字符串類型foo與Foo不相等。

全文：通常是人類語言寫的文本，例如壹段tweet信息、email的內容等。

精確值很容易被索引 ：壹個值要麽相當要麽不等。索引全文值就需要很多功夫。例如我們不僅要想：這個文檔符合我們的查詢嗎？還要想：這個文檔有多符合我們的查詢？換句話說就是：這個文檔跟我們的查詢關聯大嗎？我們很少精確的去匹配整個全文，我們最想要的是去匹配全文文本的內部信息。除此，我們還希望搜索能夠理解我們的意圖：例如

如果妳搜索UK，我們需要包含United Kingdom的文本也會被匹配。如果妳搜索jump，那麽包含jumped,jumps,jumping,更甚者leap的文本會被匹配。

為了更方便的進行全文索引，Elasticsearch首先要先分析文本，然後使用分析過的文本去創建倒序索引。

Elasticsearch全文檢索默認分詞器為standard analyzer。standard analyzer中，character Filter什麽也沒有做，Token Filters只是把英文大寫轉化為小寫，因此Elasticsearch默認對大小寫不敏感，下面主要介紹Tokenizer。

token分隔符把text分隔為token(term)。數據寫入的時候會使用standard analyzer處理，text會被處理為token列表。搜索的text也會執行相同的處理，最後使用處理後的token和源text處理後的token匹配。

除了“a-z、A-Z、0-9、_”以外，但不包括“.;,”這三個字符，其他情況都是token分隔符。

“.”鏈接number和char時，作為token分隔符，其它情況不是分隔符

1）“number.number”經過standard analyzer處理後，token列表[number.number]

例如“123.123s”，搜索“123”是搜索不到的，搜索“123.123s”是可以匹配的

2）“char.char”經過standard analyzer處理後，token列表[char.char]

例如“test.test”，搜索“test”是搜索不到的，搜索“test.test”是可以匹配的

3）“number.char或者char.number”經過standard analyzer處理後，token列表[number、char]

例如“test1.s1”，token列表為[test1、s1]，搜索“test1”是可以匹配的

“;”鏈接number和number時，不作為token分隔符，其它情況都是分隔符

1）“number;number”經過standard analyzer處理後，token列表[number;number]

例如“123;123”，搜索“123”是搜索不到的，搜索“123;123”是可以匹配的