當前位置:編程學習大全網 - 編程語言 - 中文分詞的常見項目

中文分詞的常見項目

 功能性能 功能描述:1.新詞自動識別

對詞典中不存在的詞,可以自動識別,對詞典的依賴較小;

2.詞性輸出

分詞結果中帶有豐富的詞性;

3.動態詞性輸出

分詞結果中的詞性並非固定,會根據不同的語境,賦予不同的詞性;

4.特殊詞識別

比如化學、藥品等行業詞匯,地名、品牌、媒體名等;

5.智能歧義解決

根據內部規則,智能解決常見分詞歧義問題;

6.多種編碼識別

自動識別各種單壹編碼,並支持混合編碼;

7.數詞量詞優化

自動識別數量詞; 性能介紹:處理器:AMD Athlon II x2 250 3GHZ

單線程大於833KB/s,多線程安全。 壹個PHP函數實現中文分詞。使分詞更容易,使用如下圖:

Paoding(庖丁解牛分詞)基於Java的開源中文分詞組件,提供lucene和solr 接口,具有極 高效率和 高擴展性。引入隱喻,采用完全的面向對象設計,構思先進。

高效率:在PIII 1G內存個人機器上,1秒可準確分詞 100萬漢字。

采用基於 不限制個數的詞典文件對文章進行有效切分,使能夠將對詞匯分類定義。

能夠對未知的詞匯進行合理解析。

僅支持Java語言。 MMSEG4J基於Java的開源中文分詞組件,提供lucene和solr 接口:

1.mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法實現的中文分詞器,並實現 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

2.MMSeg 算法有兩種分詞方法:Simple和Complex,都是基於正向最大匹配。Complex 加了四個規則過慮。官方說:詞語的正確識別率達到了 98.41%。mmseg4j 已經實現了這兩種分詞算法。 盤古分詞是壹個基於.net 平臺的開源中文分詞組件,提供lucene(.net 版本) 和HubbleDotNet的接口

高效:Core Duo 1.8 GHz 下單線程 分詞速度為 390K 字符每秒

準確:盤古分詞采用字典和統計結合的分詞算法,分詞準確率較高。

功能:盤古分詞提供中文人名識別,簡繁混合分詞,多元分詞,英文詞根化,強制壹元分詞,詞頻優先分詞,停用詞過濾,英文專名提取等壹系列功能。 jcseg是使用Java開發的壹個中文分詞器,使用流行的mmseg算法實現。

1。mmseg四種過濾算法,分詞準確率達到了98.4%以上。

2。支持自定義詞庫。在lexicon文件夾下,可以隨便添加/刪除/更改詞庫和詞庫內容,並且對詞庫進行了分類,詞庫整合了《現代漢語詞典》和cc-cedict辭典。

3。詞條拼音和同義詞支持,jcseg為所有詞條標註了拼音,並且詞條可以添加同義詞集合,jcseg會自動將拼音和同義詞加入到分詞結果中。

4。中文數字和分數識別,例如:"四五十個人都來了,三十分之壹。"中的"四五十"和"三十分之壹",並且jcseg會自動將其轉換為對應的阿拉伯數字。

5。支持中英混合詞的識別。例如:B超,x射線。

6。支持基本單字單位的識別,例如2012年。

7。良好的英文支持,自動識別電子郵件,網址,分數,小數,百分數……。

8。智能圓角半角轉換處理。

9。特殊字母識別:例如:Ⅰ,Ⅱ

10。特殊數字識別:例如:①,⑩

11。配對標點內容提取:例如:最好的Java書《java編程思想》,‘暢想杯黑客技術大賽’,被《,‘,“,『標點標記的內容。

12。智能中文人名識別。中文人名識別正確率達94%以上。

jcseg佩帶了jcseg.properties配置文檔,使用文本編輯器就可以自主的編輯其選項,配置適合不同應用場合的分詞應用。例如:最大匹配分詞數,是否開啟中文人名識別,是否載入詞條拼音,是否載入詞條同義詞……。 friso是使用c語言開發的壹個中文分詞器,使用流行的mmseg算法實現。完全基於模塊化設計和實現,可以很方便的植入到其他程序中,例如:MySQL,PHP等。並且提供了壹個php中文分詞擴展robbe。

1。只支持UTF-8編碼。源碼無需修改就能在各種平臺下編譯使用,加載完20萬的詞條,內存占用穩定為14M。。

2。mmseg四種過濾算法,分詞準確率達到了98.41%。

3。支持自定義詞庫。在dict文件夾下,可以隨便添加/刪除/更改詞庫和詞庫詞條,並且對詞庫進行了分類。

4。詞庫使用了friso的Java版本jcseg的簡化詞庫。

5。支持中英混合詞的識別。例如:c語言,IC卡。

7。很好的英文支持,電子郵件,網址,小數,分數,百分數。

8。支持阿拉伯數字基本單字單位的識別,例如2012年,5噸,120斤。

9。自動英文圓角/半角,大寫/小寫轉換。

並且具有很高的分詞速度:簡單模式:3.7M/秒,復雜模式:1.8M/秒。

  • 上一篇:如何用Mysql的命令行客戶端創建數據庫
  • 下一篇:數控編程:橢圓 R40×R35 R75×R50 ,只要坐標點(mastercam或者CAXA編的都可以),不要宏程序謝謝
  • copyright 2024編程學習大全網