盤古分詞可以對(duì)一些不在字典中的未登錄詞自動(dòng)識(shí)別
詞頻優(yōu)先
盤古分詞可以根據(jù)詞頻來(lái)解決分詞的歧義問(wèn)題
多元分詞
盤古分詞提供多重輸出解決分詞粒度和分詞精度權(quán)衡的問(wèn)題
中文人名識(shí)別
輸入: “張三說(shuō)的確實(shí)在理”
分詞結(jié)果:張三/說(shuō)/的/確實(shí)/在理/
輸入 “李三買了一張三角桌子”
分詞結(jié)果:李三/買/了/一張/三角/桌子/
強(qiáng)制一元分詞
輸入 “張三說(shuō)的確實(shí)在理”
分詞結(jié)果: 張(0,1)/張三(0,5)/三說(shuō)的(1,1)/三(1,1)/說(shuō)(2,5)/的(3,5)/確(4,1)/確實(shí)(4,5)/實(shí)(5,1)/在(6,1)/在理(6,5)/理(7,1)/
繁體中文分詞
輸入"我的選擇"
分詞結(jié)果: 我/的/選擇/
同時(shí)輸出簡(jiǎn)體和繁體
輸入"我的選擇"
分詞結(jié)果:我(0,5)/的(1,5)/選擇(2,1)/選擇(2,5)/
中文詞性輸出
盤古分詞可以將以登錄詞的中文詞性輸出給用戶,以方便用戶做進(jìn)一步處理。
全角字符支持
盤古分詞可以識(shí)別全角的字母和數(shù)字
英文分詞英文分詞
英文單詞通常都是靠空格等符號(hào)分割,這個(gè)比較簡(jiǎn)單,盤古分詞分英文自然也沒(méi)有什么問(wèn)題。
英文專用詞識(shí)別
一些英文簡(jiǎn)寫是字母符號(hào)混合,或者是字母數(shù)字混合,這個(gè)分詞起來(lái)就不能按照空格符號(hào)這樣分割了,對(duì)于字母符號(hào)混合的如 U.S.A ,
只要將這個(gè)詞錄入到字典中,盤古分詞就可以分出整詞。對(duì)于字母和數(shù)字混合的,盤古分詞會(huì)自動(dòng)作為整詞輸出。
英文原詞輸出
英文大小寫同時(shí)輸出
其他功能停用詞過(guò)濾
對(duì)于一些標(biāo)點(diǎn)符號(hào),連詞,助詞等有時(shí)候需要在分詞時(shí)過(guò)濾掉,盤古分詞提供一個(gè) StopWord.txt 文件,用戶只要將需要過(guò)濾的詞加入到這個(gè)文件中,
并將停用詞過(guò)濾開發(fā)打開,就可以過(guò)濾掉這些詞。
設(shè)置分詞權(quán)值
盤古分詞可以讓用戶對(duì)如下特性設(shè)置自定義權(quán)值
1.未登錄詞權(quán)值
2.最匹配詞權(quán)值
3.次匹配詞權(quán)值
4.再次匹配詞權(quán)值
5.強(qiáng)行輸出的單字的權(quán)值
6.數(shù)字的權(quán)值
7.英文詞匯權(quán)值
8.符號(hào)的權(quán)值
9.強(qiáng)制同時(shí)輸出簡(jiǎn)繁漢字時(shí),非原來(lái)文本的漢字輸出權(quán)值。
*用戶自定義規(guī)則
字典管理
盤古分詞提供一個(gè)字典管理工具 DictManage 通過(guò)這個(gè)工具,你可以增加,修改,和刪除字典中的單詞
動(dòng)態(tài)加載字典
通過(guò)字典工具增加,修改,和刪除字典中的單詞后,保持字典,盤古分詞會(huì)自動(dòng)將新的字典文件加載進(jìn)去,而不需要重新啟動(dòng)。
關(guān)鍵詞高亮組件
Lucene 提供了一個(gè)關(guān)鍵詞高亮組件,但這個(gè)組件對(duì)中文的支持不是特別好,特別是如果還有多元分詞的情況,處理的就更不好。
盤古分詞提供了一個(gè)針對(duì)中文和英文的關(guān)鍵詞高亮組件 PanGu.HighLight ,其對(duì)中文的支持要好于Lucene 那個(gè)高亮組件。
同義詞輸出(后續(xù)版本提供)
Lucene.net 接口及示例
在PanGu4Lucene 這個(gè)包里面有我做的一個(gè)盤古+Lucene 的簡(jiǎn)單新聞搜索Web示例程序,Release 包里面有使用說(shuō)明。
性能指標(biāo)
Core Duo 1.8 GHz 下單線程 分詞速度為 390K 字符每秒,2線程分詞速度為 690K 字符每秒。
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版