java如何分詞??
java如何分詞??
如果你的分詞規(guī)則是在一個(gè)字符串的開頭和結(jié)尾加上\”_\”,然后兩個(gè)字符一分的話,代碼可以這樣寫:import java.util.ArrayList;import java.util.List;public class Participle{ private static final String HEAD_END_STR = \”_\”; private static final int PARTICIPLE_LENGTH = 2; public static void main(String[] args) { String exampleWord = \”計(jì)算機(jī)\”; exampleWord = \”_\” + exampleWord + \”_\”; int length = exampleWord.length(); List<String> result = new ArrayList<String>(); for (int i = 0; i < length – 1; i++) { String str = exampleWord.substring(i, i + PARTICIPLE_LENGTH); result.add(str); } System.out.println(result); }}輸出結(jié)果:_計(jì), 計(jì)算, 算機(jī), 機(jī)_
java編個(gè)中文分詞的程序
imp
怎么使用java中文分詞組件word
參考如下1、快速體驗(yàn)運(yùn)行項(xiàng)目根目錄下的腳本demo-word.bat可以快速體驗(yàn)分詞效果用法: command [text] [input] [output]命令command的可選值為:demo、text、filedemotext 楊尚川是APDPlat應(yīng)用級(jí)產(chǎn)品開發(fā)平臺(tái)的作者file d:/text.txt d:/word.txtexit2、對(duì)文本進(jìn)行分詞移除停用詞:List<Word> words = WordSegmenter.seg(\”楊尚川是APDPlat應(yīng)用級(jí)產(chǎn)品開發(fā)平臺(tái)的作者\(yùn)”);保留停用詞:List<Word> words = WordSegmenter.segWithStopWords(\”楊尚川是APDPlat應(yīng)用級(jí)產(chǎn)品開發(fā)平臺(tái)的作者\(yùn)”); System.out.println(words);輸出:移除停用詞:[楊尚川, apdplat, 應(yīng)用級(jí), 產(chǎn)品, 開發(fā)平臺(tái), 作者]保留停用詞:[楊尚川, 是, apdplat, 應(yīng)用級(jí), 產(chǎn)品, 開發(fā)平臺(tái), 的, 作者]3、對(duì)文件進(jìn)行分詞String input = \”d:/text.txt\”;String output = \”d:/word.txt\”;移除停用詞:WordSegmenter.seg(new File(input), new File(output));保留停用詞:WordSegmenter.segWithStopWords(new File(input), new File(output));4、自定義配置文件默認(rèn)配置文件為類路徑下的word.conf,打包在word-x.x.jar中自定義配置文件為類路徑下的word.local.conf,需要用戶自己提供如果自定義配置和默認(rèn)配置相同,自定義配置會(huì)覆蓋默認(rèn)配置配置文件編碼為UTF-85、自定義用戶詞庫(kù)自定義用戶詞庫(kù)為一個(gè)或多個(gè)文件夾或文件,可以使用*百科*路徑或相對(duì)路徑用戶詞庫(kù)由多個(gè)詞典文件組成,文件編碼為UTF-8詞典文件的格式為文本文件,一行代表一個(gè)詞可以通過系統(tǒng)屬性或配置文件的方式來指定路徑,多個(gè)路徑之間用逗號(hào)分隔開類路徑下的詞典文件,需要在相對(duì)路徑前加入前綴classpath:指定方式有三種: 指定方式一,編程指定(高優(yōu)先級(jí)): WordConfTools.set(\”dic.path\”, \”classpath:dic.txt,d:/custom_dic\”); DictionaryFactory.reload();//更改詞典路徑之后,重新加載詞典 指定方式二,Java虛擬機(jī)啟動(dòng)參數(shù)(中優(yōu)先級(jí)): java -Ddic.path=classpath:dic.txt,d:/custom_dic 指定方式三,配置文件指定(低優(yōu)先級(jí)): 使用類路徑下的文件word.local.conf來指定配置信息 dic.path=classpath:dic.txt,d:/custom_dic如未指定,則默認(rèn)使用類路徑下的dic.txt詞典文件6、自定義停用詞詞庫(kù)使用方式和自定義用戶詞庫(kù)類似,配置項(xiàng)為:stopwords.path=classpath:stopwords.txt,d:/custom_stopwords_dic7、自動(dòng)檢測(cè)詞庫(kù)變化可以自動(dòng)檢測(cè)自定義用戶詞庫(kù)和自定義停用詞詞庫(kù)的變化包含類路徑下的文件和文件夾、非類路徑下的**路徑和相對(duì)路徑如:classpath:dic.txt,classpath:custom_dic_dir,d:/dic_more.txt,d:/DIC_DIR,D:/DIC2_DIR,my_dic_dir,my_dic_file.txtclasspath:stopwords.txt,classpath:custom_stopwords_dic_dir,d:/stopwords_more.txt,d:/STOPWORDS_DIR,d:/STOPWORDS2_DIR,stopwords_dir,remove.txt8、顯式指定分詞算法對(duì)文本進(jìn)行分詞時(shí),可顯式指定特定的分詞算法,如:WordSegmenter.seg(\”APDPlat應(yīng)用級(jí)產(chǎn)品開發(fā)平臺(tái)\”, SegmentationAlgorithm.BidirectionalMaximumMatching);SegmentationAlgorithm的可選類型為: 正向**匹配算法:MaximumMatching逆向**匹配算法:ReverseMaximumMatching正向最小匹配算法:MinimumMatching逆向最小匹配算法:ReverseMinimumMatching雙向**匹配算法:BidirectionalMaximumMatching雙向最小匹配算法:BidirectionalMinimumMatching雙向**最小匹配算法:BidirectionalMaximumMinimumMatching全切分算法:FullSegmentation最少分詞算法:MinimalWordCount**Ngram分值算法:MaxNgramScore9、分詞效果評(píng)估運(yùn)行項(xiàng)目根目錄下的腳本evaluation.bat可以對(duì)分詞效果進(jìn)行評(píng)估評(píng)估采用的測(cè)試文本有253 3709行,共2837 4490個(gè)字符評(píng)估結(jié)果位于target/evaluation目錄下:corpus-text.txt為分好詞的人工標(biāo)注文本,詞之間以空格分隔test-text.txt為測(cè)試文本,是把corpus-text.txt以標(biāo)點(diǎn)符號(hào)分隔為多行的結(jié)果standard-text.txt為測(cè)試文本對(duì)應(yīng)的人工標(biāo)注文本,作為分詞是否正確的標(biāo)準(zhǔn)result-text-***.txt,***為各種分詞算法名稱,這是word分詞結(jié)果perfect-result-***.txt,***為各種分詞算法名稱,這是分詞結(jié)果和人工標(biāo)注標(biāo)準(zhǔn)完全一致的文本wrong-result-***.txt,***為各種分詞算法名稱,這是分詞結(jié)果和人工標(biāo)注標(biāo)準(zhǔn)不一致的文本
java word分詞器怎樣安裝在java中
word分詞是一個(gè)Java實(shí)現(xiàn)的分布式的中文分詞組件,提供了多種基于詞典的分詞算法,并利用ngram模型來消除歧義。
如果需要安裝word分詞器可以參考下面的步驟:
1、確保電腦上已經(jīng)安裝了JDK軟件和Eclispe工具,沒有安裝的可以到對(duì)應(yīng)的官網(wǎng)下載安裝:
JDK官網(wǎng):http://www.oracle.com/technetwork/java/javase/downloads/index.html
Eclipse官網(wǎng):http://www.eclipse.org
2、下載word分詞器的相關(guān)jar包:
打開word分詞器的**github主頁(yè):https://github.com/ysc/word
下拉找到ReadME部分,點(diǎn)擊“編譯好的jar下載”:
頁(yè)面將會(huì)跳轉(zhuǎn)到到百度云盤的下載頁(yè)面,按照需求下載指定的版本即可。
注意:word1.3需要JDK1.8。
下載完成之后解壓到指定目錄。
3、創(chuàng)建Java項(xiàng)目,導(dǎo)入word分詞器的相關(guān)jar包:
打開Eclipse,右鍵創(chuàng)建Java project項(xiàng)目:
然后右鍵項(xiàng)目選擇Build path打開導(dǎo)入頁(yè)面,導(dǎo)入剛才下載的jar包到項(xiàng)目中:
導(dǎo)入成功之后就可以在自己的項(xiàng)目中使用word分詞器了。
如何用接瓦法在java中對(duì)文章進(jìn)行分詞
用Java的StringTokenizer可以直接將字符串按照空格進(jìn)行分詞。