简写:
java -classpath nutch-1.0.jar:./conf/:./lib/* org.apache.nutch.analysis.NutchAnalysis Query: 人逢喜事精神爽 人 逢 喜 事 精 神 爽这里输入“人逢喜事精神爽”,从输出的结果可以看出Nutch默认处理是一元分词。
修改:
/** Returns a new token stream for text from the named field. */ public TokenStream tokenStream(String fieldName, Reader reader) { Analyzer analyzer; /* if ("anchor".equals(fieldName)) analyzer = ANCHOR_ANALYZER; else analyzer = CONTENT_ANALYZER; */ analyzer = new net.paoding.analysis.analyzer.PaodingAnalyzer(); return analyzer.tokenStream(fieldName, reader); }拷贝paoding-analysis.jar到/usr/local/nutch-1.0/lib
打包nutch /usr/local/apache-ant-1.7.1/bin/ant jar 会在/usr/local/nutch-1.0/build目录下生成新的nutch-1.0.jar
测试新的nutch-1.0.jar
cd /usr/local/nutch-1.0/ ## 导入庖丁词典路径 export PAODING_DIC_HOME=/dic ## 注意这里使用./build/下的新包 java -classpath ./build/nutch-1.0.jar:./conf/:./lib/* org.apache.nutch.analysis.NutchAnalysis Query: 人逢喜事精神爽 人 逢 喜 事 精 神 爽这里nutch还是用了一元分词,继续下一步。
运行javacc生成java源文件
cd /usr/local/nutch-1.0/src/java/org/apache/nutch/analysis /usr/local/javacc-5.0/bin/javacc NutchAnalysis.jj重新打包nutch
cd /usr/local/nutch-1.0/ /usr/local/apache-ant-1.7.1/bin/ant jar再测试新的nutch-1.0.jar
export PAODING_DIC_HOME=/dic java -classpath ./build/nutch-1.0.jar:./conf/:./lib/* org.apache.nutch.analysis.NutchAnalysis Query: 人逢喜事精神爽 "喜事 人逢喜事 精神 精神爽"从结果可以看出已使用庖丁分词器分词了。
相关资源:python入门教程(PDF版)