中文分词技术

    xiaoxiao2022-07-02  136

    词:最小的、独立活动的、有意义的语言成分 分词:将句子分成单词 如:句子:南京市长江大桥 分词:南京市/长江/大桥

    分词的方法:规则分词、统计分词、混合分词。

    规则分词:人工设立词库,进行匹配。统计分词:用统计机器学习算法去分词混合分词:规则分词+统计分词

    规则分词: 词典,匹配,分词 正向最大匹配(MM): 逆向最大匹配(RMM): 双向最大匹配(BMM): 统计分词: 根据统计学习方法去分词: HMM模型 观测序列:o 状态序列:s 具体看: https://www.jianshu.com/p/f140c3a44ab6 还有一些分词方法如: CRF等 混合分词: 先根据词典分词后根据统计学习方法分词。

    最新回复(0)