Fasttext
github上给的文件不太会用,就用写好的fasttext包 1、fasttext的特点 2、代码使用
1、fasttext特点
层次化softmax 使用霍夫曼树对标签进行编码,应对不同类别的数量不平衡问题
N-gram特征 可以向N-gram一样考虑到词的顺序
2、代码使用
import fasttext
#训练集格式
#__label__ , 字符串1, 字符串2
#label_prefix可根据自己的文件自定义
model = fasttext.supervised("train.txt", "new.model", label_prefix="__label__")
#无监督模式
model = fasttext.skipgram(input_file='unsupervised.txt',output='model')
model = fasttext.cbow(input_file='unsupervised.txt',output='model')
很好的参考资料: https://blog.csdn.net/john_bh/article/details/79268850 https://pypi.org/project/fasttext/