基于sklearn的文本特征提取与分类

xiaoxiao2025-10-22 36

本文呢是根据自己参加中移动垃圾短信基于文本内容识别竞赛而写的基于文本内容识别竞赛，由于比赛结果不太好，就记录一下用sklearn做文本特征提取这一块吧，当时也参考许多的博文，如Feature extraction - sklearn文本特征提取和应用scikit-learn做文本分类以及文本挖掘之特征选择(python 实现) 等文章。题目是80万条短信作为训练数据，10%的垃圾短信(label = 1)，90%正常短信(label = 0),然后在20万条数据作为测试对象，找出垃圾短信与正常短信。我最终的评分是0.985，相对于第一0.997还是有很大差距，排名59/339。具体竞赛内容可以参考中国好创意比赛官网。文本分类大致可以分为：出本处理，特征提取，特征选择，分类，预测几个步骤，其中前三步占用80%的工作量。 1.文本处理分词，去除停用词等。文本处理要做的内容很多，如果需要请参考其他文献。分词我采用结巴分词，有比较好用的python包， Python中文分词组件以供参考去除停用词需要根据实际情况作考虑，一般情况是需要的。文本处理后，得到的应该是每条短信对应的分词表，如：原”商业秘密的秘密性那是维系其商业价值和垄断地位的前提条件之一“经过处理后为”商业秘密秘密性维系商业价值垄断地位前提条件之一 “ 核心代码： # (i not in stopWords) and def cutWords(msg,stopWords): seg_list = jieba.cut(msg,cut_all=False) #key_list = jieba.analyse.extract_tags(msg,20) #get keywords leftWords = [] for i in seg_list: if (i not in stopWords): leftWords.append(i) return leftWords #获取停用词表 def loadStopWords(): stop = [line.strip().decode('utf-8') for line in open('../data/stopWord.txt').readlines() ] return stop 2.特征提取，特征选择这里呢就需要参考上面的提到的两个参考博文了，具体API的用法可以参考 sklearn官网这里使用的是tfidf特征核心代码举例，具体参考附录的完整工程： #navie bayes classifier def nbClassifier(trainData,testData,trainLabel,testLabel): vectorizer = CountVectorizer(binary=True) fea_train = vectorizer.fit_transform(trainData) fea_test = vectorizer.transform(testData); # tv=TfidfVectorizer()#该类会统计每个词语的tf-idf权值 # fea_train = tv.fit_transform(trainData) #return feature vector 'fea_train' [n_samples,n_features] # fea_test = tv.transform(testData); print 'Size of fea_train:' + repr(fea_train.shape) print 'Size of fea_test:' + repr(fea_test.shape) print fea_train.nnz print fea_test.nnz clf = MultinomialNB(alpha = 0.01) clf.fit(fea_train,np.array(trainLabel)) pred = clf.predict(fea_test) totalScore(pred,testData,testLabel) 3.分类，预测这个不多说，常见的方法就那么几种，相差不会很大。如果需要达到很高的分数还需要算法上的修改优化。工程代码请到我的github主页下载点击打开链接相关资源：python入门教程(PDF版)

最新回复(0)