情感分析资源大全(语料、词典、词嵌入、代码)

    xiaoxiao2022-06-30  209

      该博客收集情感分析领域中一些语料、词典等。    如果引用到下列语料、词典等数据,出于尊重作者的学术成果,在文章中还请引用相关的文献。

    1 语料库

    1.1 谭松波-酒店评论语料-UTF-8,10000条

      现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论。    下载地址为:谭松波-酒店评论语料-UTF-8,10000条

    1.2 SemEval-2014 Task 4数据集

    SemEval-2014 Task 4数据集主要用于细粒度情感分析,包含Laptop和Restaurant两个领域,每个领域的数据集都分为训练数据、验证数据(从训练数据分离出来)和测试数据,非常适用于有监督的机器学习算法或者深度学习算法,如LSTM等。文件格式为.xml,其数据统计如下:    下载地址为: SemEval-2014 Task 4数据集

    1.3 Citysearch corpus

    该语料库为餐馆评论数据,收集自Citysearch New York网站,可用于细粒度的情感分析任务中,即aspect extraction任务当中。在本资源中,分为原始数据和处理后数据两部分,其统计如下:    其中,训练数据不包含标注信息;测试数据中包含标注信息,标注类别为预先定义的6个aspect类型,依次为Food、Staff、Ambience、Price、Anecdotes和Miscellaneous,可用于验证模型的有效性;在处理后数据文件夹中,还包含对应的词嵌入模型。  下载地址:Citysearch corpus

    1.4 BeerAdvocate

    该语料为啤酒评论数据,共150W条评论,可用于细粒度的情感分析任务当中,即aspect extraction任务当中。  由于资源大小的限制,本资源分为原始数据和处理后的数据。在原始数据当中,包含1000条带标注信息的评论,共9245条句子,标注类别为Feel、Look、Smell、Taste和Overall五种Aspect类别;在处理后数据当中,包含相应的词嵌入模型。  原始数据下载地址:BeerAdvocate–Source  处理后数据下载地址:BeerAdvocate–Preprocess

    1.5 NLPCC2014评估任务2_基于深度学习的情感分类

    该语料共包含中文和英文两种语言,主要是商品评论,评论篇幅都比较短,可以被应用于篇章级或者句子级的情感分析任务。数据集被分为训练数据、测试数据、带标签的测试数据三个文件,共有正向和负向两种极性。  下载地址:NLPCC2014评估任务2_基于深度学习的情感分类

    1.6 NLPCC2013评估任务_中文微博观点要素抽取

    该语料主要用于识别微博观点句中的评价对象和极性。训练数据由两个微博主题组成,每个主题各一百条,内含标注及数据说明。  下载地址:NLPCC2013评估任务_中文微博观点要素抽取

    1.7 NLPCC2013评估任务_中文微博情绪识别

    该语料主要用于识别出整条微博所表达的情绪,不是简单的褒贬分类,而是涉及到多个细粒度情绪类别(例如悲伤、忧愁、快乐、兴奋等),属于细粒度的情感分类问题。  下载地址:NLPCC2013评估任务_中文微博情绪识别

    1.7 NLPCC2013评估任务_跨领域情感分类

    给定已标注倾向性的英文评论数据和英文情感词典,要求只利用给出的英文情感资源进行中文评论的情感倾向分类。该任务注重考察多语言环境下情感资源的迁移能力,有助于解决不同语言中情感资源分布的不均衡问题。  下载地址:NLPCC2013评估任务_跨领域情感分类

    1.8 NLPCC2012评估任务_面向中文微博的情感分析

    该语料主要用于中文微博中的情感句识别、情感倾向性分析和情感要素抽取。  下载地址:NLPCC2012评估任务_面向中文微博的情感分析

    1.9 康奈尔大学影评数据集

    该语料由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5331句,标注了主客观标签的句子各5000句。该语料可以被应用于各种粒度的情感分析,如词语、句子和篇章级情感分析研究中。  下载地址:康奈尔大学影评数据集

    1.10 MPQA

    Janyce Wiebe等人所开发的MPQA(Multiple-Perspective QA)库:包含535 篇不同视角的新闻评论,它是一个进行了深度标注的语料库。其中标注者为每个子句手工标注出一些情感信息,如观点持有者、评价对象、主观表达式以及其极性与强度。  下载地址:MPQA

    1.11 Twitter Comments

    该语料主要来自于Twitter上面的评论数据集,分为训练数据和测试数据,分别有6248条和692条Twitter。在文件中,每条推特被分为三行,第一行为评论句子、第二行为评价对象、第三行为情感极性。通常每条句子只包含一个评价对象。在情感极性中,用-1、0、1分别代表负向、中性、正向,三个极性的条数分别在语料中占25%、50%、25%。该语料来自于以下工作。  Paper:Dong L, Wei F, Tan C, et al. Adaptive Recursive Neural Network for Target-dependent Twitter Sentiment Classification[C]// Meeting of the Association for Computational Linguistics. 2014:49-54.  下载地址:Twitter Comments

    2 词典

    2.1 大连理工大学中文情感词汇本体库(无辅助情感分类)

    中文情感词汇本体库是大连理工大学信息检索研究室在林鸿飞教授的指导下经过全体教研室成员的努力整理和标注的一个中文本体资源。该资源从不同角度描述一个中文词汇或者短语,包括词语词性种类、情感类别、情感强度及极性等信息。  中文情感词汇本体的情感分类体系是在国外比较有影响的Ekman的6大类情感分类体系的基础上构建的。在Ekman的基础上,词汇本体加入情感类别“好”对褒义情感进行了更细致的划分。最终词汇本体中的情感共分为7大类21小类。  构造该资源的宗旨是在情感计算领域,为中文文本情感分析和倾向性分析提供一个便捷可靠的辅助手段。中文情感词汇本体可以用于解决多类别情感分类的问题,同时也可以用于解决一般的倾向性分析的问题。  其数据格式介绍如下:    下载地址为:http://download.csdn.net/download/qq280929090/10215956  由于在某些情感分析文献当中,需要对情感程度进行归一化,将随后添加归一化版本。  本版本去掉辅助情感分类,主要是由于其对实验帮助非常小,而且增加了处理的复杂性。

    2.2 台湾大学中文情感极性词典(NTUSD)

    该词典为简体的情感极性词典,共包含2812个正向情感词和8278个负向情感词,可以用于二元情感分类任务当中。  下载地址为:http://download.csdn.net/download/qq280929090/10215985

    2.3 清华大学李军中文褒贬义词典(TSING)

    该词典共包含褒义词5568个和贬义词4470个。  下载地址:http://download.csdn.net/download/qq280929090/10216029

    2.4 知网情感词典(HOWNET)

    该词典主要分为中文和英文两部分,共包含如下数据:中文正面评价词语3730个、中文负面评价词语3116个、中文正面情感词语836个、中文负面情感词语1254个;英文正面评价词语3594个、英文正面评价词语3563个、英文正面情感词语769个、英文负面情感词语1011个。  下载地址:http://download.csdn.net/download/qq280929090/10216044

    2.5 知网程度副词词典(HOWNET)

    该词典主要发呢为中文和英文两部分,共包含如下数据:中文程度级别词语219个、英文程度级别词语170个。  下载地址:http://download.csdn.net/download/qq280929090/10216051

    2.6 知网主张词语词典(HOWNET)

    该词典主要发呢为中文和英文两部分,共包含如下数据:中文主张词语38个、英文主张词语35个。  下载地址:http://download.csdn.net/download/qq280929090/10216055

    3 预训练词嵌入

    3.1 Google预训练词嵌入

    3.2 Glove预训练词嵌入

    该预训练词嵌入根据斯坦福大学提出的Glove模型进行训练,主要包括如下四个文件:  1) glove.6B:Wikipedia 2014 + Gigaword 5 (6B tokens, 400K vocab, uncased, 50d, 100d, 200d, & 300d vectors, 822 MB download)  2) glove.42B.300d:Common Crawl (42B tokens, 1.9M vocab, uncased, 300d vectors, 1.75 GB download)  3)glove.840B.300d:Common Crawl (840B tokens, 2.2M vocab, cased, 300d vectors, 2.03 GB download)  4)glove.twitter.27B:Twitter (2B tweets, 27B tokens, 1.2M vocab, uncased, 25d, 50d, 100d, & 200d vectors, 1.42 GB download)  下载地址为:Glove预训练词嵌入

    4 代码 ---------------------  作者:qq280929090  来源:  原文:https://blog.csdn.net/qq280929090/article/details/70838025  版权声明:本文为博主原创文章,转载请附上博文链接!


    最新回复(0)