2.我先用爬虫爬取了知乎2019年知乎问题和描述(我之前写过的爬虫https://blog.csdn.net/weixin_45019310/article/details/89923644),再进行数据分析
3.先用jieba进行分词
mytext = open(r'D:\pycharm\python项目\知乎\zhihu.csv','r',encoding='utf-8').read() #读取我文件的数据 mytext = " ".join(jieba.cut(mytext)) #进行中文分词4.再运用词云将频率高的词语放大显示,设置一张背景图片,并以背景图片的颜色为文字的颜色
backgroud_Image = plt.imread('python.jpg') #设置背景图片 wc = WordCloud( background_color = 'white', # 设置背景颜色 mask = backgroud_Image, # 设置背景图片 max_words = 500, # 设置最大现实的字数 stopwords = STOPWORDS, # 设置停用词 font_path = 'SIMLI.TTF', # 设置字体格式,如不设置显示不了中文 max_font_size = 60, # 设置字体最大值 color_func=None, #设置关键字的字体颜色 random_state = 42, # 设置有多少种随机生成状态,即有多少种配色方案 ).generate(mytext) image_colors = ImageColorGenerator(backgroud_Image) #从背景图片生成颜色值 wc.recolor(color_func = image_colors)5.完整代码如下
import matplotlib.pyplot as plt #import pickle from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator import jieba mytext = open(r'D:\pycharm\python项目\知乎\zhihu.csv','r',encoding='utf-8').read() #读取我文件的数据 mytext = " ".join(jieba.cut(mytext)) #进行中文分词 backgroud_Image = plt.imread('python.jpg') #设置背景图片 wc = WordCloud( background_color = 'white', # 设置背景颜色 mask = backgroud_Image, # 设置背景图片 max_words = 500, # 设置最大现实的字数 stopwords = STOPWORDS, # 设置停用词 font_path = 'SIMLI.TTF', # 设置字体格式,如不设置显示不了中文 max_font_size = 60, # 设置字体最大值 color_func=None, #设置关键字的字体颜色 random_state = 42, # 设置有多少种随机生成状态,即有多少种配色方案 ).generate(mytext) image_colors = ImageColorGenerator(backgroud_Image) #从背景图片生成颜色值 wc.recolor(color_func = image_colors) plt.imshow(wc) #显示图片 plt.axis('off') #关闭坐标轴 plt.show() wc.to_file('oxie.png') #保存图片