bilibili_barrage_crawler/crawler/word_cloud.py

import jieba
import nltk
import numpy as np
import PIL.Image as image
from nltk.corpus import stopwords
from wordcloud import wordcloud


def get_wordcloud(file_name):
    nltk.download('stopwords')
    f = open(file_name, encoding='utf-8')
    txt = f.read()
    txt_list = jieba.lcut(txt)
    string = ' '.join(txt_list)
    mask_image = "2.png"
    mask = np.array(image.open(mask_image))
    stopwords_list = set(stopwords.words('chinese'))
    stopwords_target = ['都', '不', '好', '哈哈哈', '说', '还', '很', '没']
    for i in stopwords_target:
        stopwords_list.add(i)
    w = wordcloud.WordCloud(
                            mask=mask,
                            width=mask.shape[1],
                            height=mask.shape[0],
                            background_color='white',
                            font_path='C:/Windows/Fonts/STLITI.TTF',
                            stopwords=stopwords_list,
                            )

    w.generate(string)
    # 打印词云图片
    w.to_file('wordcloud.jpg')


if __name__ == '__main__':
    get_wordcloud('barrage.csv')
爬虫相关代码 2 months ago			`import jieba`
			`import nltk`
			`import numpy as np`
			`import PIL.Image as image`
			`from nltk.corpus import stopwords`
			`from wordcloud import wordcloud`


			`def get_wordcloud(file_name):`
			`nltk.download('stopwords')`
			`f = open(file_name, encoding='utf-8')`
			`txt = f.read()`
			`txt_list = jieba.lcut(txt)`
			`string = ' '.join(txt_list)`
			`mask_image = "2.png"`
			`mask = np.array(image.open(mask_image))`
			`stopwords_list = set(stopwords.words('chinese'))`
			`stopwords_target = ['都', '不', '好', '哈哈哈', '说', '还', '很', '没']`
			`for i in stopwords_target:`
			`stopwords_list.add(i)`
			`w = wordcloud.WordCloud(`
			`mask=mask,`
			`width=mask.shape[1],`
			`height=mask.shape[0],`
			`background_color='white',`
			`font_path='C:/Windows/Fonts/STLITI.TTF',`
			`stopwords=stopwords_list,`
			`)`

			`w.generate(string)`
			`# 打印词云图片`
			`w.to_file('wordcloud.jpg')`


			`if __name__ == '__main__':`
			`get_wordcloud('barrage.csv')`