You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
|
|
|
|
# -*- coding: utf-8 -*-
|
|
|
|
|
#导入 jieba 模块,用于中文分词
|
|
|
|
|
import jieba
|
|
|
|
|
import logging
|
|
|
|
|
|
|
|
|
|
# 设置jieba分词库的日志级别为WARNING
|
|
|
|
|
logging.getLogger('jieba').setLevel(logging.WARNING)
|
|
|
|
|
#从用户输入中获取文本
|
|
|
|
|
text = "联合国妇女署旗舰报告指出女性取得的进展,但是呼吁政府采取急切的行动,在世界每个国家消除导致女性比男性落后和弱势的不公正待遇。《世界女性进展:追求公正》是联合国妇女署在2011年初成立后发布的第一个主要报告。报告指出了女性进展的积极方面——例如已有139个国家和地区将性别平等纳入宪法——但是太多时候,不管在家庭还是工作场合,女性仍然面临不公正,暴力或不平等的遭遇。[ 详细 ]与联合国妇女署、搜狐公益一起,睁大眼睛,找出在个人和公共生活中,你能为性别平等所做的点滴!做出承诺,在你的人生里,成为一个支持性别平等的有责任感的公民!"
|
|
|
|
|
#使用 jieba 模块的 lcut 函数进行分词,得到一个词列表
|
|
|
|
|
# text = '创建一个空字典,用于存储词频信息'
|
|
|
|
|
words = jieba.lcut(text)
|
|
|
|
|
#创建一个空字典,用于存储词频信息
|
|
|
|
|
data = {} # 词典
|
|
|
|
|
#遍历词列表
|
|
|
|
|
for chara in words:
|
|
|
|
|
# 如果某个词的长度小于2,即不是中文,则跳过此轮循环
|
|
|
|
|
if len(chara) < 2:
|
|
|
|
|
continue
|
|
|
|
|
# 如果字典中已经存在此词,则词频加一
|
|
|
|
|
if chara in data:
|
|
|
|
|
data[chara] += 1
|
|
|
|
|
# 如果字典中不存在此词,则新建此词并设置词频为1
|
|
|
|
|
else:
|
|
|
|
|
data[chara] = 1
|
|
|
|
|
#根据词频从高到低排序字典中的项
|
|
|
|
|
data =sorted(data.items(), key=lambda x: x[1], reverse=True) # 排序
|
|
|
|
|
#打印出现次数最多的3个词及其词频,末尾不换行
|
|
|
|
|
print(data[:3],end="")
|
|
|
|
|
|
|
|
|
|
# Building prefix dict from the default dictionary ...
|
|
|
|
|
# Dumping model to file cache /tmp/jieba.cache
|
|
|
|
|
# Loading model cost 0.723 seconds.
|
|
|
|
|
# Prefix dict has been built successfully.
|