You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

35 lines
1.9 KiB

5 months ago
# -*- coding: utf-8 -*-
#导入 jieba 模块,用于中文分词
import jieba
import logging
# 设置jieba分词库的日志级别为WARNING
logging.getLogger('jieba').setLevel(logging.WARNING)
#从用户输入中获取文本
text = "联合国妇女署旗舰报告指出女性取得的进展,但是呼吁政府采取急切的行动,在世界每个国家消除导致女性比男性落后和弱势的不公正待遇。《世界女性进展:追求公正》是联合国妇女署在2011年初成立后发布的第一个主要报告。报告指出了女性进展的积极方面——例如已有139个国家和地区将性别平等纳入宪法——但是太多时候,不管在家庭还是工作场合,女性仍然面临不公正,暴力或不平等的遭遇。[ 详细 ]与联合国妇女署、搜狐公益一起,睁大眼睛,找出在个人和公共生活中,你能为性别平等所做的点滴!做出承诺,在你的人生里,成为一个支持性别平等的有责任感的公民!"
#使用 jieba 模块的 lcut 函数进行分词,得到一个词列表
# text = '创建一个空字典,用于存储词频信息'
words = jieba.lcut(text)
#创建一个空字典,用于存储词频信息
data = {} # 词典
#遍历词列表
for chara in words:
# 如果某个词的长度小于2即不是中文则跳过此轮循环
if len(chara) < 2:
continue
# 如果字典中已经存在此词,则词频加一
if chara in data:
data[chara] += 1
# 如果字典中不存在此词则新建此词并设置词频为1
else:
data[chara] = 1
#根据词频从高到低排序字典中的项
data =sorted(data.items(), key=lambda x: x[1], reverse=True) # 排序
#打印出现次数最多的3个词及其词频末尾不换行
print(data[:3],end="")
# Building prefix dict from the default dictionary ...
# Dumping model to file cache /tmp/jieba.cache
# Loading model cost 0.723 seconds.
# Prefix dict has been built successfully.