# -*- coding: utf-8 -*- #导入 jieba 模块,用于中文分词 import jieba import logging # 设置jieba分词库的日志级别为WARNING logging.getLogger('jieba').setLevel(logging.WARNING) #从用户输入中获取文本 text = "联合国妇女署旗舰报告指出女性取得的进展,但是呼吁政府采取急切的行动,在世界每个国家消除导致女性比男性落后和弱势的不公正待遇。《世界女性进展:追求公正》是联合国妇女署在2011年初成立后发布的第一个主要报告。报告指出了女性进展的积极方面——例如已有139个国家和地区将性别平等纳入宪法——但是太多时候,不管在家庭还是工作场合,女性仍然面临不公正,暴力或不平等的遭遇。[ 详细 ]与联合国妇女署、搜狐公益一起,睁大眼睛,找出在个人和公共生活中,你能为性别平等所做的点滴!做出承诺,在你的人生里,成为一个支持性别平等的有责任感的公民!" #使用 jieba 模块的 lcut 函数进行分词,得到一个词列表 # text = '创建一个空字典,用于存储词频信息' words = jieba.lcut(text) #创建一个空字典,用于存储词频信息 data = {} # 词典 #遍历词列表 for chara in words: # 如果某个词的长度小于2,即不是中文,则跳过此轮循环 if len(chara) < 2: continue # 如果字典中已经存在此词,则词频加一 if chara in data: data[chara] += 1 # 如果字典中不存在此词,则新建此词并设置词频为1 else: data[chara] = 1 #根据词频从高到低排序字典中的项 data =sorted(data.items(), key=lambda x: x[1], reverse=True) # 排序 #打印出现次数最多的3个词及其词频,末尾不换行 print(data[:3],end="") # Building prefix dict from the default dictionary ... # Dumping model to file cache /tmp/jieba.cache # Loading model cost 0.723 seconds. # Prefix dict has been built successfully.