You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.
# -*- coding: utf-8 -*-
#导入 jieba 模块,用于中文分词
import jieba
import logging
# 设置jieba分词库的日志级别为WARNING
logging . getLogger ( ' jieba ' ) . setLevel ( logging . WARNING )
#从用户输入中获取文本
text = " 联合国妇女署旗舰报告指出女性取得的进展,但是呼吁政府采取急切的行动,在世界每个国家消除导致女性比男性落后和弱势的不公正待遇。《世界女性进展:追求公正》是联合国妇女署在2011年初成立后发布的第一个主要报告。报告指出了女性进展的积极方面——例如已有139个国家和地区将性别平等纳入宪法——但是太多时候,不管在家庭还是工作场合,女性仍然面临不公正,暴力或不平等的遭遇。[ 详细 ]与联合国妇女署、搜狐公益一起,睁大眼睛,找出在个人和公共生活中,你能为性别平等所做的点滴!做出承诺,在你的人生里,成为一个支持性别平等的有责任感的公民! "
#使用 jieba 模块的 lcut 函数进行分词,得到一个词列表
# text = '创建一个空字典,用于存储词频信息'
words = jieba . lcut ( text )
#创建一个空字典,用于存储词频信息
data = { } # 词典
#遍历词列表
for chara in words :
# 如果某个词的长度小于2, 即不是中文, 则跳过此轮循环
if len ( chara ) < 2 :
continue
# 如果字典中已经存在此词,则词频加一
if chara in data :
data [ chara ] + = 1
# 如果字典中不存在此词, 则新建此词并设置词频为1
else :
data [ chara ] = 1
#根据词频从高到低排序字典中的项
data = sorted ( data . items ( ) , key = lambda x : x [ 1 ] , reverse = True ) # 排序
#打印出现次数最多的3个词及其词频, 末尾不换行
print ( data [ : 3 ] , end = " " )
# Building prefix dict from the default dictionary ...
# Dumping model to file cache /tmp/jieba.cache
# Loading model cost 0.723 seconds.
# Prefix dict has been built successfully.