sample:评论样本

stopWord:停用词(固定的)
keys_TFIDF:输出的前10个关键词
练习四:评论总结(修改版)
Zrj
张荣杰 4 weeks ago
parent de667a2b17
commit d9e7c19898

@ -0,0 +1,2 @@
key
211 不了解你的专业 河工大毕业的 学校风气也很不错 学校现在在向好的方向发展 硬件设备越来越好 激励学生参与 满足不同兴趣 省外211 河工大的拟录取名单里

@ -0,0 +1,118 @@
comment
河北工业的本省招生人数占到了80%。我就是合工大的我报学校的时候我比河工大的投档线高了30多分专业随便挑但是我也就比合工大的投档线高了6、7分好专业还去不了。可能有些省分数线差不多那才几个人啊。
河工大确实是末流啊...每个省一个的政策211
河工大的拟录取名单里,一志愿和调剂标记的清清楚楚,一志愿在前面,调剂在后面,优先保护一志愿
总得来说,河工大的电气还是有一定性价比的
北工大录取分数线比河工大平均高10分河工大录取分数线平均比长安大学高4分本质上属于一个层次
河工大毕业的,不了解你的专业,学校现在在向好的方向发展,硬件设备越来越好,学校风气也很不错。
211 但是在天津
省外211
在天津不好吗?天津城市应该挺不错的吧。
但是我听我本科河北同学说很多河北人都特愿意来这个学校
学校是挺好的
河北工业大学。因为在天津。
211有空调图书馆去年开了。双一流大学硬件软件河北省内没有一个能相比的。
河工大毕业的,不了解你的专业,学校现在在向好的方向发展,硬件设备越来越好,学校风气也很不错。
对,今年开始宿舍有空调,六人间上下铺。图书馆很棒,没有体育馆游泳馆。虽然在郊区,但学校门口有个商业街能基本满足需求。
在211里整体实力一般啊河工大排名一百多名了工科实力还是可以的我也是河北考生你要是上河工大的好专业分数还是要蛮多的。另外加一句别听别人说的什么专业很容易转实际上好学校转专业难度相当大一年就那么几个名额你不考到全年级前几名都不容易转的
我上学的时候还是一个宿舍8个院部 现在叫北院),而且屋里有好几台台式机,冬天开窗户,夏天.…… 东院好像现在6个
在国内外享有极高的学术声誉。
拥有一批国内外知名的教授和研究人员。
科研项目和论文发表数量位居全国前列。
教学质量优良,课程设置全面。
与多所国际知名大学有合作关系。
毕业生就业率高尤其在IT行业。
鼓励学生参与科研与创新项目。
涵盖计算机科学的多个领域,如人工智能、网络安全等。
拥有先进的实验室和研究设施。
定期举办学术会议和讲座。
注重培养学生的实践能力与创新思维。
校友遍布全球,影响力大。
学生有机会参与大型科研项目。
积极推动跨学科的研究合作。
在推动科技进步和社会发展方面贡献显著。
课程内容紧跟技术前沿。
提供多种国际交流机会。
设有多种奖学金支持优秀学生。
为学生提供丰富的学术资源和支持。
与多家知名企业合作,提供实习机会。
积极组织和参与各类科技竞赛。
注重实践与理论相结合的人才培养模式。
强化计算机科学的基础课程。
在人工智能、机器学习等领域有前沿研究。
提供丰富的学术交流平台。
鼓励团队合作,培养协作精神。
学生社团活跃,丰富校园生活。
提供多样化的选修课程。
设有多个创新实验室。
提供职业规划和就业指导服务。
学术氛围浓厚,激励学生追求卓越。
获得丰富的科研资金支持。
注重技术成果的转化与应用。
在科学研究方面取得多项突破。
培养学生的全球视野与国际化思维。
支持学生的创业项目与创新思维。
校园文化丰富多彩,促进学生全面发展。
与多家知名企业保持紧密合作。
建立多种实践基地供学生实习。
重视学生的职业发展与生涯规划。
研究生教育体系完善,培养高层次人才。
鼓励与其他高校的交流与合作。
课程内容注重实用性和前瞻性。
鼓励学生参与开源项目。
对学生进行多维度的评估与反馈。
定期举办学术研讨会,促进学术交流。
开设创新与创业相关课程。
设计丰富的实验项目,增强动手能力。
教学内容贴近行业需求。
注重学生职业技能的培养。
鼓励学生发展领导力与组织能力。
多样化的研究方向,满足不同兴趣。
紧跟技术前沿,及时更新课程内容。
提供良好的学生支持服务。
设置多种实践课程。
积极参与各类学科竞赛。
鼓励学生发表学术论文。
为学生搭建人际网络。
注重多元文化的交流与融合。
鼓励学生进行学术发展与研究。
重视基础研究与应用研究的结合。
积极推进课程改革与创新。
提供良好的科研环境与条件。
为科研项目提供技术支持。
重视研究成果的转化与推广。
重视学生的反馈与建议。
组织与参与国际学术会议。
提供多种技能培训课程。
教授具备丰富的行业经验。
校园活动丰富多彩,激励学生参与。
课程强调理论与实践的结合。
重视科研伦理教育。
倡导终身学习的理念。
采用多样化的评价方式。
注重学生职业素养的培养。
丰富的学术资源支持。
校园设施现代化,支持学习与研究。
课程设置灵活,适应不同需求。
提供良好的学习支持服务。
重视学生的职业规划与发展。
强调学生的社会责任感。
培养具有国际视野的人才。
提供技术挑战与项目实践机会。
注重学生的基础知识积累。
建立多样化的科研团队。
培养学生的项目管理能力。
组织校园内的各类竞赛。
建立完善的导师制度。
鼓励学生参与学术期刊的编辑与出版。
提供丰富的科研机会。
强调实用技能的培养。
重视团队建设与合作。
丰富的文化活动促进学生综合发展。
定期举办学术论坛,促进思想交流。
积极开展技术研讨活动。
设立多种科学实验项目。
鼓励学生发表论文于学术期刊。
与社会各界保持良好的联系。
注重研究的基础理论与应用实践。
培养学生的综合素质与能力。

File diff suppressed because it is too large Load Diff

@ -0,0 +1,72 @@
import sys
import codecs
import pandas as pd
import numpy as np
import jieba.posseg
import jieba.analyse
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
# 数据预处理操作:分词,去停用词,词性筛选
def dataPrepos(text, stopkey):
l = []
pos = ['n', 'nz', 'v', 'vd', 'vn', 'l', 'a', 'd'] # 定义选取的词性
seg = jieba.posseg.cut(text) # 分词
for i in seg:
if i.word not in stopkey and i.flag in pos: # 去停用词 + 词性筛选
l.append(i.word)
return l
# tf-idf获取文本topK关键词
def getKeywords_tfidf(corpus, stopkey, topK):
# 1、构建词频矩阵将文本中的词语转换成词频矩阵
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus) # 词频矩阵
# 2、统计每个词的tf-idf权值
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)
# 3、获取词袋模型中的关键词
word = vectorizer.get_feature_names_out()
# 4、获取tf-idf矩阵
weight = tfidf.toarray()
# 5、打印词语权重
keys = []
for i in range(len(weight)):
print("-------这里输出第", i + 1, "篇文本的词语tf-idf------")
df_word, df_weight = [], [] # 当前文章的所有词汇列表、词汇对应权重列表
for j in range(len(word)):
print(word[j], weight[i][j])
df_word.append(word[j])
df_weight.append(weight[i][j])
df_word = pd.DataFrame(df_word, columns=['word'])
df_weight = pd.DataFrame(df_weight, columns=['weight'])
word_weight = pd.concat([df_word, df_weight], axis=1) # 拼接词汇列表和权重列表
word_weight = word_weight.sort_values(by="weight", ascending=False) # 按照权重值降序排列
keyword = np.array(word_weight['word']) # 选择词汇列并转成数组格式
word_split = " ".join(keyword[:topK]) # 抽取前topK个词汇作为关键词
keys.append(word_split)
return keys
def main():
# 读取文本文件
dataFile = 'data/sample.txt'
with codecs.open(dataFile, 'r', encoding='utf-8') as file:
corpus = file.read().strip() # 读取整个文件并去除空行
# 停用词表
stopkey = [w.strip() for w in codecs.open('data/stopWord.txt', 'r', encoding='utf-8').readlines()]
# tf-idf关键词抽取
result = getKeywords_tfidf([corpus], stopkey, 10) # 将整个文本作为一个文档传入
# 将结果保存到DataFrame并导出为CSV
result_df = pd.DataFrame({"key": result}, columns=['key'])
result_df.to_csv("data/keys_TFIDF.txt", index=False)
if __name__ == '__main__':
main()
Loading…
Cancel
Save