sample:评论样本

stopWord:停用词（固定的） keys_TFIDF：输出的前10个关键词练习四：评论总结（修改版）
4 weeks ago · d9e7c19898
parent de667a2b17
commit d9e7c19898
4 changed files with 2085 additions and 0 deletions
--- a/data/keys_TFIDF.txt
+++ b/data/keys_TFIDF.txt
@ -0,0 +1,2 @@
+key
+211 不了解你的专业 河工大毕业的 学校风气也很不错 学校现在在向好的方向发展 硬件设备越来越好 激励学生参与 满足不同兴趣 省外211 河工大的拟录取名单里
--- a/data/sample.txt
+++ b/data/sample.txt
@ -0,0 +1,118 @@
+comment
+河北工业的本省招生人数占到了80%。我就是合工大的，我报学校的时候，我比河工大的投档线高了30多分，专业随便挑，但是我也就比合工大的投档线高了6、7分，好专业还去不了。可能有些省分数线差不多，那才几个人啊。
+河工大确实是末流啊...每个省一个的政策211
+河工大的拟录取名单里，一志愿和调剂标记的清清楚楚，一志愿在前面，调剂在后面，优先保护一志愿
+总得来说，河工大的电气还是有一定性价比的
+北工大录取分数线比河工大平均高10分，河工大录取分数线平均比长安大学高4分，本质上属于一个层次
+河工大毕业的，不了解你的专业，学校现在在向好的方向发展，硬件设备越来越好，学校风气也很不错。
+211 但是在天津
+省外211
+在天津不好吗？天津城市应该挺不错的吧。
+但是我听我本科河北同学说很多河北人都特愿意来这个学校
+学校是挺好的
+河北工业大学。因为在天津。
+211，有空调，图书馆去年开了。双一流大学，硬件软件河北省内没有一个能相比的。
+河工大毕业的，不了解你的专业，学校现在在向好的方向发展，硬件设备越来越好，学校风气也很不错。
+对，今年开始宿舍有空调，六人间上下铺。图书馆很棒，没有体育馆游泳馆。虽然在郊区，但学校门口有个商业街能基本满足需求。
+在211里整体实力一般啊，河工大排名一百多名了，工科实力还是可以的，我也是河北考生，你要是上河工大的好专业分数还是要蛮多的。另外加一句，别听别人说的什么专业很容易转，实际上好学校转专业难度相当大，一年就那么几个名额，你不考到全年级前几名都不容易转的
+我上学的时候还是一个宿舍8个（院部 现在叫北院），而且屋里有好几台台式机，冬天开窗户，夏天.…… 东院好像现在6个
+在国内外享有极高的学术声誉。
+拥有一批国内外知名的教授和研究人员。
+科研项目和论文发表数量位居全国前列。
+教学质量优良，课程设置全面。
+与多所国际知名大学有合作关系。
+毕业生就业率高，尤其在IT行业。
+鼓励学生参与科研与创新项目。
+涵盖计算机科学的多个领域，如人工智能、网络安全等。
+拥有先进的实验室和研究设施。
+定期举办学术会议和讲座。
+注重培养学生的实践能力与创新思维。
+校友遍布全球，影响力大。
+学生有机会参与大型科研项目。
+积极推动跨学科的研究合作。
+在推动科技进步和社会发展方面贡献显著。
+课程内容紧跟技术前沿。
+提供多种国际交流机会。
+设有多种奖学金支持优秀学生。
+为学生提供丰富的学术资源和支持。
+与多家知名企业合作，提供实习机会。
+积极组织和参与各类科技竞赛。
+注重实践与理论相结合的人才培养模式。
+强化计算机科学的基础课程。
+在人工智能、机器学习等领域有前沿研究。
+提供丰富的学术交流平台。
+鼓励团队合作，培养协作精神。
+学生社团活跃，丰富校园生活。
+提供多样化的选修课程。
+设有多个创新实验室。
+提供职业规划和就业指导服务。
+学术氛围浓厚，激励学生追求卓越。
+获得丰富的科研资金支持。
+注重技术成果的转化与应用。
+在科学研究方面取得多项突破。
+培养学生的全球视野与国际化思维。
+支持学生的创业项目与创新思维。
+校园文化丰富多彩，促进学生全面发展。
+与多家知名企业保持紧密合作。
+建立多种实践基地供学生实习。
+重视学生的职业发展与生涯规划。
+研究生教育体系完善，培养高层次人才。
+鼓励与其他高校的交流与合作。
+课程内容注重实用性和前瞻性。
+鼓励学生参与开源项目。
+对学生进行多维度的评估与反馈。
+定期举办学术研讨会，促进学术交流。
+开设创新与创业相关课程。
+设计丰富的实验项目，增强动手能力。
+教学内容贴近行业需求。
+注重学生职业技能的培养。
+鼓励学生发展领导力与组织能力。
+多样化的研究方向，满足不同兴趣。
+紧跟技术前沿，及时更新课程内容。
+提供良好的学生支持服务。
+设置多种实践课程。
+积极参与各类学科竞赛。
+鼓励学生发表学术论文。
+为学生搭建人际网络。
+注重多元文化的交流与融合。
+鼓励学生进行学术发展与研究。
+重视基础研究与应用研究的结合。
+积极推进课程改革与创新。
+提供良好的科研环境与条件。
+为科研项目提供技术支持。
+重视研究成果的转化与推广。
+重视学生的反馈与建议。
+组织与参与国际学术会议。
+提供多种技能培训课程。
+教授具备丰富的行业经验。
+校园活动丰富多彩，激励学生参与。
+课程强调理论与实践的结合。
+重视科研伦理教育。
+倡导终身学习的理念。
+采用多样化的评价方式。
+注重学生职业素养的培养。
+丰富的学术资源支持。
+校园设施现代化，支持学习与研究。
+课程设置灵活，适应不同需求。
+提供良好的学习支持服务。
+重视学生的职业规划与发展。
+强调学生的社会责任感。
+培养具有国际视野的人才。
+提供技术挑战与项目实践机会。
+注重学生的基础知识积累。
+建立多样化的科研团队。
+培养学生的项目管理能力。
+组织校园内的各类竞赛。
+建立完善的导师制度。
+鼓励学生参与学术期刊的编辑与出版。
+提供丰富的科研机会。
+强调实用技能的培养。
+重视团队建设与合作。
+丰富的文化活动促进学生综合发展。
+定期举办学术论坛，促进思想交流。
+积极开展技术研讨活动。
+设立多种科学实验项目。
+鼓励学生发表论文于学术期刊。
+与社会各界保持良好的联系。
+注重研究的基础理论与应用实践。
+培养学生的综合素质与能力。
--- a/data/stopWord.txt
+++ b/data/stopWord.txt
--- a/练习四.py
+++ b/练习四.py
@ -0,0 +1,72 @@
+import sys
+import codecs
+import pandas as pd
+import numpy as np
+import jieba.posseg
+import jieba.analyse
+from sklearn.feature_extraction.text import TfidfTransformer
+from sklearn.feature_extraction.text import CountVectorizer
+
+
+# 数据预处理操作：分词，去停用词，词性筛选
+def dataPrepos(text, stopkey):
+    l = []
+    pos = ['n', 'nz', 'v', 'vd', 'vn', 'l', 'a', 'd']  # 定义选取的词性
+    seg = jieba.posseg.cut(text)  # 分词
+    for i in seg:
+        if i.word not in stopkey and i.flag in pos:  # 去停用词 + 词性筛选
+            l.append(i.word)
+    return l
+
+
+# tf-idf获取文本topK关键词
+def getKeywords_tfidf(corpus, stopkey, topK):
+    # 1、构建词频矩阵，将文本中的词语转换成词频矩阵
+    vectorizer = CountVectorizer()
+    X = vectorizer.fit_transform(corpus)  # 词频矩阵
+    # 2、统计每个词的tf-idf权值
+    transformer = TfidfTransformer()
+    tfidf = transformer.fit_transform(X)
+    # 3、获取词袋模型中的关键词
+    word = vectorizer.get_feature_names_out()
+    # 4、获取tf-idf矩阵
+    weight = tfidf.toarray()
+
+    # 5、打印词语权重
+    keys = []
+    for i in range(len(weight)):
+        print("-------这里输出第", i + 1, "篇文本的词语tf-idf------")
+        df_word, df_weight = [], []  # 当前文章的所有词汇列表、词汇对应权重列表
+        for j in range(len(word)):
+            print(word[j], weight[i][j])
+            df_word.append(word[j])
+            df_weight.append(weight[i][j])
+        df_word = pd.DataFrame(df_word, columns=['word'])
+        df_weight = pd.DataFrame(df_weight, columns=['weight'])
+        word_weight = pd.concat([df_word, df_weight], axis=1)  # 拼接词汇列表和权重列表
+        word_weight = word_weight.sort_values(by="weight", ascending=False)  # 按照权重值降序排列
+        keyword = np.array(word_weight['word'])  # 选择词汇列并转成数组格式
+        word_split = " ".join(keyword[:topK])  # 抽取前topK个词汇作为关键词
+        keys.append(word_split)
+    return keys
+
+
+def main():
+    # 读取文本文件
+    dataFile = 'data/sample.txt'
+    with codecs.open(dataFile, 'r', encoding='utf-8') as file:
+        corpus = file.read().strip()  # 读取整个文件并去除空行
+
+    # 停用词表
+    stopkey = [w.strip() for w in codecs.open('data/stopWord.txt', 'r', encoding='utf-8').readlines()]
+
+    # tf-idf关键词抽取
+    result = getKeywords_tfidf([corpus], stopkey, 10)  # 将整个文本作为一个文档传入
+
+    # 将结果保存到DataFrame并导出为CSV
+    result_df = pd.DataFrame({"key": result}, columns=['key'])
+    result_df.to_csv("data/keys_TFIDF.txt", index=False)
+
+
+if __name__ == '__main__':
+    main()