From 3f79df6d9c13f2e1539b08d1afd5bb1b60cabb38 Mon Sep 17 00:00:00 2001 From: ppfc5brxg <508446093@qq.com> Date: Mon, 16 Sep 2024 00:23:11 +0800 Subject: [PATCH] Update README.md --- README.md | 55 ++++++++++++++++++++++++++++++++++++++++++++++++++++++- 1 file changed, 54 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 1dd7262..cba1172 100644 --- a/README.md +++ b/README.md @@ -17,5 +17,58 @@ | · Postmortem & Process Improvement Plan | · 事后总结, 并提出过程改进计划 | 1 | 2 | | | · 合计 | 751 | 902 | - + #二、任务要求的实现 + +##(2.1) 项目设计与技术栈 +在完成任务的过程中,我将任务拆分成以下几个阶段: +需求分析 +方案设计 +数据爬取 +数据清洗与处理 +数据分析与统计 +数据可视化 +性能优化 +结论报告 +使用的技术栈 +编程语言:Python +爬虫框架:requests、BeautifulSoup 和json +数据处理:pandas +数据库:MySQL 或 MongoDB(如果需要存储大量数据) +可视化工具:matplotlib、wordcloud + 性能分析:VS Code 性能分析插件 + +##(2.2) 爬虫与数据处理 + +业务逻辑: +使用python访问多个主流网站并获取与“巴黎奥运会”相关的弹幕数据。 +对爬取到的弹幕数据进行清洗和过滤,提取出与 AI 相关的弹幕。 +数据分析:统计弹幕中每个关键词出现的次数。 + +代码设计过程: +实现网页数据的爬取,数据的清洗和关键词提取,最后统计每个关键词的出现频率并生成统计报告。 +关键算法说明: + +使用 any() 函数检查弹幕中是否包含 AI 相关关键词 + +使用 Counter库进行频率统计。 + +##(2.3) 数据统计接口部分的性能改进 + +性能改进思路: + +将数据处理部分的循环由串行改为并行处理(使用 multiprocessing 库)。 +优化数据库读写操作,减少多余的 I/O 操作。 +使用缓存技术加速重复查询。 +性能分析工具:使用了 VS Code 自带的性能分析工具,找到了数据处理部分的瓶颈,并进行了优化。 + +性能分析图:可以在性能分析工具中生成函数调用栈和消耗时间的报告。 + +##(2.4) 数据结论的可靠性 +结论: + +关于巴黎奥运会的AI弹幕,主要集中于'AI给运动员带来的帮助',例如AI能帮助运动员训练 + +数据依据: + +基于爬取到弹幕数据,通过关键词统计得出结论。