Update README.md

main
ppfc5brxg 7 months ago
parent 67bb98f033
commit 3f79df6d9c

@ -17,5 +17,58 @@
| · Postmortem & Process Improvement Plan | · 事后总结, 并提出过程改进计划 | 1 | 2 |
| | · 合计 | 751 | 902 |
#二、任务要求的实现
##(2.1) 项目设计与技术栈
在完成任务的过程中,我将任务拆分成以下几个阶段:
需求分析
方案设计
数据爬取
数据清洗与处理
数据分析与统计
数据可视化
性能优化
结论报告
使用的技术栈
编程语言Python
爬虫框架requests、BeautifulSoup 和json
数据处理pandas
数据库MySQL 或 MongoDB如果需要存储大量数据
可视化工具matplotlib、wordcloud
性能分析VS Code 性能分析插件
##(2.2) 爬虫与数据处理
业务逻辑:
使用python访问多个主流网站并获取与“巴黎奥运会”相关的弹幕数据。
对爬取到的弹幕数据进行清洗和过滤,提取出与 AI 相关的弹幕。
数据分析:统计弹幕中每个关键词出现的次数。
代码设计过程:
实现网页数据的爬取,数据的清洗和关键词提取,最后统计每个关键词的出现频率并生成统计报告。
关键算法说明:
使用 any() 函数检查弹幕中是否包含 AI 相关关键词
使用 Counter库进行频率统计。
##(2.3) 数据统计接口部分的性能改进
性能改进思路:
将数据处理部分的循环由串行改为并行处理(使用 multiprocessing 库)。
优化数据库读写操作,减少多余的 I/O 操作。
使用缓存技术加速重复查询。
性能分析工具:使用了 VS Code 自带的性能分析工具,找到了数据处理部分的瓶颈,并进行了优化。
性能分析图:可以在性能分析工具中生成函数调用栈和消耗时间的报告。
##(2.4) 数据结论的可靠性
结论:
关于巴黎奥运会的AI弹幕主要集中于'AI给运动员带来的帮助'例如AI能帮助运动员训练
数据依据:
基于爬取到弹幕数据,通过关键词统计得出结论。

Loading…
Cancel
Save