You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
cflsxjw
ffe5a1a7be
|
2 months ago | |
---|---|---|
.idea | 2 months ago | |
README.md | 2 months ago | |
crawlerCore.py | 2 months ago | |
font.ttf | 2 months ago | |
main.py | 2 months ago | |
requirements.txt | 2 months ago |
README.md
一、PSP表格
PSP2.1 | Personal Software Process Stages | 预估耗时(分钟) | 实际耗时(分钟) |
---|---|---|---|
Planning | 计划 | ||
· Estimate | · 估计这个任务需要多少时间 | 30 | 30 |
Development | 开发 | ||
· Analysis | · 需求分析 (包括学习新技术) | 240 | 240 |
· Design Spec | · 生成设计文档 | 120 | 120 |
· Design Review | · 设计复审 | 30 | 30 |
· Coding Standard | · 代码规范 (为目前的开发制定合适的规范) | 30 | 30 |
· Design | · 具体设计 | 180 | 180 |
· Coding | · 具体编码 | 1200 | 1200 |
· Code Review | · 代码复审 | 120 | 120 |
· Test | · 测试(自我测试,修改代码,提交修改) | 180 | 180 |
Reporting | 报告 | ||
· Test Report | · 测试报告 | 240 | 240 |
· Size Measurement | · 计算工作量 | 60 | 60 |
· Postmortem & Process Improvement Plan | · 事后总结, 并提出过程改进计划 | 60 | 60 |
· 合计 | 2490 | 2490 |
二、任务要求的实现
(2.1)项目设计与技术栈
主要流程
- 初步查询有关教程,了解工具
- 进行弹幕爬虫编写
- 云图生成
技术栈
- 使用Python3脚本语言
- 网页数据请求:requests
- 数据解析:beautiful soup 4
- 数据筛选:正则表达式(re)
- 云图生成:jieba(单词提取) wordcloud(图生成)
(2.2)爬虫与数据处理
- 获取搜索结果bv(视频号)列表
- 由bv列表获取cid(视频弹幕文件号)
- 获取弹幕列表
- 筛选符合关键词的弹幕
(2.3)数据统计接口部分的性能改进
消耗最大的函数是request函数,可见网络请求及传输对性能影响最大
(2.4)数据结论的可靠性
原始数据相当少,无法得到有效的结论
(2.5)数据可视化界面的展示
云图使用wordcloud创建
三、心得体会
本次作业锻炼了解决问题的能力,对实际项目的开发流程有了初步的认识,提升了学科素养