一、PSP表格

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划	20	20
· Estimate	· 估计这个任务需要多少时间	1200	1440
Development	开发	1320	1440
· Analysis	· 需求分析 (包括学习新技术)	360	300
· Design Spec	· 生成设计文档	120	90
· Design Review	· 设计复审	120	180
· Coding Standard	· 代码规范 (为目前的开发制定合适的规范)	60	60
· Design	· 具体设计	180	240
· Coding	· 具体编码	240	270
· Code Review	· 代码复审	120	180
· Test	· 测试（自我测试，修改代码，提交修改）	120	120
Reporting	报告	240	210
· Test Repor	· 测试报告	60	60
· Size Measurement	· 计算工作量	60	60
· Postmortem & Process Improvement Plan	· 事后总结, 并提出过程改进计划	120	90
	· 合计	1580	1670

二、任务要求的实现

1. 项目设计与技术栈

从阅读完题目到完成作业，这一次的任务被你拆分成了几个环节？你分别通过什么渠道、使用什么方式方法完成了各个环节？列出你完成本次任务所使用的技术栈。（5'）

我个人将本次任务拆为了四个部分，分别是弹幕数据获取、数据处理与转存、词云图绘制以及附加的弹幕情绪分析。

弹幕数据获取主要是通过在B站上学习爬虫内容，查阅各种爬虫文件，辅以浏览器自带的抓包工具，最终编写出了自己的b站爬虫程序。
数据处理和转存大部分内容都是通过我个人之前的知识积累，自行完成的，部分难题则通过查找导入的第三方库函数说明文档解决。
词云图绘制仅有绘制词云图的部分去网络上搜索了相关的内容，剩余部分则是以自己的能力编写的内容。
弹幕情绪分析是通过网络上下载相关的自然语言分析模型，进行对应的情感分析，并最终输出成柱状图的形式，模型的调用部分参考了模型的说明文档。

用到的技术栈有如下内容：

文本处理和自然语言处理: jieba: 中文分词库 paddlenlp: 自然语言处理库
数据分析和科学计算: numpy: 数值计算库 pandas: 数据处理和分析库 scikit_learn: 机器学习库
数据可视化: matplotlib: 数据可视化库 wordcloud: 词云生成库
文件处理: openpyxl: Excel文件处理库 Pillow: 图像处理库
深度学习: paddlepaddle: 深度学习框架
网络请求: Requests: HTTP请求库
开发工具: pipreqs: 自动生成requirements文件 unittest: 单元测试框架 coverage: 代码覆盖率测试工具 viztracer: 代码性能分析工具 git: 版本控制工具

2. 爬虫与数据处理

说明业务逻辑，简述代码的设计过程（例如可介绍有几个类，几个函数，他们之间的关系），并对关键的函数或算法进行说明。（20'）

本程序主要功能是对b站相关视频的弹幕进行数据处理和分析，全程共用到了15个库及其库函数，自定义了13个函数以完成程序的功能设计。程序的四个部分均有一个较为主要的函数。以下是对主要函数的说明：

弹幕数据获取中的正则匹配函数re.findall()。 该部分的所有函数几乎都用到了re.findall()，所有有效信息的获取也都离不开re.findall()。它一共需要两个参数，一个是匹配字段文本，一个是数据文本，返回值是list形式的匹配字段。
数据处理与转存中的数据类型转换函数ChangeDfToString()。 该部分的后续函数都是基于ChangeDfToString()转换出来的字符串进行进行处理的。用dataframe正常转换出来字符串会有很多的空格以及莫名其妙的字符，通过这个函数可以去除无效的空格，并对每一个有效内容加以逗号分隔。它一共可以接受4个参数，原dataframe，分隔字符sep，是否保存标志isSave，保存路径filePath，返回值是分隔好的字符。
词云绘制部分的词频转换函数ChangeToFreq()。 该函数可以将分隔好的词语用TF-IDF关键词提取，并统计各类词语的词频，实现正则化，对后续的词云图绘制有较大的帮助。它接受一个参数，分隔好的字符串，返回值是词组频率的字典，键值对是词组和频率。
弹幕情绪分析部分的模型加载类Taskflow()。 该类是paddlenlp库中的Taskflow类。panddnlp是基于百度的飞浆平台搭建的自然语言处理（NLP）模型库，对中文语言分析有非常优秀的表现。利用Taskflow()类，可以搭载模型model，设定语言处理的模式schema，最后会返回一个ie模型对象，之后就可以使用ie对文本进行语言处理了。

3. 数据统计接口部分的性能改进

记录在数据统计接口的性能上所花费的时间，描述你改进的思路，并展示一张性能分析图（例如可通过VS /JProfiler的性能分析工具自动生成），并展示你程序中消耗最大的函数。（6'）

由于B站反爬虫的机制，为了防止被ban，我对程序自行设定了一定的延时，该部分就是所需时间最长的一部分函数。其他的函数性能消耗都不会很大，除了使用ie模型对文本进行语言分析处理。针对此类性能消耗，我缩小了文本量，从全文本处理改成了随机抽样处理，数据结果相差不大，但性能消耗下降了非常多。 以下是除了b站爬虫程序以外的其他程序性能消耗：

可以看到性能消耗最大的函数是ChangeDfToString()，其余函数的性能消耗都被挤到了角落

可以看到显示性能消耗最大的函数是CreateWordCloud()，但这个函数会绘制图片，关闭图片才结束统计，有一定的误差

可以看到显示性能消耗最大的是loadModel()函数后面的一串点点点，这里的每一个部分都是一次文本模型处理，性能开销非常大

这里展示的是代码的单元测试及覆盖率的内容，因为找不到适合的地方就放在这里了

4. 数据结论的可靠性

介绍结论的内容，以及通过什么数据以及何种判断方式得出此结论（6'）

本程序得出的结论比较多，以下是结论介绍和相关的数据判断：

b站用户对于弹幕讨论巴黎奥运会的ai使用并不感兴趣。 统计了b站搜索“2024巴黎奥运会”综合排序前300的视频弹幕，并对弹幕应用了ai、智能等关键字提取，最终发现基本没几个相关弹幕，弹幕数量最多的还是“该内容疑似使用AI技术合成，请谨慎甄别”，不能说和巴黎奥运会没有关系，只能说和巴黎奥运会毫不相关。
b站用户在弹幕讨论中，正向情绪远大于负向情绪。 不仅可以从词云图中看出，b站用户在巴黎奥运会相关视频发送的最多的弹幕是“哈哈哈”、“好看”、“加油”等等积极正向的词语；也能通过后续的弹幕情绪分析中看出，1000个弹幕中，正向情绪的弹幕有658个，负向情绪的弹幕有341个，正向接近负向的两倍，而且，弹幕的情绪可信度也非常高，正向与负向的情绪可信度均接近90%。 弹幕词云图 弹幕情绪倾向图

5. 数据可视化界面的展示

在博客中介绍数据可视化界面的组件和设计的思路。（15'）

数据可视化主要是通过matplotlib: 数据可视化库、wordcloud: 词云生成库以及Pillow: 图像处理库函数来实现的。

考虑到词云生成为默认的长方形不够美观，因此特地从网络上找到了巴黎奥运会吉祥物的标志性图片，并将词云图中的文字按图片颜色排版，最终得到了现在的词云图片，观感好上了不少。
虽然我利用了自然文本处理模型，对弹幕文本进行了情绪倾向分析，但这些都只是文本的内容。个人认为，单纯的文本内容表述不足以给出直观的数据展示，因此我将这部分内容以信息量最大、比较直观的正向负向柱形图的形式展现出来。

三、心得体会

在这儿写下你完成本次作业的心得体会，当然，如果你还有想表达的东西但在上面两个板块没有体现，也可以写在这儿~（10'）

本次作业是我第一次尝试以python完成一个这么大类的一个程序，也是我第一次接触到项目管理中的单元测试、代码覆盖率等待程序性能优化相关的内容，受益匪浅。不论是代码编写能力还是程序的设计能力，都有了足量的提升。不过这里想吐槽一下 ~~在2024巴黎奥运会的视频中寻找ai，真的没有搞错什么吗？~~（爬虫爬得都不自信了）

1.4 MiB Raw Blame History Unescape Escape