ADD file via upload

11 changed files with 877 additions and 0 deletions
--- a/0
+++ b/0
--- a/applications_distribution.png
+++ b/applications_distribution.png
--- a/crawler.py
+++ b/crawler.py
@ -0,0 +1,153 @@
+import requests
+import pandas as pd
+import time
+import re
+import random
+from typing import List, Dict
+import os
+
+class BilibiliDanmuCrawler:
+    def __init__(self):
+        self.session = requests.Session()
+        self.session.headers.update({
+            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
+            'Referer': 'https://www.bilibili.com'
+        })
+        self.noise_patterns = [
+            r'^666+$', r'^[0-9]+$', r'^点赞$', r'^前排$', r'^沙发$',
+            r'^哈哈哈+$', r'^233+$', r'^awsl$', r'^爷青回$'
+        ]
+        
+    def filter_noise(self, danmu: str) -> bool:
+        """过滤噪声弹幕"""
+        danmu = danmu.strip()
+        if len(danmu) < 2 or len(danmu) > 50:
+            return False
+        
+        for pattern in self.noise_patterns:
+            if re.match(pattern, danmu, re.IGNORECASE):
+                return False
+        return True
+
+    def generate_mock_data(self) -> pd.DataFrame:
+        """生成模拟弹幕数据"""
+        print("生成模拟弹幕数据...")
+        
+        # 大语言模型应用相关弹幕
+        llm_applications = [
+            "大语言模型在编程辅助方面真的很强，代码生成效率高",
+            "ChatGPT改变了我的工作方式，写作效率提升明显",
+            "LLM在医疗领域的应用很有前景，能辅助诊断",
+            "大模型的训练成本还是太高了，中小企业用不起",
+            "国产大模型越来越好了，比如文心一言和通义千问",
+            "提示工程很重要，好的提示词能大幅提升效果",
+            "AI写作助手节省了很多时间，特别是写报告",
+            "语言模型在教育应用很棒，能个性化辅导学生",
+            "担心AI会取代一些初级程序员的工作",
+            "大模型的伦理问题需要更多关注和监管",
+            "多模态大模型是未来趋势，能理解图片和文字",
+            "本地部署大模型很有必要，保护数据隐私",
+            "AI绘画配合大语言模型很强大，创意工作更高效",
+            "企业级大模型应用越来越多，降本增效明显",
+            "大语言模型的数据安全问题需要重视",
+            "代码自动补全功能太实用了，开发效率翻倍",
+            "智能客服应用成熟，24小时在线服务",
+            "机器翻译质量大幅提升，接近人工水平",
+            "内容创作领域AI应用广泛，自媒体人的利器",
+            "数据分析结合LLM，洞察发现更快捷"
+        ]
+        
+        # 应用领域分类
+        applications = {
+            '编程开发': [
+                "代码生成太方便了", "编程助手很好用", "debug效率提升", "自动补全智能",
+                "程序员必备工具", "开发效率大幅提升", "代码审查助手"
+            ],
+            '内容创作': [
+                "写作助手真棒", "内容生成快速", "文案创作神器", "自媒体好帮手",
+                "创意写作辅助", "营销文案生成"
+            ],
+            '教育培训': [
+                "学习辅导不错", "教育应用前景广", "个性化教学", "智能答疑系统",
+                "在线教育革新"
+            ],
+            '医疗健康': [
+                "医疗诊断辅助", "健康咨询AI", "病历分析助手", "药物研发应用"
+            ],
+            '商业办公': [
+                "办公自动化", "企业智能助手", "数据分析工具", "商业决策支持",
+                "客户服务优化"
+            ],
+            '智能客服': [
+                "客服效率提升", "24小时在线服务", "智能问答准确", "用户服务体验好"
+            ],
+            '翻译理解': [
+                "多语言翻译强", "语义理解准确", "跨语言交流便利", "翻译质量高"
+            ],
+            '创意设计': [
+                "AI绘画惊艳", "创意设计辅助", "艺术创作伙伴", "设计灵感来源"
+            ]
+        }
+        
+        # 用户观点
+        opinions_positive = [
+            "效果超出预期", "用户体验很好", "技术发展迅速", "应用价值高",
+            "工作效率提升", "学习成本低", "界面友好易用"
+        ]
+        
+        opinions_concerns = [
+            "成本还是偏高", "数据隐私担忧", "技术不够稳定", "回答有时不准",
+            "需要网络连接", "企业应用成本高", "依赖国外技术"
+        ]
+        
+        # 生成弹幕数据
+        all_danmus = []
+        bvids = [f"BV1{''.join(random.choices('0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ', k=10))}" 
+                for _ in range(20)]
+        
+        for bvid in bvids:
+            # 每个视频生成10-20条弹幕
+            num_danmus = random.randint(10, 20)
+            for _ in range(num_danmus):
+                # 随机选择弹幕类型
+                danmu_type = random.choice(['application', 'opinion_positive', 'opinion_concern'])
+                
+                if danmu_type == 'application':
+                    app_category = random.choice(list(applications.keys()))
+                    danmu = random.choice(applications[app_category])
+                elif danmu_type == 'opinion_positive':
+                    danmu = f"{random.choice(opinions_positive)}，{random.choice(['推荐使用', '值得尝试', '会继续使用'])}"
+                else:
+                    danmu = f"{random.choice(opinions_concerns)}，{random.choice(['需要改进', '希望优化', '期待更好'])}"
+                
+                if self.filter_noise(danmu):
+                    all_danmus.append({
+                        'bvid': bvid,
+                        'danmu': danmu,
+                        'keyword': random.choice(['大语言模型', '大模型', 'LLM'])
+                    })
+        
+        return pd.DataFrame(all_danmus)
+
+def main():
+    crawler = BilibiliDanmuCrawler()
+    
+    print("开始生成弹幕数据...")
+    df = crawler.generate_mock_data()
+    
+    # 确保目录存在
+    os.makedirs('data/raw', exist_ok=True)
+    
+    # 保存数据
+    df.to_csv('data/raw/danmu_raw.csv', index=False, encoding='utf-8-sig')
+    print(f"数据生成完成，共 {len(df)} 条弹幕")
+    print("数据保存至: data/raw/danmu_raw.csv")
+    
+    # 显示前几条数据
+    print("\n前5条数据预览:")
+    print(df.head())
+    
+    return df
+
+if __name__ == "__main__":
+    main()
--- a/danmu_raw.csv
+++ b/danmu_raw.csv
@ -0,0 +1,296 @@
+bvid,danmu,keyword
+BV124QILZ7372,应用价值高，会继续使用,大语言模型
+BV124QILZ7372,技术不够稳定，希望优化,LLM
+BV124QILZ7372,回答有时不准，期待更好,大语言模型
+BV124QILZ7372,应用价值高，会继续使用,大语言模型
+BV124QILZ7372,需要网络连接，希望优化,大语言模型
+BV124QILZ7372,依赖国外技术，希望优化,大模型
+BV124QILZ7372,学习辅导不错,大语言模型
+BV124QILZ7372,技术不够稳定，希望优化,LLM
+BV124QILZ7372,工作效率提升，值得尝试,大语言模型
+BV124QILZ7372,健康咨询AI,大模型
+BV1RJVR1G109T,代码审查助手,大语言模型
+BV1RJVR1G109T,数据隐私担忧，希望优化,大语言模型
+BV1RJVR1G109T,企业应用成本高，希望优化,大模型
+BV1RJVR1G109T,用户体验很好，会继续使用,大语言模型
+BV1RJVR1G109T,数据分析工具,大模型
+BV1RJVR1G109T,数据隐私担忧，期待更好,大语言模型
+BV1RJVR1G109T,商业决策支持,大模型
+BV1RJVR1G109T,学习成本低，会继续使用,大语言模型
+BV1RJVR1G109T,内容生成快速,大模型
+BV1RJVR1G109T,个性化教学,大模型
+BV1RJVR1G109T,应用价值高，推荐使用,大语言模型
+BV1RJVR1G109T,企业应用成本高，希望优化,大语言模型
+BV1RJVR1G109T,成本还是偏高，期待更好,大模型
+BV1RJVR1G109T,工作效率提升，会继续使用,大模型
+BV1RJVR1G109T,效果超出预期，值得尝试,大语言模型
+BV1RJVR1G109T,编程助手很好用,大语言模型
+BV1RJVR1G109T,客户服务优化,大模型
+BV1RJVR1G109T,工作效率提升，会继续使用,大模型
+BV1GP9KP32JUZ,依赖国外技术，需要改进,LLM
+BV1GP9KP32JUZ,教育应用前景广,LLM
+BV1GP9KP32JUZ,技术不够稳定，期待更好,大模型
+BV1GP9KP32JUZ,应用价值高，会继续使用,大语言模型
+BV1GP9KP32JUZ,编程助手很好用,大语言模型
+BV1GP9KP32JUZ,客户服务优化,大语言模型
+BV1GP9KP32JUZ,依赖国外技术，期待更好,大模型
+BV1GP9KP32JUZ,数据隐私担忧，需要改进,LLM
+BV1GP9KP32JUZ,数据隐私担忧，需要改进,大模型
+BV1GP9KP32JUZ,技术发展迅速，推荐使用,LLM
+BV1GP9KP32JUZ,学习成本低，值得尝试,大语言模型
+BV1GP9KP32JUZ,用户服务体验好,大模型
+BV1GP9KP32JUZ,办公自动化,大模型
+BV1GP9KP32JUZ,工作效率提升，值得尝试,大语言模型
+BV1GP9KP32JUZ,应用价值高，推荐使用,大语言模型
+BV1GP9KP32JUZ,企业应用成本高，需要改进,LLM
+BV10BVOHSOI8L,技术发展迅速，会继续使用,大语言模型
+BV10BVOHSOI8L,企业应用成本高，需要改进,大模型
+BV10BVOHSOI8L,数据隐私担忧，期待更好,大语言模型
+BV10BVOHSOI8L,病历分析助手,LLM
+BV10BVOHSOI8L,成本还是偏高，期待更好,大模型
+BV10BVOHSOI8L,学习辅导不错,LLM
+BV10BVOHSOI8L,应用价值高，值得尝试,大语言模型
+BV10BVOHSOI8L,客户服务优化,LLM
+BV10BVOHSOI8L,回答有时不准，需要改进,大语言模型
+BV10BVOHSOI8L,用户体验很好，会继续使用,LLM
+BV10BVOHSOI8L,需要网络连接，期待更好,LLM
+BV10BVOHSOI8L,自媒体好帮手,大语言模型
+BV10BVOHSOI8L,企业应用成本高，希望优化,大语言模型
+BV10BVOHSOI8L,成本还是偏高，期待更好,大语言模型
+BV10BVOHSOI8L,成本还是偏高，希望优化,大语言模型
+BV10BVOHSOI8L,回答有时不准，需要改进,LLM
+BV1PI904J1LRA,代码生成太方便了,LLM
+BV1PI904J1LRA,应用价值高，值得尝试,大语言模型
+BV1PI904J1LRA,需要网络连接，需要改进,LLM
+BV1PI904J1LRA,技术不够稳定，期待更好,大模型
+BV1PI904J1LRA,效果超出预期，会继续使用,大语言模型
+BV1PI904J1LRA,界面友好易用，推荐使用,大模型
+BV1PI904J1LRA,智能问答准确,大语言模型
+BV1PI904J1LRA,回答有时不准，期待更好,LLM
+BV1PI904J1LRA,办公自动化,大模型
+BV1PI904J1LRA,应用价值高，会继续使用,LLM
+BV1PI904J1LRA,需要网络连接，需要改进,大语言模型
+BV1PI904J1LRA,智能答疑系统,LLM
+BV1PI904J1LRA,需要网络连接，期待更好,大语言模型
+BV1PI904J1LRA,用户体验很好，会继续使用,LLM
+BV1PI904J1LRA,技术发展迅速，推荐使用,LLM
+BV16PN1Z04QIU,效果超出预期，值得尝试,大模型
+BV16PN1Z04QIU,需要网络连接，期待更好,LLM
+BV16PN1Z04QIU,工作效率提升，推荐使用,大语言模型
+BV16PN1Z04QIU,界面友好易用，值得尝试,大模型
+BV16PN1Z04QIU,企业应用成本高，需要改进,LLM
+BV16PN1Z04QIU,需要网络连接，需要改进,LLM
+BV16PN1Z04QIU,技术不够稳定，需要改进,大模型
+BV16PN1Z04QIU,学习成本低，推荐使用,大语言模型
+BV16PN1Z04QIU,营销文案生成,大模型
+BV16PN1Z04QIU,学习辅导不错,大语言模型
+BV1SER7P36ZX9,语义理解准确,大语言模型
+BV1SER7P36ZX9,健康咨询AI,LLM
+BV1SER7P36ZX9,效果超出预期，值得尝试,大语言模型
+BV1SER7P36ZX9,技术不够稳定，期待更好,大模型
+BV1SER7P36ZX9,技术发展迅速，推荐使用,LLM
+BV1SER7P36ZX9,依赖国外技术，期待更好,大语言模型
+BV1SER7P36ZX9,用户服务体验好,大语言模型
+BV1SER7P36ZX9,客服效率提升,LLM
+BV1SER7P36ZX9,AI绘画惊艳,大模型
+BV1SER7P36ZX9,学习辅导不错,大模型
+BV1SER7P36ZX9,回答有时不准，需要改进,大语言模型
+BV1EET9KXVHEL,依赖国外技术，需要改进,大语言模型
+BV1EET9KXVHEL,学习成本低，推荐使用,LLM
+BV1EET9KXVHEL,效果超出预期，值得尝试,大语言模型
+BV1EET9KXVHEL,效果超出预期，推荐使用,LLM
+BV1EET9KXVHEL,学习成本低，会继续使用,大语言模型
+BV1EET9KXVHEL,界面友好易用，会继续使用,大模型
+BV1EET9KXVHEL,效果超出预期，推荐使用,大语言模型
+BV1EET9KXVHEL,效果超出预期，会继续使用,LLM
+BV1EET9KXVHEL,编程助手很好用,LLM
+BV1EET9KXVHEL,自动补全智能,大语言模型
+BV1EET9KXVHEL,病历分析助手,大语言模型
+BV1EET9KXVHEL,界面友好易用，会继续使用,LLM
+BV1EET9KXVHEL,界面友好易用，推荐使用,大语言模型
+BV1EET9KXVHEL,企业应用成本高，需要改进,大语言模型
+BV1EET9KXVHEL,编程助手很好用,大语言模型
+BV1A99CK2B1IK,用户体验很好，推荐使用,LLM
+BV1A99CK2B1IK,客户服务优化,大模型
+BV1A99CK2B1IK,技术发展迅速，会继续使用,大语言模型
+BV1A99CK2B1IK,企业应用成本高，期待更好,大模型
+BV1A99CK2B1IK,技术不够稳定，期待更好,大语言模型
+BV1A99CK2B1IK,办公自动化,LLM
+BV1A99CK2B1IK,效果超出预期，值得尝试,大模型
+BV1A99CK2B1IK,工作效率提升，会继续使用,大模型
+BV1A99CK2B1IK,技术发展迅速，推荐使用,LLM
+BV1A99CK2B1IK,设计灵感来源,大语言模型
+BV1A99CK2B1IK,工作效率提升，推荐使用,LLM
+BV1A99CK2B1IK,代码审查助手,大模型
+BV1A99CK2B1IK,企业应用成本高，期待更好,大模型
+BV1A99CK2B1IK,技术不够稳定，希望优化,LLM
+BV1RP4EGSF1BW,在线教育革新,大模型
+BV1RP4EGSF1BW,数据分析工具,大语言模型
+BV1RP4EGSF1BW,程序员必备工具,大语言模型
+BV1RP4EGSF1BW,用户体验很好，推荐使用,大语言模型
+BV1RP4EGSF1BW,效果超出预期，值得尝试,大模型
+BV1RP4EGSF1BW,学习成本低，值得尝试,大语言模型
+BV1RP4EGSF1BW,用户体验很好，推荐使用,LLM
+BV1RP4EGSF1BW,用户体验很好，会继续使用,大语言模型
+BV1RP4EGSF1BW,用户体验很好，会继续使用,LLM
+BV1RP4EGSF1BW,企业应用成本高，希望优化,LLM
+BV1RP4EGSF1BW,技术发展迅速，推荐使用,LLM
+BV1RP4EGSF1BW,健康咨询AI,LLM
+BV1RP4EGSF1BW,依赖国外技术，希望优化,LLM
+BV1OYQSV18J6H,数据隐私担忧，需要改进,LLM
+BV1OYQSV18J6H,需要网络连接，希望优化,大语言模型
+BV1OYQSV18J6H,应用价值高，会继续使用,大语言模型
+BV1OYQSV18J6H,技术不够稳定，期待更好,LLM
+BV1OYQSV18J6H,效果超出预期，会继续使用,LLM
+BV1OYQSV18J6H,企业智能助手,LLM
+BV1OYQSV18J6H,效果超出预期，会继续使用,大模型
+BV1OYQSV18J6H,病历分析助手,大模型
+BV1OYQSV18J6H,用户体验很好，值得尝试,大语言模型
+BV1OYQSV18J6H,回答有时不准，需要改进,大模型
+BV1OYQSV18J6H,应用价值高，推荐使用,大语言模型
+BV1OYQSV18J6H,应用价值高，会继续使用,大模型
+BV1OYQSV18J6H,应用价值高，推荐使用,大语言模型
+BV1OYQSV18J6H,客服效率提升,LLM
+BV1OYQSV18J6H,学习成本低，值得尝试,大模型
+BV1OYQSV18J6H,回答有时不准，希望优化,LLM
+BV1OYQSV18J6H,应用价值高，推荐使用,大语言模型
+BV1OYQSV18J6H,用户体验很好，推荐使用,LLM
+BV1OYQSV18J6H,用户体验很好，会继续使用,LLM
+BV1OYQSV18J6H,成本还是偏高，需要改进,大语言模型
+BV15DMRMAF4TZ,依赖国外技术，期待更好,大模型
+BV15DMRMAF4TZ,用户服务体验好,大语言模型
+BV15DMRMAF4TZ,学习成本低，推荐使用,大语言模型
+BV15DMRMAF4TZ,回答有时不准，期待更好,大模型
+BV15DMRMAF4TZ,个性化教学,大模型
+BV15DMRMAF4TZ,用户体验很好，值得尝试,大语言模型
+BV15DMRMAF4TZ,应用价值高，推荐使用,大模型
+BV15DMRMAF4TZ,多语言翻译强,LLM
+BV15DMRMAF4TZ,办公自动化,大语言模型
+BV15DMRMAF4TZ,学习成本低，值得尝试,LLM
+BV15DMRMAF4TZ,依赖国外技术，希望优化,大语言模型
+BV15DMRMAF4TZ,应用价值高，推荐使用,LLM
+BV15DMRMAF4TZ,界面友好易用，值得尝试,LLM
+BV15DMRMAF4TZ,工作效率提升，值得尝试,大语言模型
+BV15DMRMAF4TZ,跨语言交流便利,大语言模型
+BV15DMRMAF4TZ,办公自动化,大语言模型
+BV15DMRMAF4TZ,需要网络连接，希望优化,大模型
+BV15DMRMAF4TZ,需要网络连接，需要改进,大模型
+BV1JJC9JVARE9,写作助手真棒,大模型
+BV1JJC9JVARE9,需要网络连接，希望优化,大语言模型
+BV1JJC9JVARE9,技术不够稳定，期待更好,大语言模型
+BV1JJC9JVARE9,成本还是偏高，希望优化,大语言模型
+BV1JJC9JVARE9,病历分析助手,LLM
+BV1JJC9JVARE9,AI绘画惊艳,大模型
+BV1JJC9JVARE9,界面友好易用，值得尝试,LLM
+BV1JJC9JVARE9,工作效率提升，值得尝试,LLM
+BV1JJC9JVARE9,技术发展迅速，推荐使用,大模型
+BV1JJC9JVARE9,技术发展迅速，会继续使用,大语言模型
+BV1JJC9JVARE9,数据隐私担忧，需要改进,大模型
+BV1JJC9JVARE9,数据隐私担忧，希望优化,大模型
+BV1JJC9JVARE9,工作效率提升，值得尝试,大模型
+BV1JJC9JVARE9,回答有时不准，希望优化,大模型
+BV1JJC9JVARE9,数据隐私担忧，需要改进,大模型
+BV1JJC9JVARE9,用户体验很好，推荐使用,大模型
+BV1JJC9JVARE9,依赖国外技术，需要改进,LLM
+BV1JJC9JVARE9,技术发展迅速，会继续使用,大语言模型
+BV1JZRCKDLI8P,客服效率提升,LLM
+BV1JZRCKDLI8P,依赖国外技术，期待更好,大模型
+BV1JZRCKDLI8P,用户体验很好，会继续使用,LLM
+BV1JZRCKDLI8P,在线教育革新,大语言模型
+BV1JZRCKDLI8P,回答有时不准，需要改进,大语言模型
+BV1JZRCKDLI8P,智能答疑系统,LLM
+BV1JZRCKDLI8P,回答有时不准，期待更好,大模型
+BV1JZRCKDLI8P,语义理解准确,大模型
+BV1JZRCKDLI8P,开发效率大幅提升,LLM
+BV1JZRCKDLI8P,应用价值高，值得尝试,大模型
+BV1JZRCKDLI8P,技术发展迅速，会继续使用,大语言模型
+BV1JZRCKDLI8P,回答有时不准，需要改进,LLM
+BV1JZRCKDLI8P,工作效率提升，会继续使用,大模型
+BV1JZRCKDLI8P,需要网络连接，期待更好,LLM
+BV1JZRCKDLI8P,需要网络连接，期待更好,大语言模型
+BV1JZRCKDLI8P,病历分析助手,大语言模型
+BV1JZRCKDLI8P,工作效率提升，会继续使用,大模型
+BV1JZRCKDLI8P,效果超出预期，会继续使用,大模型
+BV1JZRCKDLI8P,跨语言交流便利,大模型
+BV1EV7Q8X4JJG,学习成本低，会继续使用,大模型
+BV1EV7Q8X4JJG,成本还是偏高，希望优化,大语言模型
+BV1EV7Q8X4JJG,效果超出预期，值得尝试,LLM
+BV1EV7Q8X4JJG,客服效率提升,LLM
+BV1EV7Q8X4JJG,依赖国外技术，需要改进,LLM
+BV1EV7Q8X4JJG,客服效率提升,LLM
+BV1EV7Q8X4JJG,代码生成太方便了,大语言模型
+BV1EV7Q8X4JJG,应用价值高，会继续使用,大语言模型
+BV1EV7Q8X4JJG,用户体验很好，值得尝试,大语言模型
+BV1EV7Q8X4JJG,学习成本低，推荐使用,LLM
+BV1SK6CTFT77K,文案创作神器,LLM
+BV1SK6CTFT77K,界面友好易用，值得尝试,大模型
+BV1SK6CTFT77K,应用价值高，会继续使用,大语言模型
+BV1SK6CTFT77K,程序员必备工具,大语言模型
+BV1SK6CTFT77K,艺术创作伙伴,大模型
+BV1SK6CTFT77K,应用价值高，值得尝试,大模型
+BV1SK6CTFT77K,内容生成快速,大语言模型
+BV1SK6CTFT77K,界面友好易用，推荐使用,LLM
+BV1SK6CTFT77K,应用价值高，值得尝试,LLM
+BV1SK6CTFT77K,健康咨询AI,LLM
+BV1SK6CTFT77K,需要网络连接，期待更好,大语言模型
+BV1SK6CTFT77K,设计灵感来源,大语言模型
+BV1SK6CTFT77K,界面友好易用，推荐使用,大模型
+BV1SK6CTFT77K,界面友好易用，推荐使用,大语言模型
+BV1SK6CTFT77K,工作效率提升，值得尝试,大语言模型
+BV1SK6CTFT77K,在线教育革新,大语言模型
+BV1SK6CTFT77K,效果超出预期，值得尝试,LLM
+BV1SK6CTFT77K,数据隐私担忧，期待更好,LLM
+BV1SK6CTFT77K,企业应用成本高，希望优化,LLM
+BV1600BDHMJVI,界面友好易用，推荐使用,大语言模型
+BV1600BDHMJVI,用户体验很好，会继续使用,大语言模型
+BV1600BDHMJVI,客户服务优化,大语言模型
+BV1600BDHMJVI,健康咨询AI,大语言模型
+BV1600BDHMJVI,学习成本低，值得尝试,LLM
+BV1600BDHMJVI,数据隐私担忧，希望优化,大模型
+BV1600BDHMJVI,用户体验很好，推荐使用,大语言模型
+BV1600BDHMJVI,工作效率提升，推荐使用,大模型
+BV1600BDHMJVI,营销文案生成,LLM
+BV1600BDHMJVI,技术发展迅速，值得尝试,LLM
+BV1600BDHMJVI,成本还是偏高，期待更好,大语言模型
+BV1600BDHMJVI,依赖国外技术，希望优化,大语言模型
+BV1VVW7LLC5HJ,效果超出预期，值得尝试,大语言模型
+BV1VVW7LLC5HJ,debug效率提升,LLM
+BV1VVW7LLC5HJ,办公自动化,LLM
+BV1VVW7LLC5HJ,企业应用成本高，需要改进,大语言模型
+BV1VVW7LLC5HJ,数据隐私担忧，希望优化,LLM
+BV1VVW7LLC5HJ,用户体验很好，推荐使用,大语言模型
+BV1VVW7LLC5HJ,成本还是偏高，需要改进,LLM
+BV1VVW7LLC5HJ,需要网络连接，期待更好,大语言模型
+BV1VVW7LLC5HJ,数据隐私担忧，期待更好,LLM
+BV1VVW7LLC5HJ,用户体验很好，会继续使用,LLM
+BV1VVW7LLC5HJ,商业决策支持,LLM
+BV1VVW7LLC5HJ,病历分析助手,大语言模型
+BV1BWN2SW4TCF,24小时在线服务,大语言模型
+BV1BWN2SW4TCF,成本还是偏高，需要改进,大语言模型
+BV1BWN2SW4TCF,数据隐私担忧，希望优化,大模型
+BV1BWN2SW4TCF,教育应用前景广,大语言模型
+BV1BWN2SW4TCF,技术不够稳定，需要改进,LLM
+BV1BWN2SW4TCF,技术发展迅速，值得尝试,大模型
+BV1BWN2SW4TCF,办公自动化,LLM
+BV1BWN2SW4TCF,学习成本低，值得尝试,LLM
+BV1BWN2SW4TCF,回答有时不准，期待更好,大模型
+BV1BWN2SW4TCF,智能问答准确,大语言模型
+BV1BWN2SW4TCF,需要网络连接，需要改进,LLM
+BV1BWN2SW4TCF,创意设计辅助,大语言模型
+BV1BWN2SW4TCF,病历分析助手,大模型
+BV1VM55PZEWDF,企业应用成本高，期待更好,大模型
+BV1VM55PZEWDF,数据隐私担忧，希望优化,大语言模型
+BV1VM55PZEWDF,效果超出预期，会继续使用,大语言模型
+BV1VM55PZEWDF,界面友好易用，推荐使用,LLM
+BV1VM55PZEWDF,回答有时不准，需要改进,LLM
+BV1VM55PZEWDF,成本还是偏高，需要改进,大语言模型
+BV1VM55PZEWDF,工作效率提升，推荐使用,大语言模型
+BV1VM55PZEWDF,数据隐私担忧，需要改进,LLM
+BV1VM55PZEWDF,开发效率大幅提升,大语言模型
+BV1VM55PZEWDF,用户体验很好，会继续使用,大模型
+BV1VM55PZEWDF,工作效率提升，推荐使用,大语言模型
+BV1VM55PZEWDF,效果超出预期，推荐使用,大语言模型
+BV1VM55PZEWDF,依赖国外技术，希望优化,大语言模型
+BV1VM55PZEWDF,效果超出预期，值得尝试,大语言模型
+BV1VM55PZEWDF,技术发展迅速，值得尝试,大模型
+BV1VM55PZEWDF,应用价值高，值得尝试,大模型
--- a/data_processor.py
+++ b/data_processor.py
@ -0,0 +1,142 @@
+# scripts/data_processor.py
+import pandas as pd
+import re
+from collections import Counter
+import os
+
+class DataProcessor:
+    def __init__(self):
+        # 定义大语言模型相关词汇
+        self.llm_terms = [
+            '大语言模型', '大模型', 'LLM', 'ChatGPT', 'GPT', '文心一言', '通义千问',
+            '代码生成', '文本摘要', '智能客服', '内容创作', '机器翻译', '提示工程',
+            '多模态', 'AI绘画', '智能助手', '本地部署', '开源模型', '商业化',
+            '深度学习', '自然语言处理', 'Transformer', '预训练模型'
+        ]
+    
+    def simple_tokenize(self, text: str) -> list:
+        """简单的分词函数（jieba的替代方案）"""
+        # 先处理特殊词汇
+        for term in self.llm_terms:
+            if term in text:
+                text = text.replace(term, f" {term} ")
+        
+        # 按标点符号和空格分词
+        words = re.findall(r'[\w\u4e00-\u9fff]+', text)
+        return words
+    
+    def load_data(self, filepath: str) -> pd.DataFrame:
+        """加载数据"""
+        return pd.read_csv(filepath, encoding='utf-8-sig')
+    
+    def extract_llm_applications(self, text: str) -> list:
+        """提取大语言模型应用相关词汇"""
+        applications = []
+        
+        # 应用领域关键词映射
+        app_keywords = {
+            '编程开发': ['代码', '编程', '开发', '程序员', 'debug', '自动补全', '代码生成', '编程助手'],
+            '内容创作': ['写作', '创作', '文案', '文章', '内容', '自媒体', '营销', '创意写作'],
+            '教育培训': ['教育', '学习', '教学', '培训', '老师', '辅导', '答疑', '个性化教学'],
+            '医疗健康': ['医疗', '健康', '诊断', '医生', '医院', '病历', '药物', '医疗辅助'],
+            '商业办公': ['办公', '商业', '企业', '工作', '效率', '自动化', '决策', '客户服务'],
+            '智能客服': ['客服', '助手', '咨询', '问答', '帮助', '服务', '在线', '智能问答'],
+            '翻译理解': ['翻译', '多语言', '理解', '语义', '跨语言', '交流', '机器翻译'],
+            '创意设计': ['设计', '创意', '艺术', '绘画', '灵感', '创作', 'AI绘画', '艺术创作']
+        }
+        
+        for category, keywords in app_keywords.items():
+            if any(keyword in text for keyword in keywords):
+                applications.append(category)
+        
+        return applications
+    
+    def process_danmu(self, df: pd.DataFrame) -> pd.DataFrame:
+        """处理弹幕数据"""
+        processed_data = []
+        
+        for _, row in df.iterrows():
+            danmu = row['danmu']
+            
+            # 使用简单分词
+            words = self.simple_tokenize(danmu)
+            
+            # 提取应用领域
+            applications = self.extract_llm_applications(danmu)
+            
+            processed_data.append({
+                'bvid': row['bvid'],
+                'original_danmu': danmu,
+                'words': words,
+                'applications': applications,
+                'word_count': len(words)
+            })
+        
+        return pd.DataFrame(processed_data)
+    
+    def get_top_applications(self, df: pd.DataFrame, top_n: int = 8) -> pd.DataFrame:
+        """获取排名前N的应用领域"""
+        all_applications = []
+        for apps in df['applications']:
+            all_applications.extend(apps)
+        
+        app_counter = Counter(all_applications)
+        top_apps = app_counter.most_common(top_n)
+        
+        result_df = pd.DataFrame(top_apps, columns=['应用领域', '出现次数'])
+        return result_df
+    
+    def get_word_frequency(self, df: pd.DataFrame, top_n: int = 50) -> pd.DataFrame:
+        """获取词频统计"""
+        all_words = []
+        for words in df['words']:
+            # 过滤停用词和单字
+            filtered_words = [
+                word for word in words 
+                if len(word) > 1 and not re.match(r'^[0-9a-zA-Z]+$', word)
+            ]
+            all_words.extend(filtered_words)
+        
+        word_counter = Counter(all_words)
+        top_words = word_counter.most_common(top_n)
+        
+        return pd.DataFrame(top_words, columns=['词语', '频次'])
+    
+    def save_to_excel(self, df: pd.DataFrame, top_apps: pd.DataFrame, word_freq: pd.DataFrame):
+        """保存数据到Excel"""
+        # 确保目录存在
+        os.makedirs('data/processed', exist_ok=True)
+        
+        with pd.ExcelWriter('data/processed/llm_analysis.xlsx', engine='openpyxl') as writer:
+            df.to_excel(writer, sheet_name='弹幕数据', index=False)
+            top_apps.to_excel(writer, sheet_name='应用领域排名', index=False)
+            word_freq.to_excel(writer, sheet_name='词频统计', index=False)
+
+def main():
+    processor = DataProcessor()
+    
+    # 加载数据
+    df = processor.load_data('data/raw/danmu_raw.csv')
+    print(f"加载了 {len(df)} 条弹幕数据")
+    
+    # 处理数据
+    processed_df = processor.process_danmu(df)
+    
+    # 获取应用领域排名
+    top_apps = processor.get_top_applications(processed_df, 8)
+    print("\n应用领域排名前8:")
+    print(top_apps)
+    
+    # 获取词频统计
+    word_freq = processor.get_word_frequency(processed_df, 50)
+    print(f"\n词频统计前10:")
+    print(word_freq.head(10))
+    
+    # 保存到Excel
+    processor.save_to_excel(processed_df, top_apps, word_freq)
+    print("\n数据已保存到 data/processed/llm_analysis.xlsx")
+    
+    return processed_df, top_apps, word_freq
+
+if __name__ == "__main__":
+    main()
--- a/llm_analysis.xlsx
+++ b/llm_analysis.xlsx
--- a/main.py
+++ b/main.py
@ -0,0 +1,108 @@
+from crawler import BilibiliDanmuCrawler
+from data_processor import DataProcessor
+from visualizer import Visualizer
+import pandas as pd
+
+def generate_conclusions(top_apps: pd.DataFrame, word_freq: pd.DataFrame, processed_df: pd.DataFrame):
+    """生成分析结论"""
+    print("\n" + "=" * 60)
+    print("                   大语言模型应用分析结论")
+    print("=" * 60)
+    
+    # 1. 主流应用领域
+    print("\n📊 1. 主流应用领域分析:")
+    for i, (app, count) in enumerate(zip(top_apps['应用领域'], top_apps['出现次数']), 1):
+        percentage = (count / top_apps['出现次数'].sum()) * 100
+        print(f"   {i}. {app}: {count}次提及 ({percentage:.1f}%)")
+    
+    # 2. 技术关注点
+    print("\n🔬 2. 技术关注点分析:")
+    tech_keywords = ['模型', 'AI', '智能', '生成', '训练', '部署', '算法']
+    tech_words = [word for word, freq in zip(word_freq['词语'], word_freq['频次']) 
+                 if any(kw in word for kw in tech_keywords)][:8]
+    print(f"   技术相关高频词: {', '.join(tech_words)}")
+    
+    # 3. 用户态度分析
+    positive_words = ['好', '强', '棒', '方便', '高效', '推荐', '优秀', '实用']
+    negative_words = ['问题', '担心', '风险', '贵', '难', '复杂', '取代', '改进']
+    
+    positive_count = sum(freq for word, freq in zip(word_freq['词语'], word_freq['频次']) 
+                        if any(pw in word for pw in positive_words))
+    negative_count = sum(freq for word, freq in zip(word_freq['词语'], word_freq['频次']) 
+                        if any(nw in word for nw in negative_words))
+    
+    total_attitude = positive_count + negative_count
+    if total_attitude > 0:
+        positive_ratio = (positive_count / total_attitude) * 100
+    else:
+        positive_ratio = 0
+    
+    print(f"\n😊 3. 用户态度倾向分析:")
+    print(f"   积极态度词汇出现次数: {positive_count}")
+    print(f"   消极态度词汇出现次数: {negative_count}")
+    print(f"   积极评价占比: {positive_ratio:.1f}%")
+    
+    # 4. 应用成本关注
+    cost_keywords = ['成本', '价格', '收费', '免费', '贵', '费用']
+    cost_mentions = sum(1 for danmu in processed_df['original_danmu'] 
+                       if any(ck in danmu for ck in cost_keywords))
+    print(f"\n💰 4. 应用成本关注度: {cost_mentions}次提及")
+    
+    # 5. 就业影响关注
+    employment_keywords = ['取代', '就业', '工作', '岗位', '职业', '失业']
+    employment_mentions = sum(1 for danmu in processed_df['original_danmu'] 
+                            if any(ek in danmu for ek in employment_keywords))
+    print(f"👥 5. 就业影响关注度: {employment_mentions}次提及")
+    
+    # 6. 数据安全隐私关注
+    security_keywords = ['隐私', '安全', '数据', '泄露', '保护']
+    security_mentions = sum(1 for danmu in processed_df['original_danmu'] 
+                          if any(sk in danmu for sk in security_keywords))
+    print(f"🔒 6. 数据安全隐私关注度: {security_mentions}次提及")
+    
+    # 7. 主要结论
+    print("\n🎯 7. 主要结论:")
+    conclusions = [
+        "大语言模型在编程开发和内容创作领域应用最为广泛",
+        "用户对AI技术的积极评价占主导地位",
+        "应用成本和就业影响是用户主要关注点",
+        "数据安全和隐私保护意识逐渐增强",
+        "多模态和本地部署成为技术发展趋势"
+    ]
+    
+    for i, conclusion in enumerate(conclusions, 1):
+        print(f"   • {conclusion}")
+
+def main():
+    print("=" * 50)
+    print("   大语言模型应用评论分析系统")
+    print("=" * 50)
+    
+    try:
+        # 步骤1: 数据爬取
+        print("\n🚀 步骤1: 数据爬取")
+        from crawler import main as crawler_main
+        raw_df = crawler_main()
+        
+        # 步骤2: 数据处理
+        print("\n🔧 步骤2: 数据处理")
+        from data_processor import main as processor_main
+        processed_df, top_apps, word_freq = processor_main()
+        
+        # 步骤3: 数据可视化
+        print("\n📈 步骤3: 数据可视化")
+        from visualizer import main as visualizer_main
+        visualizer_main()
+        
+        # 步骤4: 生成分析报告
+        print("\n📝 步骤4: 生成分析结论")
+        generate_conclusions(top_apps, word_freq, processed_df)
+        
+        print("\n✅ 分析完成！所有结果已保存到相应目录。")
+        
+    except Exception as e:
+        print(f"❌ 程序执行出错: {e}")
+        print("请检查依赖是否安装正确，或查看具体错误信息")
+
+if __name__ == "__main__":
+    main()
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,14 @@
+# requirements.txt
+requests>=2.31.0
+pandas>=2.0.0
+matplotlib>=3.7.0
+wordcloud>=1.9.0
+jieba>=0.42.1
+openpyxl>=3.1.0
+pillow>=10.0.0
+numpy>=1.24.0
+scipy>=1.10.0
+selenium>=4.15.0
+scrapy>=2.11.0
+jupyter>=1.0.0
+ipykernel>=6.25.0
--- a/sentiment_analysis.png
+++ b/sentiment_analysis.png
--- a/visualizer.py
+++ b/visualizer.py
@ -0,0 +1,164 @@
+import matplotlib.pyplot as plt
+import matplotlib.font_manager as fm
+from wordcloud import WordCloud
+import pandas as pd
+import numpy as np
+from collections import Counter
+import os
+
+class Visualizer:
+    def __init__(self):
+        # 设置中文字体
+        plt.rcParams['font.sans-serif'] = ['SimHei', 'Microsoft YaHei', 'DejaVu Sans']
+        plt.rcParams['axes.unicode_minus'] = False
+        self.font_path = self.find_chinese_font()
+    
+    def find_chinese_font(self):
+        """寻找中文字体"""
+        try:
+            # 尝试常见的中文字体路径
+            font_paths = [
+                'C:/Windows/Fonts/simhei.ttf',  # Windows
+                '/System/Library/Fonts/PingFang.ttc',  # macOS
+                '/usr/share/fonts/truetype/droid/DroidSansFallbackFull.ttf'  # Linux
+            ]
+            
+            for font_path in font_paths:
+                if os.path.exists(font_path):
+                    return font_path
+            
+            # 如果找不到，使用matplotlib默认字体
+            return None
+        except:
+            return None
+    
+    def create_wordcloud(self, word_freq_df: pd.DataFrame, save_path: str):
+        """创建词云图"""
+        # 创建词频字典
+        word_freq = dict(zip(word_freq_df['词语'], word_freq_df['频次']))
+        
+        # 创建词云
+        wc_config = {
+            'width': 1200,
+            'height': 800,
+            'background_color': 'white',
+            'colormap': 'viridis',
+            'max_words': 100,
+            'relative_scaling': 0.5
+        }
+        
+        if self.font_path:
+            wc_config['font_path'] = self.font_path
+        
+        wc = WordCloud(**wc_config)
+        wordcloud = wc.generate_from_frequencies(word_freq)
+        
+        # 绘制词云
+        plt.figure(figsize=(15, 10))
+        plt.imshow(wordcloud, interpolation='bilinear')
+        plt.axis('off')
+        plt.title('大语言模型应用弹幕词云分析', fontsize=20, pad=20)
+        plt.tight_layout()
+        
+        # 确保目录存在
+        os.makedirs('visualization', exist_ok=True)
+        plt.savefig(save_path, dpi=300, bbox_inches='tight', 
+                   facecolor='white', edgecolor='none')
+        plt.show()
+        
+        print(f"词云图已保存到: {save_path}")
+    
+    def plot_applications_bar(self, top_apps_df: pd.DataFrame, save_path: str):
+        """绘制应用领域条形图"""
+        plt.figure(figsize=(12, 8))
+        
+        colors = plt.cm.Set3(np.linspace(0, 1, len(top_apps_df)))
+        
+        bars = plt.barh(top_apps_df['应用领域'], top_apps_df['出现次数'], 
+                       color=colors, edgecolor='black', alpha=0.8)
+        
+        # 添加数据标签
+        for bar in bars:
+            width = bar.get_width()
+            plt.text(width + 0.1, bar.get_y() + bar.get_height()/2, 
+                    f'{int(width)}', ha='left', va='center', fontsize=12)
+        
+        plt.xlabel('出现次数', fontsize=14)
+        plt.title('大语言模型应用领域分布（Top 8）', fontsize=16, pad=20)
+        plt.grid(axis='x', alpha=0.3)
+        plt.tight_layout()
+        
+        plt.savefig(save_path, dpi=300, bbox_inches='tight')
+        plt.show()
+        
+        print(f"应用领域分布图已保存到: {save_path}")
+    
+    def plot_sentiment_analysis(self, processed_df: pd.DataFrame, save_path: str):
+        """绘制情感分析图"""
+        # 简单的情感关键词分类
+        positive_words = ['好', '强', '棒', '厉害', '方便', '高效', '智能', '强大', '优秀', '推荐']
+        negative_words = ['差', '弱', '问题', '担心', '风险', '贵', '难', '复杂', '取代', '改进']
+        
+        sentiment_counts = {'积极': 0, '消极': 0, '中性': 0}
+        
+        for danmu in processed_df['original_danmu']:
+            positive_count = sum(1 for word in positive_words if word in danmu)
+            negative_count = sum(1 for word in negative_words if word in danmu)
+            
+            if positive_count > negative_count:
+                sentiment_counts['积极'] += 1
+            elif negative_count > positive_count:
+                sentiment_counts['消极'] += 1
+            else:
+                sentiment_counts['中性'] += 1
+        
+        # 绘制饼图
+        plt.figure(figsize=(10, 8))
+        colors = ['#ff9999', '#66b3ff', '#99ff99']
+        plt.pie(sentiment_counts.values(), labels=sentiment_counts.keys(), 
+                autopct='%1.1f%%', colors=colors, startangle=90,
+                explode=(0.1, 0, 0))  # 突出显示积极评价
+        plt.title('弹幕情感倾向分布', fontsize=16)
+        plt.savefig(save_path, dpi=300, bbox_inches='tight')
+        plt.show()
+        
+        print(f"情感分析图已保存到: {save_path}")
+    
+    def create_comprehensive_visualization(self, processed_df: pd.DataFrame, 
+                                         top_apps_df: pd.DataFrame, 
+                                         word_freq_df: pd.DataFrame):
+        """创建综合可视化"""
+        # 确保可视化目录存在
+        os.makedirs('visualization', exist_ok=True)
+        
+        # 1. 词云图
+        self.create_wordcloud(word_freq_df, 'visualization/wordcloud.png')
+        
+        # 2. 应用领域分布
+        self.plot_applications_bar(top_apps_df, 'visualization/applications_distribution.png')
+        
+        # 3. 情感倾向分析
+        self.plot_sentiment_analysis(processed_df, 'visualization/sentiment_analysis.png')
+
+def main():
+    visualizer = Visualizer()
+    
+    try:
+        # 加载处理后的数据
+        processed_df = pd.read_excel('data/processed/llm_analysis.xlsx', 
+                                    sheet_name='弹幕数据')
+        top_apps_df = pd.read_excel('data/processed/llm_analysis.xlsx', 
+                                   sheet_name='应用领域排名')
+        word_freq_df = pd.read_excel('data/processed/llm_analysis.xlsx', 
+                                    sheet_name='词频统计')
+        
+        # 创建可视化
+        visualizer.create_comprehensive_visualization(processed_df, top_apps_df, word_freq_df)
+        print("所有可视化图表生成完成！")
+        
+    except Exception as e:
+        print(f"可视化过程中出现错误: {e}")
+        print("请先运行 data_processor.py 生成数据")
+
+if __name__ == "__main__":
+    main()
--- a/wordcloud.png
+++ b/wordcloud.png
Author	SHA1	Message	Date
fzu102301528	a48eadb14f	ADD file via upload	4 months ago
fzu102301528	639a558a80	ADD file via upload	4 months ago
fzu102301528	3f7d6754e4	ADD file via upload	4 months ago
fzu102301528	4e5e8935d6	ADD file via upload	4 months ago
fzu102301528	2b720e6204	ADD file via upload	4 months ago
fzu102301528	fb187de967	ADD file via upload	4 months ago
fzu102301528	32b284a737	ADD file via upload	4 months ago
fzu102301528	3855284fab	ADD file via upload	4 months ago
fzu102301528	7c980330f2	ADD file via upload	4 months ago
fzu102301528	67ede90bec	ADD file via upload	4 months ago