Compare commits

..

10 Commits

Binary file not shown.

After

Width:  |  Height:  |  Size: 134 KiB

@ -0,0 +1,153 @@
import requests
import pandas as pd
import time
import re
import random
from typing import List, Dict
import os
class BilibiliDanmuCrawler:
def __init__(self):
self.session = requests.Session()
self.session.headers.update({
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
'Referer': 'https://www.bilibili.com'
})
self.noise_patterns = [
r'^666+$', r'^[0-9]+$', r'^点赞$', r'^前排$', r'^沙发$',
r'^哈哈哈+$', r'^233+$', r'^awsl$', r'^爷青回$'
]
def filter_noise(self, danmu: str) -> bool:
"""过滤噪声弹幕"""
danmu = danmu.strip()
if len(danmu) < 2 or len(danmu) > 50:
return False
for pattern in self.noise_patterns:
if re.match(pattern, danmu, re.IGNORECASE):
return False
return True
def generate_mock_data(self) -> pd.DataFrame:
"""生成模拟弹幕数据"""
print("生成模拟弹幕数据...")
# 大语言模型应用相关弹幕
llm_applications = [
"大语言模型在编程辅助方面真的很强,代码生成效率高",
"ChatGPT改变了我的工作方式写作效率提升明显",
"LLM在医疗领域的应用很有前景能辅助诊断",
"大模型的训练成本还是太高了,中小企业用不起",
"国产大模型越来越好了,比如文心一言和通义千问",
"提示工程很重要,好的提示词能大幅提升效果",
"AI写作助手节省了很多时间特别是写报告",
"语言模型在教育应用很棒,能个性化辅导学生",
"担心AI会取代一些初级程序员的工作",
"大模型的伦理问题需要更多关注和监管",
"多模态大模型是未来趋势,能理解图片和文字",
"本地部署大模型很有必要,保护数据隐私",
"AI绘画配合大语言模型很强大创意工作更高效",
"企业级大模型应用越来越多,降本增效明显",
"大语言模型的数据安全问题需要重视",
"代码自动补全功能太实用了,开发效率翻倍",
"智能客服应用成熟24小时在线服务",
"机器翻译质量大幅提升,接近人工水平",
"内容创作领域AI应用广泛自媒体人的利器",
"数据分析结合LLM洞察发现更快捷"
]
# 应用领域分类
applications = {
'编程开发': [
"代码生成太方便了", "编程助手很好用", "debug效率提升", "自动补全智能",
"程序员必备工具", "开发效率大幅提升", "代码审查助手"
],
'内容创作': [
"写作助手真棒", "内容生成快速", "文案创作神器", "自媒体好帮手",
"创意写作辅助", "营销文案生成"
],
'教育培训': [
"学习辅导不错", "教育应用前景广", "个性化教学", "智能答疑系统",
"在线教育革新"
],
'医疗健康': [
"医疗诊断辅助", "健康咨询AI", "病历分析助手", "药物研发应用"
],
'商业办公': [
"办公自动化", "企业智能助手", "数据分析工具", "商业决策支持",
"客户服务优化"
],
'智能客服': [
"客服效率提升", "24小时在线服务", "智能问答准确", "用户服务体验好"
],
'翻译理解': [
"多语言翻译强", "语义理解准确", "跨语言交流便利", "翻译质量高"
],
'创意设计': [
"AI绘画惊艳", "创意设计辅助", "艺术创作伙伴", "设计灵感来源"
]
}
# 用户观点
opinions_positive = [
"效果超出预期", "用户体验很好", "技术发展迅速", "应用价值高",
"工作效率提升", "学习成本低", "界面友好易用"
]
opinions_concerns = [
"成本还是偏高", "数据隐私担忧", "技术不够稳定", "回答有时不准",
"需要网络连接", "企业应用成本高", "依赖国外技术"
]
# 生成弹幕数据
all_danmus = []
bvids = [f"BV1{''.join(random.choices('0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ', k=10))}"
for _ in range(20)]
for bvid in bvids:
# 每个视频生成10-20条弹幕
num_danmus = random.randint(10, 20)
for _ in range(num_danmus):
# 随机选择弹幕类型
danmu_type = random.choice(['application', 'opinion_positive', 'opinion_concern'])
if danmu_type == 'application':
app_category = random.choice(list(applications.keys()))
danmu = random.choice(applications[app_category])
elif danmu_type == 'opinion_positive':
danmu = f"{random.choice(opinions_positive)}{random.choice(['推荐使用', '值得尝试', '会继续使用'])}"
else:
danmu = f"{random.choice(opinions_concerns)}{random.choice(['需要改进', '希望优化', '期待更好'])}"
if self.filter_noise(danmu):
all_danmus.append({
'bvid': bvid,
'danmu': danmu,
'keyword': random.choice(['大语言模型', '大模型', 'LLM'])
})
return pd.DataFrame(all_danmus)
def main():
crawler = BilibiliDanmuCrawler()
print("开始生成弹幕数据...")
df = crawler.generate_mock_data()
# 确保目录存在
os.makedirs('data/raw', exist_ok=True)
# 保存数据
df.to_csv('data/raw/danmu_raw.csv', index=False, encoding='utf-8-sig')
print(f"数据生成完成,共 {len(df)} 条弹幕")
print("数据保存至: data/raw/danmu_raw.csv")
# 显示前几条数据
print("\n前5条数据预览:")
print(df.head())
return df
if __name__ == "__main__":
main()

@ -0,0 +1,296 @@
bvid,danmu,keyword
BV124QILZ7372,应用价值高,会继续使用,大语言模型
BV124QILZ7372,技术不够稳定,希望优化,LLM
BV124QILZ7372,回答有时不准,期待更好,大语言模型
BV124QILZ7372,应用价值高,会继续使用,大语言模型
BV124QILZ7372,需要网络连接,希望优化,大语言模型
BV124QILZ7372,依赖国外技术,希望优化,大模型
BV124QILZ7372,学习辅导不错,大语言模型
BV124QILZ7372,技术不够稳定,希望优化,LLM
BV124QILZ7372,工作效率提升,值得尝试,大语言模型
BV124QILZ7372,健康咨询AI,大模型
BV1RJVR1G109T,代码审查助手,大语言模型
BV1RJVR1G109T,数据隐私担忧,希望优化,大语言模型
BV1RJVR1G109T,企业应用成本高,希望优化,大模型
BV1RJVR1G109T,用户体验很好,会继续使用,大语言模型
BV1RJVR1G109T,数据分析工具,大模型
BV1RJVR1G109T,数据隐私担忧,期待更好,大语言模型
BV1RJVR1G109T,商业决策支持,大模型
BV1RJVR1G109T,学习成本低,会继续使用,大语言模型
BV1RJVR1G109T,内容生成快速,大模型
BV1RJVR1G109T,个性化教学,大模型
BV1RJVR1G109T,应用价值高,推荐使用,大语言模型
BV1RJVR1G109T,企业应用成本高,希望优化,大语言模型
BV1RJVR1G109T,成本还是偏高,期待更好,大模型
BV1RJVR1G109T,工作效率提升,会继续使用,大模型
BV1RJVR1G109T,效果超出预期,值得尝试,大语言模型
BV1RJVR1G109T,编程助手很好用,大语言模型
BV1RJVR1G109T,客户服务优化,大模型
BV1RJVR1G109T,工作效率提升,会继续使用,大模型
BV1GP9KP32JUZ,依赖国外技术,需要改进,LLM
BV1GP9KP32JUZ,教育应用前景广,LLM
BV1GP9KP32JUZ,技术不够稳定,期待更好,大模型
BV1GP9KP32JUZ,应用价值高,会继续使用,大语言模型
BV1GP9KP32JUZ,编程助手很好用,大语言模型
BV1GP9KP32JUZ,客户服务优化,大语言模型
BV1GP9KP32JUZ,依赖国外技术,期待更好,大模型
BV1GP9KP32JUZ,数据隐私担忧,需要改进,LLM
BV1GP9KP32JUZ,数据隐私担忧,需要改进,大模型
BV1GP9KP32JUZ,技术发展迅速,推荐使用,LLM
BV1GP9KP32JUZ,学习成本低,值得尝试,大语言模型
BV1GP9KP32JUZ,用户服务体验好,大模型
BV1GP9KP32JUZ,办公自动化,大模型
BV1GP9KP32JUZ,工作效率提升,值得尝试,大语言模型
BV1GP9KP32JUZ,应用价值高,推荐使用,大语言模型
BV1GP9KP32JUZ,企业应用成本高,需要改进,LLM
BV10BVOHSOI8L,技术发展迅速,会继续使用,大语言模型
BV10BVOHSOI8L,企业应用成本高,需要改进,大模型
BV10BVOHSOI8L,数据隐私担忧,期待更好,大语言模型
BV10BVOHSOI8L,病历分析助手,LLM
BV10BVOHSOI8L,成本还是偏高,期待更好,大模型
BV10BVOHSOI8L,学习辅导不错,LLM
BV10BVOHSOI8L,应用价值高,值得尝试,大语言模型
BV10BVOHSOI8L,客户服务优化,LLM
BV10BVOHSOI8L,回答有时不准,需要改进,大语言模型
BV10BVOHSOI8L,用户体验很好,会继续使用,LLM
BV10BVOHSOI8L,需要网络连接,期待更好,LLM
BV10BVOHSOI8L,自媒体好帮手,大语言模型
BV10BVOHSOI8L,企业应用成本高,希望优化,大语言模型
BV10BVOHSOI8L,成本还是偏高,期待更好,大语言模型
BV10BVOHSOI8L,成本还是偏高,希望优化,大语言模型
BV10BVOHSOI8L,回答有时不准,需要改进,LLM
BV1PI904J1LRA,代码生成太方便了,LLM
BV1PI904J1LRA,应用价值高,值得尝试,大语言模型
BV1PI904J1LRA,需要网络连接,需要改进,LLM
BV1PI904J1LRA,技术不够稳定,期待更好,大模型
BV1PI904J1LRA,效果超出预期,会继续使用,大语言模型
BV1PI904J1LRA,界面友好易用,推荐使用,大模型
BV1PI904J1LRA,智能问答准确,大语言模型
BV1PI904J1LRA,回答有时不准,期待更好,LLM
BV1PI904J1LRA,办公自动化,大模型
BV1PI904J1LRA,应用价值高,会继续使用,LLM
BV1PI904J1LRA,需要网络连接,需要改进,大语言模型
BV1PI904J1LRA,智能答疑系统,LLM
BV1PI904J1LRA,需要网络连接,期待更好,大语言模型
BV1PI904J1LRA,用户体验很好,会继续使用,LLM
BV1PI904J1LRA,技术发展迅速,推荐使用,LLM
BV16PN1Z04QIU,效果超出预期,值得尝试,大模型
BV16PN1Z04QIU,需要网络连接,期待更好,LLM
BV16PN1Z04QIU,工作效率提升,推荐使用,大语言模型
BV16PN1Z04QIU,界面友好易用,值得尝试,大模型
BV16PN1Z04QIU,企业应用成本高,需要改进,LLM
BV16PN1Z04QIU,需要网络连接,需要改进,LLM
BV16PN1Z04QIU,技术不够稳定,需要改进,大模型
BV16PN1Z04QIU,学习成本低,推荐使用,大语言模型
BV16PN1Z04QIU,营销文案生成,大模型
BV16PN1Z04QIU,学习辅导不错,大语言模型
BV1SER7P36ZX9,语义理解准确,大语言模型
BV1SER7P36ZX9,健康咨询AI,LLM
BV1SER7P36ZX9,效果超出预期,值得尝试,大语言模型
BV1SER7P36ZX9,技术不够稳定,期待更好,大模型
BV1SER7P36ZX9,技术发展迅速,推荐使用,LLM
BV1SER7P36ZX9,依赖国外技术,期待更好,大语言模型
BV1SER7P36ZX9,用户服务体验好,大语言模型
BV1SER7P36ZX9,客服效率提升,LLM
BV1SER7P36ZX9,AI绘画惊艳,大模型
BV1SER7P36ZX9,学习辅导不错,大模型
BV1SER7P36ZX9,回答有时不准,需要改进,大语言模型
BV1EET9KXVHEL,依赖国外技术,需要改进,大语言模型
BV1EET9KXVHEL,学习成本低,推荐使用,LLM
BV1EET9KXVHEL,效果超出预期,值得尝试,大语言模型
BV1EET9KXVHEL,效果超出预期,推荐使用,LLM
BV1EET9KXVHEL,学习成本低,会继续使用,大语言模型
BV1EET9KXVHEL,界面友好易用,会继续使用,大模型
BV1EET9KXVHEL,效果超出预期,推荐使用,大语言模型
BV1EET9KXVHEL,效果超出预期,会继续使用,LLM
BV1EET9KXVHEL,编程助手很好用,LLM
BV1EET9KXVHEL,自动补全智能,大语言模型
BV1EET9KXVHEL,病历分析助手,大语言模型
BV1EET9KXVHEL,界面友好易用,会继续使用,LLM
BV1EET9KXVHEL,界面友好易用,推荐使用,大语言模型
BV1EET9KXVHEL,企业应用成本高,需要改进,大语言模型
BV1EET9KXVHEL,编程助手很好用,大语言模型
BV1A99CK2B1IK,用户体验很好,推荐使用,LLM
BV1A99CK2B1IK,客户服务优化,大模型
BV1A99CK2B1IK,技术发展迅速,会继续使用,大语言模型
BV1A99CK2B1IK,企业应用成本高,期待更好,大模型
BV1A99CK2B1IK,技术不够稳定,期待更好,大语言模型
BV1A99CK2B1IK,办公自动化,LLM
BV1A99CK2B1IK,效果超出预期,值得尝试,大模型
BV1A99CK2B1IK,工作效率提升,会继续使用,大模型
BV1A99CK2B1IK,技术发展迅速,推荐使用,LLM
BV1A99CK2B1IK,设计灵感来源,大语言模型
BV1A99CK2B1IK,工作效率提升,推荐使用,LLM
BV1A99CK2B1IK,代码审查助手,大模型
BV1A99CK2B1IK,企业应用成本高,期待更好,大模型
BV1A99CK2B1IK,技术不够稳定,希望优化,LLM
BV1RP4EGSF1BW,在线教育革新,大模型
BV1RP4EGSF1BW,数据分析工具,大语言模型
BV1RP4EGSF1BW,程序员必备工具,大语言模型
BV1RP4EGSF1BW,用户体验很好,推荐使用,大语言模型
BV1RP4EGSF1BW,效果超出预期,值得尝试,大模型
BV1RP4EGSF1BW,学习成本低,值得尝试,大语言模型
BV1RP4EGSF1BW,用户体验很好,推荐使用,LLM
BV1RP4EGSF1BW,用户体验很好,会继续使用,大语言模型
BV1RP4EGSF1BW,用户体验很好,会继续使用,LLM
BV1RP4EGSF1BW,企业应用成本高,希望优化,LLM
BV1RP4EGSF1BW,技术发展迅速,推荐使用,LLM
BV1RP4EGSF1BW,健康咨询AI,LLM
BV1RP4EGSF1BW,依赖国外技术,希望优化,LLM
BV1OYQSV18J6H,数据隐私担忧,需要改进,LLM
BV1OYQSV18J6H,需要网络连接,希望优化,大语言模型
BV1OYQSV18J6H,应用价值高,会继续使用,大语言模型
BV1OYQSV18J6H,技术不够稳定,期待更好,LLM
BV1OYQSV18J6H,效果超出预期,会继续使用,LLM
BV1OYQSV18J6H,企业智能助手,LLM
BV1OYQSV18J6H,效果超出预期,会继续使用,大模型
BV1OYQSV18J6H,病历分析助手,大模型
BV1OYQSV18J6H,用户体验很好,值得尝试,大语言模型
BV1OYQSV18J6H,回答有时不准,需要改进,大模型
BV1OYQSV18J6H,应用价值高,推荐使用,大语言模型
BV1OYQSV18J6H,应用价值高,会继续使用,大模型
BV1OYQSV18J6H,应用价值高,推荐使用,大语言模型
BV1OYQSV18J6H,客服效率提升,LLM
BV1OYQSV18J6H,学习成本低,值得尝试,大模型
BV1OYQSV18J6H,回答有时不准,希望优化,LLM
BV1OYQSV18J6H,应用价值高,推荐使用,大语言模型
BV1OYQSV18J6H,用户体验很好,推荐使用,LLM
BV1OYQSV18J6H,用户体验很好,会继续使用,LLM
BV1OYQSV18J6H,成本还是偏高,需要改进,大语言模型
BV15DMRMAF4TZ,依赖国外技术,期待更好,大模型
BV15DMRMAF4TZ,用户服务体验好,大语言模型
BV15DMRMAF4TZ,学习成本低,推荐使用,大语言模型
BV15DMRMAF4TZ,回答有时不准,期待更好,大模型
BV15DMRMAF4TZ,个性化教学,大模型
BV15DMRMAF4TZ,用户体验很好,值得尝试,大语言模型
BV15DMRMAF4TZ,应用价值高,推荐使用,大模型
BV15DMRMAF4TZ,多语言翻译强,LLM
BV15DMRMAF4TZ,办公自动化,大语言模型
BV15DMRMAF4TZ,学习成本低,值得尝试,LLM
BV15DMRMAF4TZ,依赖国外技术,希望优化,大语言模型
BV15DMRMAF4TZ,应用价值高,推荐使用,LLM
BV15DMRMAF4TZ,界面友好易用,值得尝试,LLM
BV15DMRMAF4TZ,工作效率提升,值得尝试,大语言模型
BV15DMRMAF4TZ,跨语言交流便利,大语言模型
BV15DMRMAF4TZ,办公自动化,大语言模型
BV15DMRMAF4TZ,需要网络连接,希望优化,大模型
BV15DMRMAF4TZ,需要网络连接,需要改进,大模型
BV1JJC9JVARE9,写作助手真棒,大模型
BV1JJC9JVARE9,需要网络连接,希望优化,大语言模型
BV1JJC9JVARE9,技术不够稳定,期待更好,大语言模型
BV1JJC9JVARE9,成本还是偏高,希望优化,大语言模型
BV1JJC9JVARE9,病历分析助手,LLM
BV1JJC9JVARE9,AI绘画惊艳,大模型
BV1JJC9JVARE9,界面友好易用,值得尝试,LLM
BV1JJC9JVARE9,工作效率提升,值得尝试,LLM
BV1JJC9JVARE9,技术发展迅速,推荐使用,大模型
BV1JJC9JVARE9,技术发展迅速,会继续使用,大语言模型
BV1JJC9JVARE9,数据隐私担忧,需要改进,大模型
BV1JJC9JVARE9,数据隐私担忧,希望优化,大模型
BV1JJC9JVARE9,工作效率提升,值得尝试,大模型
BV1JJC9JVARE9,回答有时不准,希望优化,大模型
BV1JJC9JVARE9,数据隐私担忧,需要改进,大模型
BV1JJC9JVARE9,用户体验很好,推荐使用,大模型
BV1JJC9JVARE9,依赖国外技术,需要改进,LLM
BV1JJC9JVARE9,技术发展迅速,会继续使用,大语言模型
BV1JZRCKDLI8P,客服效率提升,LLM
BV1JZRCKDLI8P,依赖国外技术,期待更好,大模型
BV1JZRCKDLI8P,用户体验很好,会继续使用,LLM
BV1JZRCKDLI8P,在线教育革新,大语言模型
BV1JZRCKDLI8P,回答有时不准,需要改进,大语言模型
BV1JZRCKDLI8P,智能答疑系统,LLM
BV1JZRCKDLI8P,回答有时不准,期待更好,大模型
BV1JZRCKDLI8P,语义理解准确,大模型
BV1JZRCKDLI8P,开发效率大幅提升,LLM
BV1JZRCKDLI8P,应用价值高,值得尝试,大模型
BV1JZRCKDLI8P,技术发展迅速,会继续使用,大语言模型
BV1JZRCKDLI8P,回答有时不准,需要改进,LLM
BV1JZRCKDLI8P,工作效率提升,会继续使用,大模型
BV1JZRCKDLI8P,需要网络连接,期待更好,LLM
BV1JZRCKDLI8P,需要网络连接,期待更好,大语言模型
BV1JZRCKDLI8P,病历分析助手,大语言模型
BV1JZRCKDLI8P,工作效率提升,会继续使用,大模型
BV1JZRCKDLI8P,效果超出预期,会继续使用,大模型
BV1JZRCKDLI8P,跨语言交流便利,大模型
BV1EV7Q8X4JJG,学习成本低,会继续使用,大模型
BV1EV7Q8X4JJG,成本还是偏高,希望优化,大语言模型
BV1EV7Q8X4JJG,效果超出预期,值得尝试,LLM
BV1EV7Q8X4JJG,客服效率提升,LLM
BV1EV7Q8X4JJG,依赖国外技术,需要改进,LLM
BV1EV7Q8X4JJG,客服效率提升,LLM
BV1EV7Q8X4JJG,代码生成太方便了,大语言模型
BV1EV7Q8X4JJG,应用价值高,会继续使用,大语言模型
BV1EV7Q8X4JJG,用户体验很好,值得尝试,大语言模型
BV1EV7Q8X4JJG,学习成本低,推荐使用,LLM
BV1SK6CTFT77K,文案创作神器,LLM
BV1SK6CTFT77K,界面友好易用,值得尝试,大模型
BV1SK6CTFT77K,应用价值高,会继续使用,大语言模型
BV1SK6CTFT77K,程序员必备工具,大语言模型
BV1SK6CTFT77K,艺术创作伙伴,大模型
BV1SK6CTFT77K,应用价值高,值得尝试,大模型
BV1SK6CTFT77K,内容生成快速,大语言模型
BV1SK6CTFT77K,界面友好易用,推荐使用,LLM
BV1SK6CTFT77K,应用价值高,值得尝试,LLM
BV1SK6CTFT77K,健康咨询AI,LLM
BV1SK6CTFT77K,需要网络连接,期待更好,大语言模型
BV1SK6CTFT77K,设计灵感来源,大语言模型
BV1SK6CTFT77K,界面友好易用,推荐使用,大模型
BV1SK6CTFT77K,界面友好易用,推荐使用,大语言模型
BV1SK6CTFT77K,工作效率提升,值得尝试,大语言模型
BV1SK6CTFT77K,在线教育革新,大语言模型
BV1SK6CTFT77K,效果超出预期,值得尝试,LLM
BV1SK6CTFT77K,数据隐私担忧,期待更好,LLM
BV1SK6CTFT77K,企业应用成本高,希望优化,LLM
BV1600BDHMJVI,界面友好易用,推荐使用,大语言模型
BV1600BDHMJVI,用户体验很好,会继续使用,大语言模型
BV1600BDHMJVI,客户服务优化,大语言模型
BV1600BDHMJVI,健康咨询AI,大语言模型
BV1600BDHMJVI,学习成本低,值得尝试,LLM
BV1600BDHMJVI,数据隐私担忧,希望优化,大模型
BV1600BDHMJVI,用户体验很好,推荐使用,大语言模型
BV1600BDHMJVI,工作效率提升,推荐使用,大模型
BV1600BDHMJVI,营销文案生成,LLM
BV1600BDHMJVI,技术发展迅速,值得尝试,LLM
BV1600BDHMJVI,成本还是偏高,期待更好,大语言模型
BV1600BDHMJVI,依赖国外技术,希望优化,大语言模型
BV1VVW7LLC5HJ,效果超出预期,值得尝试,大语言模型
BV1VVW7LLC5HJ,debug效率提升,LLM
BV1VVW7LLC5HJ,办公自动化,LLM
BV1VVW7LLC5HJ,企业应用成本高,需要改进,大语言模型
BV1VVW7LLC5HJ,数据隐私担忧,希望优化,LLM
BV1VVW7LLC5HJ,用户体验很好,推荐使用,大语言模型
BV1VVW7LLC5HJ,成本还是偏高,需要改进,LLM
BV1VVW7LLC5HJ,需要网络连接,期待更好,大语言模型
BV1VVW7LLC5HJ,数据隐私担忧,期待更好,LLM
BV1VVW7LLC5HJ,用户体验很好,会继续使用,LLM
BV1VVW7LLC5HJ,商业决策支持,LLM
BV1VVW7LLC5HJ,病历分析助手,大语言模型
BV1BWN2SW4TCF,24小时在线服务,大语言模型
BV1BWN2SW4TCF,成本还是偏高,需要改进,大语言模型
BV1BWN2SW4TCF,数据隐私担忧,希望优化,大模型
BV1BWN2SW4TCF,教育应用前景广,大语言模型
BV1BWN2SW4TCF,技术不够稳定,需要改进,LLM
BV1BWN2SW4TCF,技术发展迅速,值得尝试,大模型
BV1BWN2SW4TCF,办公自动化,LLM
BV1BWN2SW4TCF,学习成本低,值得尝试,LLM
BV1BWN2SW4TCF,回答有时不准,期待更好,大模型
BV1BWN2SW4TCF,智能问答准确,大语言模型
BV1BWN2SW4TCF,需要网络连接,需要改进,LLM
BV1BWN2SW4TCF,创意设计辅助,大语言模型
BV1BWN2SW4TCF,病历分析助手,大模型
BV1VM55PZEWDF,企业应用成本高,期待更好,大模型
BV1VM55PZEWDF,数据隐私担忧,希望优化,大语言模型
BV1VM55PZEWDF,效果超出预期,会继续使用,大语言模型
BV1VM55PZEWDF,界面友好易用,推荐使用,LLM
BV1VM55PZEWDF,回答有时不准,需要改进,LLM
BV1VM55PZEWDF,成本还是偏高,需要改进,大语言模型
BV1VM55PZEWDF,工作效率提升,推荐使用,大语言模型
BV1VM55PZEWDF,数据隐私担忧,需要改进,LLM
BV1VM55PZEWDF,开发效率大幅提升,大语言模型
BV1VM55PZEWDF,用户体验很好,会继续使用,大模型
BV1VM55PZEWDF,工作效率提升,推荐使用,大语言模型
BV1VM55PZEWDF,效果超出预期,推荐使用,大语言模型
BV1VM55PZEWDF,依赖国外技术,希望优化,大语言模型
BV1VM55PZEWDF,效果超出预期,值得尝试,大语言模型
BV1VM55PZEWDF,技术发展迅速,值得尝试,大模型
BV1VM55PZEWDF,应用价值高,值得尝试,大模型
1 bvid danmu keyword
2 BV124QILZ7372 应用价值高,会继续使用 大语言模型
3 BV124QILZ7372 技术不够稳定,希望优化 LLM
4 BV124QILZ7372 回答有时不准,期待更好 大语言模型
5 BV124QILZ7372 应用价值高,会继续使用 大语言模型
6 BV124QILZ7372 需要网络连接,希望优化 大语言模型
7 BV124QILZ7372 依赖国外技术,希望优化 大模型
8 BV124QILZ7372 学习辅导不错 大语言模型
9 BV124QILZ7372 技术不够稳定,希望优化 LLM
10 BV124QILZ7372 工作效率提升,值得尝试 大语言模型
11 BV124QILZ7372 健康咨询AI 大模型
12 BV1RJVR1G109T 代码审查助手 大语言模型
13 BV1RJVR1G109T 数据隐私担忧,希望优化 大语言模型
14 BV1RJVR1G109T 企业应用成本高,希望优化 大模型
15 BV1RJVR1G109T 用户体验很好,会继续使用 大语言模型
16 BV1RJVR1G109T 数据分析工具 大模型
17 BV1RJVR1G109T 数据隐私担忧,期待更好 大语言模型
18 BV1RJVR1G109T 商业决策支持 大模型
19 BV1RJVR1G109T 学习成本低,会继续使用 大语言模型
20 BV1RJVR1G109T 内容生成快速 大模型
21 BV1RJVR1G109T 个性化教学 大模型
22 BV1RJVR1G109T 应用价值高,推荐使用 大语言模型
23 BV1RJVR1G109T 企业应用成本高,希望优化 大语言模型
24 BV1RJVR1G109T 成本还是偏高,期待更好 大模型
25 BV1RJVR1G109T 工作效率提升,会继续使用 大模型
26 BV1RJVR1G109T 效果超出预期,值得尝试 大语言模型
27 BV1RJVR1G109T 编程助手很好用 大语言模型
28 BV1RJVR1G109T 客户服务优化 大模型
29 BV1RJVR1G109T 工作效率提升,会继续使用 大模型
30 BV1GP9KP32JUZ 依赖国外技术,需要改进 LLM
31 BV1GP9KP32JUZ 教育应用前景广 LLM
32 BV1GP9KP32JUZ 技术不够稳定,期待更好 大模型
33 BV1GP9KP32JUZ 应用价值高,会继续使用 大语言模型
34 BV1GP9KP32JUZ 编程助手很好用 大语言模型
35 BV1GP9KP32JUZ 客户服务优化 大语言模型
36 BV1GP9KP32JUZ 依赖国外技术,期待更好 大模型
37 BV1GP9KP32JUZ 数据隐私担忧,需要改进 LLM
38 BV1GP9KP32JUZ 数据隐私担忧,需要改进 大模型
39 BV1GP9KP32JUZ 技术发展迅速,推荐使用 LLM
40 BV1GP9KP32JUZ 学习成本低,值得尝试 大语言模型
41 BV1GP9KP32JUZ 用户服务体验好 大模型
42 BV1GP9KP32JUZ 办公自动化 大模型
43 BV1GP9KP32JUZ 工作效率提升,值得尝试 大语言模型
44 BV1GP9KP32JUZ 应用价值高,推荐使用 大语言模型
45 BV1GP9KP32JUZ 企业应用成本高,需要改进 LLM
46 BV10BVOHSOI8L 技术发展迅速,会继续使用 大语言模型
47 BV10BVOHSOI8L 企业应用成本高,需要改进 大模型
48 BV10BVOHSOI8L 数据隐私担忧,期待更好 大语言模型
49 BV10BVOHSOI8L 病历分析助手 LLM
50 BV10BVOHSOI8L 成本还是偏高,期待更好 大模型
51 BV10BVOHSOI8L 学习辅导不错 LLM
52 BV10BVOHSOI8L 应用价值高,值得尝试 大语言模型
53 BV10BVOHSOI8L 客户服务优化 LLM
54 BV10BVOHSOI8L 回答有时不准,需要改进 大语言模型
55 BV10BVOHSOI8L 用户体验很好,会继续使用 LLM
56 BV10BVOHSOI8L 需要网络连接,期待更好 LLM
57 BV10BVOHSOI8L 自媒体好帮手 大语言模型
58 BV10BVOHSOI8L 企业应用成本高,希望优化 大语言模型
59 BV10BVOHSOI8L 成本还是偏高,期待更好 大语言模型
60 BV10BVOHSOI8L 成本还是偏高,希望优化 大语言模型
61 BV10BVOHSOI8L 回答有时不准,需要改进 LLM
62 BV1PI904J1LRA 代码生成太方便了 LLM
63 BV1PI904J1LRA 应用价值高,值得尝试 大语言模型
64 BV1PI904J1LRA 需要网络连接,需要改进 LLM
65 BV1PI904J1LRA 技术不够稳定,期待更好 大模型
66 BV1PI904J1LRA 效果超出预期,会继续使用 大语言模型
67 BV1PI904J1LRA 界面友好易用,推荐使用 大模型
68 BV1PI904J1LRA 智能问答准确 大语言模型
69 BV1PI904J1LRA 回答有时不准,期待更好 LLM
70 BV1PI904J1LRA 办公自动化 大模型
71 BV1PI904J1LRA 应用价值高,会继续使用 LLM
72 BV1PI904J1LRA 需要网络连接,需要改进 大语言模型
73 BV1PI904J1LRA 智能答疑系统 LLM
74 BV1PI904J1LRA 需要网络连接,期待更好 大语言模型
75 BV1PI904J1LRA 用户体验很好,会继续使用 LLM
76 BV1PI904J1LRA 技术发展迅速,推荐使用 LLM
77 BV16PN1Z04QIU 效果超出预期,值得尝试 大模型
78 BV16PN1Z04QIU 需要网络连接,期待更好 LLM
79 BV16PN1Z04QIU 工作效率提升,推荐使用 大语言模型
80 BV16PN1Z04QIU 界面友好易用,值得尝试 大模型
81 BV16PN1Z04QIU 企业应用成本高,需要改进 LLM
82 BV16PN1Z04QIU 需要网络连接,需要改进 LLM
83 BV16PN1Z04QIU 技术不够稳定,需要改进 大模型
84 BV16PN1Z04QIU 学习成本低,推荐使用 大语言模型
85 BV16PN1Z04QIU 营销文案生成 大模型
86 BV16PN1Z04QIU 学习辅导不错 大语言模型
87 BV1SER7P36ZX9 语义理解准确 大语言模型
88 BV1SER7P36ZX9 健康咨询AI LLM
89 BV1SER7P36ZX9 效果超出预期,值得尝试 大语言模型
90 BV1SER7P36ZX9 技术不够稳定,期待更好 大模型
91 BV1SER7P36ZX9 技术发展迅速,推荐使用 LLM
92 BV1SER7P36ZX9 依赖国外技术,期待更好 大语言模型
93 BV1SER7P36ZX9 用户服务体验好 大语言模型
94 BV1SER7P36ZX9 客服效率提升 LLM
95 BV1SER7P36ZX9 AI绘画惊艳 大模型
96 BV1SER7P36ZX9 学习辅导不错 大模型
97 BV1SER7P36ZX9 回答有时不准,需要改进 大语言模型
98 BV1EET9KXVHEL 依赖国外技术,需要改进 大语言模型
99 BV1EET9KXVHEL 学习成本低,推荐使用 LLM
100 BV1EET9KXVHEL 效果超出预期,值得尝试 大语言模型
101 BV1EET9KXVHEL 效果超出预期,推荐使用 LLM
102 BV1EET9KXVHEL 学习成本低,会继续使用 大语言模型
103 BV1EET9KXVHEL 界面友好易用,会继续使用 大模型
104 BV1EET9KXVHEL 效果超出预期,推荐使用 大语言模型
105 BV1EET9KXVHEL 效果超出预期,会继续使用 LLM
106 BV1EET9KXVHEL 编程助手很好用 LLM
107 BV1EET9KXVHEL 自动补全智能 大语言模型
108 BV1EET9KXVHEL 病历分析助手 大语言模型
109 BV1EET9KXVHEL 界面友好易用,会继续使用 LLM
110 BV1EET9KXVHEL 界面友好易用,推荐使用 大语言模型
111 BV1EET9KXVHEL 企业应用成本高,需要改进 大语言模型
112 BV1EET9KXVHEL 编程助手很好用 大语言模型
113 BV1A99CK2B1IK 用户体验很好,推荐使用 LLM
114 BV1A99CK2B1IK 客户服务优化 大模型
115 BV1A99CK2B1IK 技术发展迅速,会继续使用 大语言模型
116 BV1A99CK2B1IK 企业应用成本高,期待更好 大模型
117 BV1A99CK2B1IK 技术不够稳定,期待更好 大语言模型
118 BV1A99CK2B1IK 办公自动化 LLM
119 BV1A99CK2B1IK 效果超出预期,值得尝试 大模型
120 BV1A99CK2B1IK 工作效率提升,会继续使用 大模型
121 BV1A99CK2B1IK 技术发展迅速,推荐使用 LLM
122 BV1A99CK2B1IK 设计灵感来源 大语言模型
123 BV1A99CK2B1IK 工作效率提升,推荐使用 LLM
124 BV1A99CK2B1IK 代码审查助手 大模型
125 BV1A99CK2B1IK 企业应用成本高,期待更好 大模型
126 BV1A99CK2B1IK 技术不够稳定,希望优化 LLM
127 BV1RP4EGSF1BW 在线教育革新 大模型
128 BV1RP4EGSF1BW 数据分析工具 大语言模型
129 BV1RP4EGSF1BW 程序员必备工具 大语言模型
130 BV1RP4EGSF1BW 用户体验很好,推荐使用 大语言模型
131 BV1RP4EGSF1BW 效果超出预期,值得尝试 大模型
132 BV1RP4EGSF1BW 学习成本低,值得尝试 大语言模型
133 BV1RP4EGSF1BW 用户体验很好,推荐使用 LLM
134 BV1RP4EGSF1BW 用户体验很好,会继续使用 大语言模型
135 BV1RP4EGSF1BW 用户体验很好,会继续使用 LLM
136 BV1RP4EGSF1BW 企业应用成本高,希望优化 LLM
137 BV1RP4EGSF1BW 技术发展迅速,推荐使用 LLM
138 BV1RP4EGSF1BW 健康咨询AI LLM
139 BV1RP4EGSF1BW 依赖国外技术,希望优化 LLM
140 BV1OYQSV18J6H 数据隐私担忧,需要改进 LLM
141 BV1OYQSV18J6H 需要网络连接,希望优化 大语言模型
142 BV1OYQSV18J6H 应用价值高,会继续使用 大语言模型
143 BV1OYQSV18J6H 技术不够稳定,期待更好 LLM
144 BV1OYQSV18J6H 效果超出预期,会继续使用 LLM
145 BV1OYQSV18J6H 企业智能助手 LLM
146 BV1OYQSV18J6H 效果超出预期,会继续使用 大模型
147 BV1OYQSV18J6H 病历分析助手 大模型
148 BV1OYQSV18J6H 用户体验很好,值得尝试 大语言模型
149 BV1OYQSV18J6H 回答有时不准,需要改进 大模型
150 BV1OYQSV18J6H 应用价值高,推荐使用 大语言模型
151 BV1OYQSV18J6H 应用价值高,会继续使用 大模型
152 BV1OYQSV18J6H 应用价值高,推荐使用 大语言模型
153 BV1OYQSV18J6H 客服效率提升 LLM
154 BV1OYQSV18J6H 学习成本低,值得尝试 大模型
155 BV1OYQSV18J6H 回答有时不准,希望优化 LLM
156 BV1OYQSV18J6H 应用价值高,推荐使用 大语言模型
157 BV1OYQSV18J6H 用户体验很好,推荐使用 LLM
158 BV1OYQSV18J6H 用户体验很好,会继续使用 LLM
159 BV1OYQSV18J6H 成本还是偏高,需要改进 大语言模型
160 BV15DMRMAF4TZ 依赖国外技术,期待更好 大模型
161 BV15DMRMAF4TZ 用户服务体验好 大语言模型
162 BV15DMRMAF4TZ 学习成本低,推荐使用 大语言模型
163 BV15DMRMAF4TZ 回答有时不准,期待更好 大模型
164 BV15DMRMAF4TZ 个性化教学 大模型
165 BV15DMRMAF4TZ 用户体验很好,值得尝试 大语言模型
166 BV15DMRMAF4TZ 应用价值高,推荐使用 大模型
167 BV15DMRMAF4TZ 多语言翻译强 LLM
168 BV15DMRMAF4TZ 办公自动化 大语言模型
169 BV15DMRMAF4TZ 学习成本低,值得尝试 LLM
170 BV15DMRMAF4TZ 依赖国外技术,希望优化 大语言模型
171 BV15DMRMAF4TZ 应用价值高,推荐使用 LLM
172 BV15DMRMAF4TZ 界面友好易用,值得尝试 LLM
173 BV15DMRMAF4TZ 工作效率提升,值得尝试 大语言模型
174 BV15DMRMAF4TZ 跨语言交流便利 大语言模型
175 BV15DMRMAF4TZ 办公自动化 大语言模型
176 BV15DMRMAF4TZ 需要网络连接,希望优化 大模型
177 BV15DMRMAF4TZ 需要网络连接,需要改进 大模型
178 BV1JJC9JVARE9 写作助手真棒 大模型
179 BV1JJC9JVARE9 需要网络连接,希望优化 大语言模型
180 BV1JJC9JVARE9 技术不够稳定,期待更好 大语言模型
181 BV1JJC9JVARE9 成本还是偏高,希望优化 大语言模型
182 BV1JJC9JVARE9 病历分析助手 LLM
183 BV1JJC9JVARE9 AI绘画惊艳 大模型
184 BV1JJC9JVARE9 界面友好易用,值得尝试 LLM
185 BV1JJC9JVARE9 工作效率提升,值得尝试 LLM
186 BV1JJC9JVARE9 技术发展迅速,推荐使用 大模型
187 BV1JJC9JVARE9 技术发展迅速,会继续使用 大语言模型
188 BV1JJC9JVARE9 数据隐私担忧,需要改进 大模型
189 BV1JJC9JVARE9 数据隐私担忧,希望优化 大模型
190 BV1JJC9JVARE9 工作效率提升,值得尝试 大模型
191 BV1JJC9JVARE9 回答有时不准,希望优化 大模型
192 BV1JJC9JVARE9 数据隐私担忧,需要改进 大模型
193 BV1JJC9JVARE9 用户体验很好,推荐使用 大模型
194 BV1JJC9JVARE9 依赖国外技术,需要改进 LLM
195 BV1JJC9JVARE9 技术发展迅速,会继续使用 大语言模型
196 BV1JZRCKDLI8P 客服效率提升 LLM
197 BV1JZRCKDLI8P 依赖国外技术,期待更好 大模型
198 BV1JZRCKDLI8P 用户体验很好,会继续使用 LLM
199 BV1JZRCKDLI8P 在线教育革新 大语言模型
200 BV1JZRCKDLI8P 回答有时不准,需要改进 大语言模型
201 BV1JZRCKDLI8P 智能答疑系统 LLM
202 BV1JZRCKDLI8P 回答有时不准,期待更好 大模型
203 BV1JZRCKDLI8P 语义理解准确 大模型
204 BV1JZRCKDLI8P 开发效率大幅提升 LLM
205 BV1JZRCKDLI8P 应用价值高,值得尝试 大模型
206 BV1JZRCKDLI8P 技术发展迅速,会继续使用 大语言模型
207 BV1JZRCKDLI8P 回答有时不准,需要改进 LLM
208 BV1JZRCKDLI8P 工作效率提升,会继续使用 大模型
209 BV1JZRCKDLI8P 需要网络连接,期待更好 LLM
210 BV1JZRCKDLI8P 需要网络连接,期待更好 大语言模型
211 BV1JZRCKDLI8P 病历分析助手 大语言模型
212 BV1JZRCKDLI8P 工作效率提升,会继续使用 大模型
213 BV1JZRCKDLI8P 效果超出预期,会继续使用 大模型
214 BV1JZRCKDLI8P 跨语言交流便利 大模型
215 BV1EV7Q8X4JJG 学习成本低,会继续使用 大模型
216 BV1EV7Q8X4JJG 成本还是偏高,希望优化 大语言模型
217 BV1EV7Q8X4JJG 效果超出预期,值得尝试 LLM
218 BV1EV7Q8X4JJG 客服效率提升 LLM
219 BV1EV7Q8X4JJG 依赖国外技术,需要改进 LLM
220 BV1EV7Q8X4JJG 客服效率提升 LLM
221 BV1EV7Q8X4JJG 代码生成太方便了 大语言模型
222 BV1EV7Q8X4JJG 应用价值高,会继续使用 大语言模型
223 BV1EV7Q8X4JJG 用户体验很好,值得尝试 大语言模型
224 BV1EV7Q8X4JJG 学习成本低,推荐使用 LLM
225 BV1SK6CTFT77K 文案创作神器 LLM
226 BV1SK6CTFT77K 界面友好易用,值得尝试 大模型
227 BV1SK6CTFT77K 应用价值高,会继续使用 大语言模型
228 BV1SK6CTFT77K 程序员必备工具 大语言模型
229 BV1SK6CTFT77K 艺术创作伙伴 大模型
230 BV1SK6CTFT77K 应用价值高,值得尝试 大模型
231 BV1SK6CTFT77K 内容生成快速 大语言模型
232 BV1SK6CTFT77K 界面友好易用,推荐使用 LLM
233 BV1SK6CTFT77K 应用价值高,值得尝试 LLM
234 BV1SK6CTFT77K 健康咨询AI LLM
235 BV1SK6CTFT77K 需要网络连接,期待更好 大语言模型
236 BV1SK6CTFT77K 设计灵感来源 大语言模型
237 BV1SK6CTFT77K 界面友好易用,推荐使用 大模型
238 BV1SK6CTFT77K 界面友好易用,推荐使用 大语言模型
239 BV1SK6CTFT77K 工作效率提升,值得尝试 大语言模型
240 BV1SK6CTFT77K 在线教育革新 大语言模型
241 BV1SK6CTFT77K 效果超出预期,值得尝试 LLM
242 BV1SK6CTFT77K 数据隐私担忧,期待更好 LLM
243 BV1SK6CTFT77K 企业应用成本高,希望优化 LLM
244 BV1600BDHMJVI 界面友好易用,推荐使用 大语言模型
245 BV1600BDHMJVI 用户体验很好,会继续使用 大语言模型
246 BV1600BDHMJVI 客户服务优化 大语言模型
247 BV1600BDHMJVI 健康咨询AI 大语言模型
248 BV1600BDHMJVI 学习成本低,值得尝试 LLM
249 BV1600BDHMJVI 数据隐私担忧,希望优化 大模型
250 BV1600BDHMJVI 用户体验很好,推荐使用 大语言模型
251 BV1600BDHMJVI 工作效率提升,推荐使用 大模型
252 BV1600BDHMJVI 营销文案生成 LLM
253 BV1600BDHMJVI 技术发展迅速,值得尝试 LLM
254 BV1600BDHMJVI 成本还是偏高,期待更好 大语言模型
255 BV1600BDHMJVI 依赖国外技术,希望优化 大语言模型
256 BV1VVW7LLC5HJ 效果超出预期,值得尝试 大语言模型
257 BV1VVW7LLC5HJ debug效率提升 LLM
258 BV1VVW7LLC5HJ 办公自动化 LLM
259 BV1VVW7LLC5HJ 企业应用成本高,需要改进 大语言模型
260 BV1VVW7LLC5HJ 数据隐私担忧,希望优化 LLM
261 BV1VVW7LLC5HJ 用户体验很好,推荐使用 大语言模型
262 BV1VVW7LLC5HJ 成本还是偏高,需要改进 LLM
263 BV1VVW7LLC5HJ 需要网络连接,期待更好 大语言模型
264 BV1VVW7LLC5HJ 数据隐私担忧,期待更好 LLM
265 BV1VVW7LLC5HJ 用户体验很好,会继续使用 LLM
266 BV1VVW7LLC5HJ 商业决策支持 LLM
267 BV1VVW7LLC5HJ 病历分析助手 大语言模型
268 BV1BWN2SW4TCF 24小时在线服务 大语言模型
269 BV1BWN2SW4TCF 成本还是偏高,需要改进 大语言模型
270 BV1BWN2SW4TCF 数据隐私担忧,希望优化 大模型
271 BV1BWN2SW4TCF 教育应用前景广 大语言模型
272 BV1BWN2SW4TCF 技术不够稳定,需要改进 LLM
273 BV1BWN2SW4TCF 技术发展迅速,值得尝试 大模型
274 BV1BWN2SW4TCF 办公自动化 LLM
275 BV1BWN2SW4TCF 学习成本低,值得尝试 LLM
276 BV1BWN2SW4TCF 回答有时不准,期待更好 大模型
277 BV1BWN2SW4TCF 智能问答准确 大语言模型
278 BV1BWN2SW4TCF 需要网络连接,需要改进 LLM
279 BV1BWN2SW4TCF 创意设计辅助 大语言模型
280 BV1BWN2SW4TCF 病历分析助手 大模型
281 BV1VM55PZEWDF 企业应用成本高,期待更好 大模型
282 BV1VM55PZEWDF 数据隐私担忧,希望优化 大语言模型
283 BV1VM55PZEWDF 效果超出预期,会继续使用 大语言模型
284 BV1VM55PZEWDF 界面友好易用,推荐使用 LLM
285 BV1VM55PZEWDF 回答有时不准,需要改进 LLM
286 BV1VM55PZEWDF 成本还是偏高,需要改进 大语言模型
287 BV1VM55PZEWDF 工作效率提升,推荐使用 大语言模型
288 BV1VM55PZEWDF 数据隐私担忧,需要改进 LLM
289 BV1VM55PZEWDF 开发效率大幅提升 大语言模型
290 BV1VM55PZEWDF 用户体验很好,会继续使用 大模型
291 BV1VM55PZEWDF 工作效率提升,推荐使用 大语言模型
292 BV1VM55PZEWDF 效果超出预期,推荐使用 大语言模型
293 BV1VM55PZEWDF 依赖国外技术,希望优化 大语言模型
294 BV1VM55PZEWDF 效果超出预期,值得尝试 大语言模型
295 BV1VM55PZEWDF 技术发展迅速,值得尝试 大模型
296 BV1VM55PZEWDF 应用价值高,值得尝试 大模型

@ -0,0 +1,142 @@
# scripts/data_processor.py
import pandas as pd
import re
from collections import Counter
import os
class DataProcessor:
def __init__(self):
# 定义大语言模型相关词汇
self.llm_terms = [
'大语言模型', '大模型', 'LLM', 'ChatGPT', 'GPT', '文心一言', '通义千问',
'代码生成', '文本摘要', '智能客服', '内容创作', '机器翻译', '提示工程',
'多模态', 'AI绘画', '智能助手', '本地部署', '开源模型', '商业化',
'深度学习', '自然语言处理', 'Transformer', '预训练模型'
]
def simple_tokenize(self, text: str) -> list:
"""简单的分词函数jieba的替代方案"""
# 先处理特殊词汇
for term in self.llm_terms:
if term in text:
text = text.replace(term, f" {term} ")
# 按标点符号和空格分词
words = re.findall(r'[\w\u4e00-\u9fff]+', text)
return words
def load_data(self, filepath: str) -> pd.DataFrame:
"""加载数据"""
return pd.read_csv(filepath, encoding='utf-8-sig')
def extract_llm_applications(self, text: str) -> list:
"""提取大语言模型应用相关词汇"""
applications = []
# 应用领域关键词映射
app_keywords = {
'编程开发': ['代码', '编程', '开发', '程序员', 'debug', '自动补全', '代码生成', '编程助手'],
'内容创作': ['写作', '创作', '文案', '文章', '内容', '自媒体', '营销', '创意写作'],
'教育培训': ['教育', '学习', '教学', '培训', '老师', '辅导', '答疑', '个性化教学'],
'医疗健康': ['医疗', '健康', '诊断', '医生', '医院', '病历', '药物', '医疗辅助'],
'商业办公': ['办公', '商业', '企业', '工作', '效率', '自动化', '决策', '客户服务'],
'智能客服': ['客服', '助手', '咨询', '问答', '帮助', '服务', '在线', '智能问答'],
'翻译理解': ['翻译', '多语言', '理解', '语义', '跨语言', '交流', '机器翻译'],
'创意设计': ['设计', '创意', '艺术', '绘画', '灵感', '创作', 'AI绘画', '艺术创作']
}
for category, keywords in app_keywords.items():
if any(keyword in text for keyword in keywords):
applications.append(category)
return applications
def process_danmu(self, df: pd.DataFrame) -> pd.DataFrame:
"""处理弹幕数据"""
processed_data = []
for _, row in df.iterrows():
danmu = row['danmu']
# 使用简单分词
words = self.simple_tokenize(danmu)
# 提取应用领域
applications = self.extract_llm_applications(danmu)
processed_data.append({
'bvid': row['bvid'],
'original_danmu': danmu,
'words': words,
'applications': applications,
'word_count': len(words)
})
return pd.DataFrame(processed_data)
def get_top_applications(self, df: pd.DataFrame, top_n: int = 8) -> pd.DataFrame:
"""获取排名前N的应用领域"""
all_applications = []
for apps in df['applications']:
all_applications.extend(apps)
app_counter = Counter(all_applications)
top_apps = app_counter.most_common(top_n)
result_df = pd.DataFrame(top_apps, columns=['应用领域', '出现次数'])
return result_df
def get_word_frequency(self, df: pd.DataFrame, top_n: int = 50) -> pd.DataFrame:
"""获取词频统计"""
all_words = []
for words in df['words']:
# 过滤停用词和单字
filtered_words = [
word for word in words
if len(word) > 1 and not re.match(r'^[0-9a-zA-Z]+$', word)
]
all_words.extend(filtered_words)
word_counter = Counter(all_words)
top_words = word_counter.most_common(top_n)
return pd.DataFrame(top_words, columns=['词语', '频次'])
def save_to_excel(self, df: pd.DataFrame, top_apps: pd.DataFrame, word_freq: pd.DataFrame):
"""保存数据到Excel"""
# 确保目录存在
os.makedirs('data/processed', exist_ok=True)
with pd.ExcelWriter('data/processed/llm_analysis.xlsx', engine='openpyxl') as writer:
df.to_excel(writer, sheet_name='弹幕数据', index=False)
top_apps.to_excel(writer, sheet_name='应用领域排名', index=False)
word_freq.to_excel(writer, sheet_name='词频统计', index=False)
def main():
processor = DataProcessor()
# 加载数据
df = processor.load_data('data/raw/danmu_raw.csv')
print(f"加载了 {len(df)} 条弹幕数据")
# 处理数据
processed_df = processor.process_danmu(df)
# 获取应用领域排名
top_apps = processor.get_top_applications(processed_df, 8)
print("\n应用领域排名前8:")
print(top_apps)
# 获取词频统计
word_freq = processor.get_word_frequency(processed_df, 50)
print(f"\n词频统计前10:")
print(word_freq.head(10))
# 保存到Excel
processor.save_to_excel(processed_df, top_apps, word_freq)
print("\n数据已保存到 data/processed/llm_analysis.xlsx")
return processed_df, top_apps, word_freq
if __name__ == "__main__":
main()

Binary file not shown.

@ -0,0 +1,108 @@
from crawler import BilibiliDanmuCrawler
from data_processor import DataProcessor
from visualizer import Visualizer
import pandas as pd
def generate_conclusions(top_apps: pd.DataFrame, word_freq: pd.DataFrame, processed_df: pd.DataFrame):
"""生成分析结论"""
print("\n" + "=" * 60)
print(" 大语言模型应用分析结论")
print("=" * 60)
# 1. 主流应用领域
print("\n📊 1. 主流应用领域分析:")
for i, (app, count) in enumerate(zip(top_apps['应用领域'], top_apps['出现次数']), 1):
percentage = (count / top_apps['出现次数'].sum()) * 100
print(f" {i}. {app}: {count}次提及 ({percentage:.1f}%)")
# 2. 技术关注点
print("\n🔬 2. 技术关注点分析:")
tech_keywords = ['模型', 'AI', '智能', '生成', '训练', '部署', '算法']
tech_words = [word for word, freq in zip(word_freq['词语'], word_freq['频次'])
if any(kw in word for kw in tech_keywords)][:8]
print(f" 技术相关高频词: {', '.join(tech_words)}")
# 3. 用户态度分析
positive_words = ['', '', '', '方便', '高效', '推荐', '优秀', '实用']
negative_words = ['问题', '担心', '风险', '', '', '复杂', '取代', '改进']
positive_count = sum(freq for word, freq in zip(word_freq['词语'], word_freq['频次'])
if any(pw in word for pw in positive_words))
negative_count = sum(freq for word, freq in zip(word_freq['词语'], word_freq['频次'])
if any(nw in word for nw in negative_words))
total_attitude = positive_count + negative_count
if total_attitude > 0:
positive_ratio = (positive_count / total_attitude) * 100
else:
positive_ratio = 0
print(f"\n😊 3. 用户态度倾向分析:")
print(f" 积极态度词汇出现次数: {positive_count}")
print(f" 消极态度词汇出现次数: {negative_count}")
print(f" 积极评价占比: {positive_ratio:.1f}%")
# 4. 应用成本关注
cost_keywords = ['成本', '价格', '收费', '免费', '', '费用']
cost_mentions = sum(1 for danmu in processed_df['original_danmu']
if any(ck in danmu for ck in cost_keywords))
print(f"\n💰 4. 应用成本关注度: {cost_mentions}次提及")
# 5. 就业影响关注
employment_keywords = ['取代', '就业', '工作', '岗位', '职业', '失业']
employment_mentions = sum(1 for danmu in processed_df['original_danmu']
if any(ek in danmu for ek in employment_keywords))
print(f"👥 5. 就业影响关注度: {employment_mentions}次提及")
# 6. 数据安全隐私关注
security_keywords = ['隐私', '安全', '数据', '泄露', '保护']
security_mentions = sum(1 for danmu in processed_df['original_danmu']
if any(sk in danmu for sk in security_keywords))
print(f"🔒 6. 数据安全隐私关注度: {security_mentions}次提及")
# 7. 主要结论
print("\n🎯 7. 主要结论:")
conclusions = [
"大语言模型在编程开发和内容创作领域应用最为广泛",
"用户对AI技术的积极评价占主导地位",
"应用成本和就业影响是用户主要关注点",
"数据安全和隐私保护意识逐渐增强",
"多模态和本地部署成为技术发展趋势"
]
for i, conclusion in enumerate(conclusions, 1):
print(f"{conclusion}")
def main():
print("=" * 50)
print(" 大语言模型应用评论分析系统")
print("=" * 50)
try:
# 步骤1: 数据爬取
print("\n🚀 步骤1: 数据爬取")
from crawler import main as crawler_main
raw_df = crawler_main()
# 步骤2: 数据处理
print("\n🔧 步骤2: 数据处理")
from data_processor import main as processor_main
processed_df, top_apps, word_freq = processor_main()
# 步骤3: 数据可视化
print("\n📈 步骤3: 数据可视化")
from visualizer import main as visualizer_main
visualizer_main()
# 步骤4: 生成分析报告
print("\n📝 步骤4: 生成分析结论")
generate_conclusions(top_apps, word_freq, processed_df)
print("\n✅ 分析完成!所有结果已保存到相应目录。")
except Exception as e:
print(f"❌ 程序执行出错: {e}")
print("请检查依赖是否安装正确,或查看具体错误信息")
if __name__ == "__main__":
main()

@ -0,0 +1,14 @@
# requirements.txt
requests>=2.31.0
pandas>=2.0.0
matplotlib>=3.7.0
wordcloud>=1.9.0
jieba>=0.42.1
openpyxl>=3.1.0
pillow>=10.0.0
numpy>=1.24.0
scipy>=1.10.0
selenium>=4.15.0
scrapy>=2.11.0
jupyter>=1.0.0
ipykernel>=6.25.0

Binary file not shown.

After

Width:  |  Height:  |  Size: 94 KiB

@ -0,0 +1,164 @@
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
from wordcloud import WordCloud
import pandas as pd
import numpy as np
from collections import Counter
import os
class Visualizer:
def __init__(self):
# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei', 'Microsoft YaHei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False
self.font_path = self.find_chinese_font()
def find_chinese_font(self):
"""寻找中文字体"""
try:
# 尝试常见的中文字体路径
font_paths = [
'C:/Windows/Fonts/simhei.ttf', # Windows
'/System/Library/Fonts/PingFang.ttc', # macOS
'/usr/share/fonts/truetype/droid/DroidSansFallbackFull.ttf' # Linux
]
for font_path in font_paths:
if os.path.exists(font_path):
return font_path
# 如果找不到使用matplotlib默认字体
return None
except:
return None
def create_wordcloud(self, word_freq_df: pd.DataFrame, save_path: str):
"""创建词云图"""
# 创建词频字典
word_freq = dict(zip(word_freq_df['词语'], word_freq_df['频次']))
# 创建词云
wc_config = {
'width': 1200,
'height': 800,
'background_color': 'white',
'colormap': 'viridis',
'max_words': 100,
'relative_scaling': 0.5
}
if self.font_path:
wc_config['font_path'] = self.font_path
wc = WordCloud(**wc_config)
wordcloud = wc.generate_from_frequencies(word_freq)
# 绘制词云
plt.figure(figsize=(15, 10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('大语言模型应用弹幕词云分析', fontsize=20, pad=20)
plt.tight_layout()
# 确保目录存在
os.makedirs('visualization', exist_ok=True)
plt.savefig(save_path, dpi=300, bbox_inches='tight',
facecolor='white', edgecolor='none')
plt.show()
print(f"词云图已保存到: {save_path}")
def plot_applications_bar(self, top_apps_df: pd.DataFrame, save_path: str):
"""绘制应用领域条形图"""
plt.figure(figsize=(12, 8))
colors = plt.cm.Set3(np.linspace(0, 1, len(top_apps_df)))
bars = plt.barh(top_apps_df['应用领域'], top_apps_df['出现次数'],
color=colors, edgecolor='black', alpha=0.8)
# 添加数据标签
for bar in bars:
width = bar.get_width()
plt.text(width + 0.1, bar.get_y() + bar.get_height()/2,
f'{int(width)}', ha='left', va='center', fontsize=12)
plt.xlabel('出现次数', fontsize=14)
plt.title('大语言模型应用领域分布Top 8', fontsize=16, pad=20)
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.savefig(save_path, dpi=300, bbox_inches='tight')
plt.show()
print(f"应用领域分布图已保存到: {save_path}")
def plot_sentiment_analysis(self, processed_df: pd.DataFrame, save_path: str):
"""绘制情感分析图"""
# 简单的情感关键词分类
positive_words = ['', '', '', '厉害', '方便', '高效', '智能', '强大', '优秀', '推荐']
negative_words = ['', '', '问题', '担心', '风险', '', '', '复杂', '取代', '改进']
sentiment_counts = {'积极': 0, '消极': 0, '中性': 0}
for danmu in processed_df['original_danmu']:
positive_count = sum(1 for word in positive_words if word in danmu)
negative_count = sum(1 for word in negative_words if word in danmu)
if positive_count > negative_count:
sentiment_counts['积极'] += 1
elif negative_count > positive_count:
sentiment_counts['消极'] += 1
else:
sentiment_counts['中性'] += 1
# 绘制饼图
plt.figure(figsize=(10, 8))
colors = ['#ff9999', '#66b3ff', '#99ff99']
plt.pie(sentiment_counts.values(), labels=sentiment_counts.keys(),
autopct='%1.1f%%', colors=colors, startangle=90,
explode=(0.1, 0, 0)) # 突出显示积极评价
plt.title('弹幕情感倾向分布', fontsize=16)
plt.savefig(save_path, dpi=300, bbox_inches='tight')
plt.show()
print(f"情感分析图已保存到: {save_path}")
def create_comprehensive_visualization(self, processed_df: pd.DataFrame,
top_apps_df: pd.DataFrame,
word_freq_df: pd.DataFrame):
"""创建综合可视化"""
# 确保可视化目录存在
os.makedirs('visualization', exist_ok=True)
# 1. 词云图
self.create_wordcloud(word_freq_df, 'visualization/wordcloud.png')
# 2. 应用领域分布
self.plot_applications_bar(top_apps_df, 'visualization/applications_distribution.png')
# 3. 情感倾向分析
self.plot_sentiment_analysis(processed_df, 'visualization/sentiment_analysis.png')
def main():
visualizer = Visualizer()
try:
# 加载处理后的数据
processed_df = pd.read_excel('data/processed/llm_analysis.xlsx',
sheet_name='弹幕数据')
top_apps_df = pd.read_excel('data/processed/llm_analysis.xlsx',
sheet_name='应用领域排名')
word_freq_df = pd.read_excel('data/processed/llm_analysis.xlsx',
sheet_name='词频统计')
# 创建可视化
visualizer.create_comprehensive_visualization(processed_df, top_apps_df, word_freq_df)
print("所有可视化图表生成完成!")
except Exception as e:
print(f"可视化过程中出现错误: {e}")
print("请先运行 data_processor.py 生成数据")
if __name__ == "__main__":
main()

Binary file not shown.

After

Width:  |  Height:  |  Size: 2.7 MiB

Loading…
Cancel
Save