You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
310 lines
5.8 KiB
310 lines
5.8 KiB
# 创建关键词文件
|
|
keywords = [
|
|
# 基础术语
|
|
'AI',
|
|
'人工智能',
|
|
'机器学习',
|
|
'深度学习',
|
|
'神经网络',
|
|
'自然语言处理',
|
|
'NLP',
|
|
'计算机视觉',
|
|
'CV',
|
|
'大模型',
|
|
'GPT',
|
|
'ChatGPT',
|
|
'文心一言',
|
|
'通义千问',
|
|
'智谱',
|
|
'讯飞星火',
|
|
'强化学习',
|
|
'生成式AI',
|
|
'AIGC',
|
|
'LLM',
|
|
'扩散模型',
|
|
'Transformer',
|
|
'BERT',
|
|
'Stable Diffusion',
|
|
'Midjourney',
|
|
'DALL-E',
|
|
'AI绘画',
|
|
'AI写作',
|
|
'AI编程',
|
|
'自动驾驶',
|
|
'智能助手',
|
|
'语音识别',
|
|
'图像识别',
|
|
'目标检测',
|
|
'语义分割',
|
|
'数据挖掘',
|
|
'知识图谱',
|
|
'推荐系统',
|
|
|
|
# 大模型相关
|
|
'GPT-3',
|
|
'GPT-4',
|
|
'GPT-5',
|
|
'ChatGLM',
|
|
'LLaMA',
|
|
'Vicuna',
|
|
'Alpaca',
|
|
'Bloom',
|
|
'T5',
|
|
'BART',
|
|
'ERNIE',
|
|
'Claude',
|
|
'Gemini',
|
|
'PaLM',
|
|
'LaMDA',
|
|
'Codex',
|
|
'Copilot',
|
|
'InstructGPT',
|
|
'Sparrow',
|
|
'Gopher',
|
|
'Chinchilla',
|
|
'Jurassic',
|
|
'WuDao',
|
|
'PanGu',
|
|
'PLUG',
|
|
'M6',
|
|
'CPM',
|
|
'EVA',
|
|
'CogView',
|
|
|
|
# 多模态AI
|
|
'多模态',
|
|
'视觉语言模型',
|
|
'VLM',
|
|
'DALL-E2',
|
|
'DALL-E3',
|
|
'Imagen',
|
|
'Parti',
|
|
'CogVideo',
|
|
'Make-A-Video',
|
|
'Phenaki',
|
|
'NUWA',
|
|
'CogView2',
|
|
'CogView3',
|
|
'文生图',
|
|
'图生文',
|
|
'文生视频',
|
|
'语音合成',
|
|
'TTS',
|
|
'ASR',
|
|
'语音克隆',
|
|
|
|
# 技术架构
|
|
'注意力机制',
|
|
'自注意力',
|
|
'多头注意力',
|
|
'编码器',
|
|
'解码器',
|
|
'预训练',
|
|
'微调',
|
|
'提示工程',
|
|
'Prompt',
|
|
'思维链',
|
|
'CoT',
|
|
'零样本学习',
|
|
'小样本学习',
|
|
'指令调优',
|
|
'RLHF',
|
|
'人类反馈强化学习',
|
|
'对齐',
|
|
'缩放定律',
|
|
'涌现能力',
|
|
|
|
# 应用场景
|
|
'智能客服',
|
|
'聊天机器人',
|
|
'虚拟人',
|
|
'数字人',
|
|
'AI主播',
|
|
'内容生成',
|
|
'代码生成',
|
|
'智能编程',
|
|
'低代码',
|
|
'无代码',
|
|
'智能文档',
|
|
'RAG',
|
|
'检索增强',
|
|
'AI搜索',
|
|
'智能问答',
|
|
'知识库',
|
|
'智能诊断',
|
|
'AI制药',
|
|
'AI金融',
|
|
'量化交易',
|
|
'风险控制',
|
|
'智能投顾',
|
|
'AI教育',
|
|
'个性化学习',
|
|
'智慧城市',
|
|
'智能交通',
|
|
'工业AI',
|
|
'预测性维护',
|
|
'质量检测',
|
|
'AI农业',
|
|
'精准农业',
|
|
'智能家居',
|
|
|
|
# 工具框架
|
|
'TensorFlow',
|
|
'PyTorch',
|
|
'Keras',
|
|
'Hugging Face',
|
|
'Transformers库',
|
|
'Diffusers',
|
|
'LangChain',
|
|
'LlamaIndex',
|
|
'AutoGPT',
|
|
'BabyAGI',
|
|
'OpenAI',
|
|
'Anthropic',
|
|
'Google AI',
|
|
'Microsoft AI',
|
|
'Meta AI',
|
|
'百度AI',
|
|
'阿里云',
|
|
'腾讯云',
|
|
'华为云',
|
|
'讯飞开放平台',
|
|
|
|
# 技术概念
|
|
'监督学习',
|
|
'无监督学习',
|
|
'半监督学习',
|
|
'自监督学习',
|
|
'迁移学习',
|
|
'元学习',
|
|
'联邦学习',
|
|
'图神经网络',
|
|
'GNN',
|
|
'胶囊网络',
|
|
'神经图灵机',
|
|
'生成对抗网络',
|
|
'GAN',
|
|
'变分自编码器',
|
|
'VAE',
|
|
'流模型',
|
|
'标准化流',
|
|
'贝叶斯深度学习',
|
|
'可解释AI',
|
|
'XAI',
|
|
'因果推断',
|
|
'鲁棒性',
|
|
'公平性',
|
|
|
|
# 新兴方向
|
|
'具身智能',
|
|
'AGI',
|
|
'通用人工智能',
|
|
'超级智能',
|
|
'AI安全',
|
|
'对齐问题',
|
|
'AI伦理',
|
|
'AI治理',
|
|
'AI法规',
|
|
'AI for Science',
|
|
'科学智能',
|
|
'AlphaFold',
|
|
'天气预报',
|
|
'气候模拟',
|
|
'蛋白质设计',
|
|
'材料发现',
|
|
'AI辅助创作',
|
|
|
|
# 中文特色
|
|
'文心一言',
|
|
'通义千问',
|
|
'讯飞星火',
|
|
'腾讯混元',
|
|
'字节豆包',
|
|
'智谱AI',
|
|
'月之暗面',
|
|
'深度求索',
|
|
'零一万物',
|
|
'百川智能',
|
|
'昆仑万维',
|
|
'幻方AI',
|
|
'上海AI实验室',
|
|
'北京智源',
|
|
'之江实验室'
|
|
]
|
|
# 小关键词验证
|
|
# # ai_keywords = [
|
|
# 'AI', '人工智能', '机器学习', '深度学习', '神经网络', '自然语言处理', 'NLP', '计算机视觉', 'CV', '大模型', 'GPT', 'ChatGPT', '文心一言', '通义千问',
|
|
# '智谱', '讯飞星火', '强化学习', '生成式AI', 'AIGC', 'LLM', '扩散模型', 'Transformer', 'BERT', 'Stable Diffusion', 'Midjourney',
|
|
# 'DALL-E', 'AI绘画', 'AI写作', 'AI编程', '自动驾驶', '智能助手', '语音识别', '图像识别', '目标检测', '语义分割', '数据挖掘', '知识图谱', '推荐系统'
|
|
# ]
|
|
|
|
# 去重并排序
|
|
colloquial_patterns = [
|
|
# 疑问语气词
|
|
r'我\?*'
|
|
r'是不是',
|
|
r'吗\?*',
|
|
r'呢\?*',
|
|
r'吧\?*',
|
|
r'啊\?*',
|
|
r'呀\?*',
|
|
r'啦\?*',
|
|
# 感叹语气词
|
|
r'啊!*',
|
|
r'呀!*',
|
|
r'啦!*',
|
|
r'哇!*',
|
|
r'哦!*',
|
|
r'哟!*',
|
|
r'诶!*',
|
|
# 口语化表达
|
|
r'^啊\s+',
|
|
r'^呃\s+',
|
|
r'^嗯\s+',
|
|
r'^哼\s+',
|
|
r'^哈\s+',
|
|
r'^嘿\s+',
|
|
r'牢大',
|
|
r'hhh+',
|
|
r'哈哈+',
|
|
r'嘻嘻+',
|
|
r'嘿嘿+',
|
|
r'呵呵+',
|
|
r'太NB了',
|
|
r'牛啊',
|
|
r'牛啊',
|
|
r'太厉害了吧',
|
|
r'卧槽',
|
|
r'我靠',
|
|
r'啥\?*',
|
|
r'咋\s+',
|
|
r'啥意思',
|
|
r'怎么回事',
|
|
# 其他口语化表达
|
|
r'我的妈呀',
|
|
r'天啊',
|
|
r'上帝',
|
|
r'佛祖',
|
|
r'妈呀',
|
|
r'我晕',
|
|
r'我吐了',
|
|
r'我裂开了',
|
|
r'我傻了',
|
|
r'我惊了',
|
|
r'救命',
|
|
r'要命',
|
|
r'完蛋',
|
|
r'糟糕',
|
|
r'该死'
|
|
]
|
|
keywords = sorted(list(set(keywords)))
|
|
colloquial_patterns = sorted(list(set(colloquial_patterns)))
|
|
|
|
if __name__ == "__main__":
|
|
# 保存到文件
|
|
with open('keywords.txt', 'w', encoding='utf-8') as f:
|
|
for keyword in keywords:
|
|
f.write(keyword + '\n')
|
|
|
|
print(f"已创建关键词文件,包含 {len(keywords)} 个AI相关关键词")
|