homework/tool/keywords.py

# 创建关键词文件
keywords = [
    # 基础术语
    'AI',
    '人工智能',
    '机器学习',
    '深度学习',
    '神经网络',
    '自然语言处理',
    'NLP',
    '计算机视觉',
    'CV',
    '大模型',
    'GPT',
    'ChatGPT',
    '文心一言',
    '通义千问',
    '智谱',
    '讯飞星火',
    '强化学习',
    '生成式AI',
    'AIGC',
    'LLM',
    '扩散模型',
    'Transformer',
    'BERT',
    'Stable Diffusion',
    'Midjourney',
    'DALL-E',
    'AI绘画',
    'AI写作',
    'AI编程',
    '自动驾驶',
    '智能助手',
    '语音识别',
    '图像识别',
    '目标检测',
    '语义分割',
    '数据挖掘',
    '知识图谱',
    '推荐系统',

    # 大模型相关
    'GPT-3',
    'GPT-4',
    'GPT-5',
    'ChatGLM',
    'LLaMA',
    'Vicuna',
    'Alpaca',
    'Bloom',
    'T5',
    'BART',
    'ERNIE',
    'Claude',
    'Gemini',
    'PaLM',
    'LaMDA',
    'Codex',
    'Copilot',
    'InstructGPT',
    'Sparrow',
    'Gopher',
    'Chinchilla',
    'Jurassic',
    'WuDao',
    'PanGu',
    'PLUG',
    'M6',
    'CPM',
    'EVA',
    'CogView',

    # 多模态AI
    '多模态',
    '视觉语言模型',
    'VLM',
    'DALL-E2',
    'DALL-E3',
    'Imagen',
    'Parti',
    'CogVideo',
    'Make-A-Video',
    'Phenaki',
    'NUWA',
    'CogView2',
    'CogView3',
    '文生图',
    '图生文',
    '文生视频',
    '语音合成',
    'TTS',
    'ASR',
    '语音克隆',

    # 技术架构
    '注意力机制',
    '自注意力',
    '多头注意力',
    '编码器',
    '解码器',
    '预训练',
    '微调',
    '提示工程',
    'Prompt',
    '思维链',
    'CoT',
    '零样本学习',
    '小样本学习',
    '指令调优',
    'RLHF',
    '人类反馈强化学习',
    '对齐',
    '缩放定律',
    '涌现能力',

    # 应用场景
    '智能客服',
    '聊天机器人',
    '虚拟人',
    '数字人',
    'AI主播',
    '内容生成',
    '代码生成',
    '智能编程',
    '低代码',
    '无代码',
    '智能文档',
    'RAG',
    '检索增强',
    'AI搜索',
    '智能问答',
    '知识库',
    '智能诊断',
    'AI制药',
    'AI金融',
    '量化交易',
    '风险控制',
    '智能投顾',
    'AI教育',
    '个性化学习',
    '智慧城市',
    '智能交通',
    '工业AI',
    '预测性维护',
    '质量检测',
    'AI农业',
    '精准农业',
    '智能家居',

    # 工具框架
    'TensorFlow',
    'PyTorch',
    'Keras',
    'Hugging Face',
    'Transformers库',
    'Diffusers',
    'LangChain',
    'LlamaIndex',
    'AutoGPT',
    'BabyAGI',
    'OpenAI',
    'Anthropic',
    'Google AI',
    'Microsoft AI',
    'Meta AI',
    '百度AI',
    '阿里云',
    '腾讯云',
    '华为云',
    '讯飞开放平台',

    # 技术概念
    '监督学习',
    '无监督学习',
    '半监督学习',
    '自监督学习',
    '迁移学习',
    '元学习',
    '联邦学习',
    '图神经网络',
    'GNN',
    '胶囊网络',
    '神经图灵机',
    '生成对抗网络',
    'GAN',
    '变分自编码器',
    'VAE',
    '流模型',
    '标准化流',
    '贝叶斯深度学习',
    '可解释AI',
    'XAI',
    '因果推断',
    '鲁棒性',
    '公平性',

    # 新兴方向
    '具身智能',
    'AGI',
    '通用人工智能',
    '超级智能',
    'AI安全',
    '对齐问题',
    'AI伦理',
    'AI治理',
    'AI法规',
    'AI for Science',
    '科学智能',
    'AlphaFold',
    '天气预报',
    '气候模拟',
    '蛋白质设计',
    '材料发现',
    'AI辅助创作',

    # 中文特色
    '文心一言',
    '通义千问',
    '讯飞星火',
    '腾讯混元',
    '字节豆包',
    '智谱AI',
    '月之暗面',
    '深度求索',
    '零一万物',
    '百川智能',
    '昆仑万维',
    '幻方AI',
    '上海AI实验室',
    '北京智源',
    '之江实验室'
]
# 小关键词验证
# # ai_keywords = [
#     'AI', '人工智能', '机器学习', '深度学习', '神经网络', '自然语言处理', 'NLP', '计算机视觉', 'CV', '大模型', 'GPT', 'ChatGPT', '文心一言', '通义千问',
#     '智谱', '讯飞星火', '强化学习', '生成式AI', 'AIGC', 'LLM', '扩散模型', 'Transformer', 'BERT', 'Stable Diffusion', 'Midjourney',
#     'DALL-E', 'AI绘画', 'AI写作', 'AI编程', '自动驾驶', '智能助手', '语音识别', '图像识别', '目标检测', '语义分割', '数据挖掘', '知识图谱', '推荐系统'
# ]

# 去重并排序
colloquial_patterns = [
    # 疑问语气词
    r'我\?*'
    r'是不是',
    r'吗\?*',
    r'呢\?*',
    r'吧\?*',
    r'啊\?*',
    r'呀\?*',
    r'啦\?*',
    # 感叹语气词
    r'啊!*',
    r'呀!*',
    r'啦!*',
    r'哇!*',
    r'哦!*',
    r'哟!*',
    r'诶!*',
    # 口语化表达
    r'^啊\s+',
    r'^呃\s+',
    r'^嗯\s+',
    r'^哼\s+',
    r'^哈\s+',
    r'^嘿\s+',
    r'牢大',
    r'hhh+',
    r'哈哈+',
    r'嘻嘻+',
    r'嘿嘿+',
    r'呵呵+',
    r'太NB了',
    r'牛啊',
    r'牛啊',
    r'太厉害了吧',
    r'卧槽',
    r'我靠',
    r'啥\?*',
    r'咋\s+',
    r'啥意思',
    r'怎么回事',
    # 其他口语化表达
    r'我的妈呀',
    r'天啊',
    r'上帝',
    r'佛祖',
    r'妈呀',
    r'我晕',
    r'我吐了',
    r'我裂开了',
    r'我傻了',
    r'我惊了',
    r'救命',
    r'要命',
    r'完蛋',
    r'糟糕',
    r'该死'
]
keywords = sorted(list(set(keywords)))
colloquial_patterns = sorted(list(set(colloquial_patterns)))

if __name__ == "__main__":
    # 保存到文件
    with open('keywords.txt', 'w', encoding='utf-8') as f:
        for keyword in keywords:
            f.write(keyword + '\n')

    print(f"已创建关键词文件，包含 {len(keywords)} 个AI相关关键词")