|
|
|
|
@ -0,0 +1,58 @@
|
|
|
|
|
# 第十四周个人周计划(李涛)
|
|
|
|
|
|
|
|
|
|
## 核心目标
|
|
|
|
|
- **集群连接攻坚**:彻底解决后端与 Hadoop 集群之间的网络连接不稳定性问题(SSH 超时、端口不可达),确保运维指令下发 100% 成功。
|
|
|
|
|
- **修复工具开发**:完成故障自愈智能体(DiagnosisAgent)的核心工具链开发,赋予 AI 实际执行修复命令的能力。
|
|
|
|
|
- **工具测试与验证**:构建自动化测试场景,验证修复工具的安全性和执行效果。
|
|
|
|
|
|
|
|
|
|
## 详细计划
|
|
|
|
|
|
|
|
|
|
### 周一:网络连接问题诊断与修复
|
|
|
|
|
- **任务内容**:
|
|
|
|
|
- 深入排查 `ssh_utils` 在跨网段/弱网环境下的连接表现,分析 `TimeoutError` 和 `NoRouteToHost` 的根本原因。
|
|
|
|
|
- 验证 SSH KeepAlive 配置与重试机制的有效性。
|
|
|
|
|
- 配合网络侧排查防火墙与端口转发规则。
|
|
|
|
|
- **验收标准**:明确连接失败的根因,提出并通过技术解决方案(如增加重试策略、优化超时设置)。
|
|
|
|
|
|
|
|
|
|
### 周二:连接稳定性优化
|
|
|
|
|
- **任务内容**:
|
|
|
|
|
- 重构 SSH 连接池逻辑,实现连接复用与自动重连。
|
|
|
|
|
- 在 `metrics_collector` 中增加连接健康度监控,实时报警断连节点。
|
|
|
|
|
- 优化 `paramiko` 调用参数,提升连接建立速度。
|
|
|
|
|
- **验收标准**:连续 24 小时进行 ping/ssh 测试无异常断连,指令响应延迟在可接受范围内。
|
|
|
|
|
|
|
|
|
|
### 周三:修复工具(Tools)开发
|
|
|
|
|
- **任务内容**:
|
|
|
|
|
- 为 Agent 开发标准化的工具函数:
|
|
|
|
|
- `exec_shell_command`: 执行任意 Shell 命令(带安全白名单)。
|
|
|
|
|
- `restart_service`: 重启指定 Hadoop 服务组件。
|
|
|
|
|
- `fetch_config_file`: 读取配置文件内容。
|
|
|
|
|
- `grep_log_keyword`: 快速检索日志关键词。
|
|
|
|
|
- 定义工具的 JSON Schema,适配 OpenAI/DeepSeek 的 Function Calling 格式。
|
|
|
|
|
- **验收标准**:所有工具函数均通过单元测试,且具备完善的输入校验与异常处理。
|
|
|
|
|
|
|
|
|
|
### 周四:Agent 工具链集成
|
|
|
|
|
- **任务内容**:
|
|
|
|
|
- 将开发好的工具注册到 `DiagnosisAgent` 中。
|
|
|
|
|
- 调试 LLM 对工具的调用逻辑,确保 AI 能根据错误日志正确选择修复工具。
|
|
|
|
|
- 处理工具执行结果的回传逻辑,让 AI 能根据执行结果进行下一步判断。
|
|
|
|
|
- **验收标准**:模拟“NameNode 挂掉”场景,AI 能自动调用 `restart_service` 并确认恢复。
|
|
|
|
|
|
|
|
|
|
### 周五:综合测试与安全审计
|
|
|
|
|
- **任务内容**:
|
|
|
|
|
- 进行“诊断-修复”全链路测试,覆盖常见故障场景(服务宕机、配置错误)。
|
|
|
|
|
- 对工具执行权限进行严格审计,防止 AI 执行 `rm -rf` 等高危命令。
|
|
|
|
|
- 编写修复工具的使用文档与 API 接口文档。
|
|
|
|
|
- **验收标准**:修复成功率达到 80% 以上,高危操作被有效拦截。
|
|
|
|
|
|
|
|
|
|
### 周六:周总结与代码优化
|
|
|
|
|
- **任务内容**:
|
|
|
|
|
- 整理本周遇到的网络坑点与解决方案,形成知识库。
|
|
|
|
|
- 优化工具代码结构,提升可维护性。
|
|
|
|
|
- 准备下周的演示环境。
|
|
|
|
|
|
|
|
|
|
## 风险与应对
|
|
|
|
|
- **风险**:网络物理环境限制导致直连无法解决。
|
|
|
|
|
- **应对**:准备反向代理(如 FRP/Cloudflare Tunnel)作为备选连接方案。
|
|
|
|
|
- **风险**:LLM 幻觉导致乱执行命令。
|
|
|
|
|
- **应对**:严格限制 `exec_shell_command` 的权限,仅允许执行白名单内的运维命令,关键操作需人工确认(Human-in-the-loop)。
|