李涛提交第14周周总结

pull/49/head
litao 4 months ago
parent d6262c0085
commit 0d04ab7a0a

@ -0,0 +1,58 @@
# 第十四周个人周计划(李涛)
## 核心目标
- **集群连接攻坚**:彻底解决后端与 Hadoop 集群之间的网络连接不稳定性问题SSH 超时、端口不可达),确保运维指令下发 100% 成功。
- **修复工具开发**完成故障自愈智能体DiagnosisAgent的核心工具链开发赋予 AI 实际执行修复命令的能力。
- **工具测试与验证**:构建自动化测试场景,验证修复工具的安全性和执行效果。
## 详细计划
### 周一:网络连接问题诊断与修复
- **任务内容**
- 深入排查 `ssh_utils` 在跨网段/弱网环境下的连接表现,分析 `TimeoutError``NoRouteToHost` 的根本原因。
- 验证 SSH KeepAlive 配置与重试机制的有效性。
- 配合网络侧排查防火墙与端口转发规则。
- **验收标准**:明确连接失败的根因,提出并通过技术解决方案(如增加重试策略、优化超时设置)。
### 周二:连接稳定性优化
- **任务内容**
- 重构 SSH 连接池逻辑,实现连接复用与自动重连。
- 在 `metrics_collector` 中增加连接健康度监控,实时报警断连节点。
- 优化 `paramiko` 调用参数,提升连接建立速度。
- **验收标准**:连续 24 小时进行 ping/ssh 测试无异常断连,指令响应延迟在可接受范围内。
### 周三修复工具Tools开发
- **任务内容**
- 为 Agent 开发标准化的工具函数:
- `exec_shell_command`: 执行任意 Shell 命令(带安全白名单)。
- `restart_service`: 重启指定 Hadoop 服务组件。
- `fetch_config_file`: 读取配置文件内容。
- `grep_log_keyword`: 快速检索日志关键词。
- 定义工具的 JSON Schema适配 OpenAI/DeepSeek 的 Function Calling 格式。
- **验收标准**:所有工具函数均通过单元测试,且具备完善的输入校验与异常处理。
### 周四Agent 工具链集成
- **任务内容**
- 将开发好的工具注册到 `DiagnosisAgent` 中。
- 调试 LLM 对工具的调用逻辑,确保 AI 能根据错误日志正确选择修复工具。
- 处理工具执行结果的回传逻辑,让 AI 能根据执行结果进行下一步判断。
- **验收标准**模拟“NameNode 挂掉”场景AI 能自动调用 `restart_service` 并确认恢复。
### 周五:综合测试与安全审计
- **任务内容**
- 进行“诊断-修复”全链路测试,覆盖常见故障场景(服务宕机、配置错误)。
- 对工具执行权限进行严格审计,防止 AI 执行 `rm -rf` 等高危命令。
- 编写修复工具的使用文档与 API 接口文档。
- **验收标准**:修复成功率达到 80% 以上,高危操作被有效拦截。
### 周六:周总结与代码优化
- **任务内容**
- 整理本周遇到的网络坑点与解决方案,形成知识库。
- 优化工具代码结构,提升可维护性。
- 准备下周的演示环境。
## 风险与应对
- **风险**:网络物理环境限制导致直连无法解决。
- **应对**:准备反向代理(如 FRP/Cloudflare Tunnel作为备选连接方案。
- **风险**LLM 幻觉导致乱执行命令。
- **应对**:严格限制 `exec_shell_command` 的权限仅允许执行白名单内的运维命令关键操作需人工确认Human-in-the-loop
Loading…
Cancel
Save