李涛提交第14周周总结

4 months ago · 0d04ab7a0a
parent d6262c0085
commit 0d04ab7a0a
1 changed files with 58 additions and 0 deletions
--- a/doc/process/weekly/week-14/members/litao-weekly-summary-14.md
+++ b/doc/process/weekly/week-14/members/litao-weekly-summary-14.md
@ -0,0 +1,58 @@
+# 第十四周个人周计划（李涛）
+
+## 核心目标
+- **集群连接攻坚**：彻底解决后端与 Hadoop 集群之间的网络连接不稳定性问题（SSH 超时、端口不可达），确保运维指令下发 100% 成功。
+- **修复工具开发**：完成故障自愈智能体（DiagnosisAgent）的核心工具链开发，赋予 AI 实际执行修复命令的能力。
+- **工具测试与验证**：构建自动化测试场景，验证修复工具的安全性和执行效果。
+
+## 详细计划
+
+### 周一：网络连接问题诊断与修复
+- **任务内容**：
+  - 深入排查 `ssh_utils` 在跨网段/弱网环境下的连接表现，分析 `TimeoutError` 和 `NoRouteToHost` 的根本原因。
+  - 验证 SSH KeepAlive 配置与重试机制的有效性。
+  - 配合网络侧排查防火墙与端口转发规则。
+- **验收标准**：明确连接失败的根因，提出并通过技术解决方案（如增加重试策略、优化超时设置）。
+
+### 周二：连接稳定性优化
+- **任务内容**：
+  - 重构 SSH 连接池逻辑，实现连接复用与自动重连。
+  - 在 `metrics_collector` 中增加连接健康度监控，实时报警断连节点。
+  - 优化 `paramiko` 调用参数，提升连接建立速度。
+- **验收标准**：连续 24 小时进行 ping/ssh 测试无异常断连，指令响应延迟在可接受范围内。
+
+### 周三：修复工具（Tools）开发
+- **任务内容**：
+  - 为 Agent 开发标准化的工具函数：
+    - `exec_shell_command`: 执行任意 Shell 命令（带安全白名单）。
+    - `restart_service`: 重启指定 Hadoop 服务组件。
+    - `fetch_config_file`: 读取配置文件内容。
+    - `grep_log_keyword`: 快速检索日志关键词。
+  - 定义工具的 JSON Schema，适配 OpenAI/DeepSeek 的 Function Calling 格式。
+- **验收标准**：所有工具函数均通过单元测试，且具备完善的输入校验与异常处理。
+
+### 周四：Agent 工具链集成
+- **任务内容**：
+  - 将开发好的工具注册到 `DiagnosisAgent` 中。
+  - 调试 LLM 对工具的调用逻辑，确保 AI 能根据错误日志正确选择修复工具。
+  - 处理工具执行结果的回传逻辑，让 AI 能根据执行结果进行下一步判断。
+- **验收标准**：模拟“NameNode 挂掉”场景，AI 能自动调用 `restart_service` 并确认恢复。
+
+### 周五：综合测试与安全审计
+- **任务内容**：
+  - 进行“诊断-修复”全链路测试，覆盖常见故障场景（服务宕机、配置错误）。
+  - 对工具执行权限进行严格审计，防止 AI 执行 `rm -rf` 等高危命令。
+  - 编写修复工具的使用文档与 API 接口文档。
+- **验收标准**：修复成功率达到 80% 以上，高危操作被有效拦截。
+
+### 周六：周总结与代码优化
+- **任务内容**：
+  - 整理本周遇到的网络坑点与解决方案，形成知识库。
+  - 优化工具代码结构，提升可维护性。
+  - 准备下周的演示环境。
+
+## 风险与应对
+- **风险**：网络物理环境限制导致直连无法解决。
+  - **应对**：准备反向代理（如 FRP/Cloudflare Tunnel）作为备选连接方案。
+- **风险**：LLM 幻觉导致乱执行命令。
+  - **应对**：严格限制 `exec_shell_command` 的权限，仅允许执行白名单内的运维命令，关键操作需人工确认（Human-in-the-loop）。