十五周文档

5 months ago · 5878fbd929
parent d82f9c61a9
commit 5878fbd929
7 changed files with 217 additions and 0 deletions
--- a/doc/process/weekly/week-15/group/meeting-minutes-15.md
+++ b/doc/process/weekly/week-15/group/meeting-minutes-15.md
@ -0,0 +1,57 @@
+# 第十五周小组周会会议纪要
+
+**会议时间**：2025年12月29日
+**会议地点**：项目组办公室/线上会议
+**参会人员**：李涛,沈永佳,王祖旺,邢远鑫,邹佳轩
+**会议记录**：小组秘书
+
+---
+
+## 一、 会议议程
+1. 汇报上周工作完成情况。
+2. 讨论本周核心目标：实现“监控-采集-诊断-修复”全链路闭环。
+3. 协调前后端联调进度及测试重点。
+4. 风险评估与应对方案讨论。
+
+---
+
+## 二、 各成员汇报要点
+
+### 1. 后端与集群管理（李涛）
+- **重点任务**：彻底实现集群注册功能。
+- **关键点**：增加SSH连接校验作为注册前置条件，确保UUID精准采集与持久化。
+- **数据采集**：开发CPU、内存及日志采集功能，通过SSH远程执行命令并统一输出格式。
+
+### 2. AI Agent 与自动化（沈永佳）
+- **重点任务**：实现AI诊断修复闭环。
+- **工具调用**：完成 `DiagnosisAgent` 的工具绑定，支持联网搜索及集群启停操作。
+- **性能优化**：强化 MetricsCollector 的采集频率，支持异常关键字告警，并对接前端看板。
+
+### 3. 前端集成与UI/UX（邢远鑫）
+- **重点任务**：深度联调与体验优化。
+- **已完成**：AI 诊断 SSE 流式输出、UI 架构大规模重构（Sidebar/Header/Login）。
+- **后续计划**：对接执行日志、审计日志、告警配置及权限动态过滤，确保系统进入准生产状态。
+
+### 4. 测试与质量保证（王祖旺）
+- **重点任务**：核心 Bug 的深度测试与风险评估。
+- **计划**：梳理核心 Bug 清单，进行边界与异常测试，形成质量风险说明文档，支撑项目结题。
+
+---
+
+## 三、 会议决策与共识
+1. **链路闭环**：本周三前必须完成“采集-监控-AI诊断”的基础链路联调。
+2. **规范化**：全员需遵循沈永佳提供的代码格式化脚本，邢远鑫提供的联调指南进行协作。
+3. **测试先行**：王祖旺在成员提交联调后需立即进行回归测试，每日更新核心 Bug 清单。
+
+---
+
+## 四、 风险提示
+- **兼容性风险**：不同 Linux 发行版命令输出差异可能导致数据解析失败，需由李涛进行多系统适配。
+- **性能风险**：大规模节点采集可能导致后端压力过大，需沈永佳优化采集频率与缓存逻辑。
+- **联调风险**：前端 SSE 流式输出与后端接口映射可能存在延迟，需邢远鑫与沈永佳重点关注。
+
+---
+
+**下次会议预告**：
+时间：2026年1月4日
+主题：第十五周工作总结及结题演示准备
--- a/doc/process/weekly/week-15/group/weekly-plan-15.md
+++ b/doc/process/weekly/week-15/group/weekly-plan-15.md
@ -0,0 +1,58 @@
+# 第十五周小组周计划
+
+**周期**：2025-12-29 至 2026-01-04
+**核心目标**：实现“监控-采集-诊断-修复”全链路集成，优化全局交互体验，完成系统核心 Bug 清理，确保项目进入准生产状态并准备结题。
+
+---
+
+## 一、 本周核心任务清单
+
+### 1. 业务逻辑与后端开发
+- **集群注册优化**：集成 SSH 连接校验与 UUID 精准采集，确保集群身份唯一性及连接可靠性。
+- **数据采集落地**：实现 CPU、内存实时指标采集及 Hadoop 核心组件日志抓取，支持多节点并行采集。
+- **集群自动化**：实现集群启动、停止接口及对应的审计日志记录。
+
+### 2. AI Agent 与自动化诊断
+- **AI 工具调用**：完成 `DiagnosisAgent` 的真实工具绑定，实现 AI 驱动的故障诊断与自动化修复（包括联网搜索解决方案）。
+- **监控增强**：优化 MetricsCollector 的采集频率与过滤规则，实现异常关键字自动告警。
+- **规范化建设**：集成统一的代码格式化脚本，优化自动化部署流程。
+
+### 3. 前端集成与 UI/UX 优化
+- **全链路联调**：完成执行日志（流式展示）、审计日志、告警配置及权限管理模块的前后端深度对接。
+- **交互体验提升**：优化 AI 诊断的 SSE 流式输出效果，增加全局骨架屏加载状态，统一页面布局与响应式规范。
+- **统一错误处理**：实现 Axios 拦截器级的统一错误反馈。
+
+### 4. 质量保证与测试
+- **核心 Bug 清理**：针对当前已知的阻断性 Bug 进行深度复现、分析与验证。
+- **压力与边界测试**：在不同数据规模和极端条件下验证系统的稳定性，形成质量风险评估报告。
+- **结题文档准备**：整理测试用例与测试报告，总结项目质量现状。
+
+---
+
+## 二、 阶段性里程碑
+
+| 时间 | 目标 | 验收标准 |
+| :--- | :--- | :--- |
+| **周一至周二** | **基础链路联调** | 完成 SSH 校验、UUID 采集及 AI SSE 流式输出功能。 |
+| **周三至周四** | **数据采集与日志系统** | 实现 CPU/内存实时监控看板，日志流式展示与多维过滤功能上线。 |
+| **周五** | **AI 诊断修复闭环** | AI 能够准确识别集群故障并通过工具调用执行修复操作。 |
+| **周六至周日** | **全系统回归与总结** | 完成全模块回归测试，修复所有核心 Bug，产出第 15 周工作总结。 |
+
+---
+
+## 三、 成员分工详情
+
+- **李涛**：负责集群注册 SSH 校验、UUID 持久化、CPU/内存/日志采集后端逻辑开发。
+- **沈永佳**：负责 AI Tool Calling 落地、集群自动化管理接口、采集模块强化及格式化脚本。
+- **邢远鑫**：负责前端 UI 重构、日志/告警/权限模块联调、全局交互体验及响应式适配。
+- **王祖旺**：负责核心 Bug 梳理与复现、边界测试、质量风险评估及测试文档完善。
+
+---
+
+## 四、 风险预估与对策
+1. **网络连接稳定性**：SSH 远程操作受网络环境影响大。
+   - *对策*：增加连接重试机制与超时处理，对采集失败的节点进行明确标记。
+2. **数据一致性风险**：多端数据同步可能存在延迟。
+   - *对策*：在前端增加实时刷新逻辑与 Loading 状态，后端加强事务管理与日志审计。
+3. **AI 推理不可控性**：AI 执行修复操作可能带来安全风险。
+   - *对策*：严格定义工具调用的权限范围，重要操作增加人工确认环节。
--- a/doc/process/weekly/week-15/group/weekly-summary-15.md
+++ b/doc/process/weekly/week-15/group/weekly-summary-15.md
@ -0,0 +1,60 @@
+# 第十五周小组周总结
+
+**周期**：2025-12-29 至 2026-01-04
+**本周核心成果**：实现了“监控-采集-诊断-修复”全链路集成，完善了基于 RBAC 的鉴权系统，完成了集群注册与资源采集的核心开发，系统进入准生产状态。
+
+---
+
+## 一、 本周核心工作成果
+
+### 1. 鉴权与安全系统 (沈永佳)
+- **RBAC 模型完善**：重构了权限映射逻辑，将 `cluster:register` 等权限扩展至管理员、操作员、观察员，实现了更细粒度的访问控制。
+- **接口安全加固**：完成了集群注销、启动、停止等敏感接口的统一鉴权校验，移除了硬编码权限检查。
+- **权限键统一**：全量替换了过时的权限标识，确保了前后端权限校验的一致性。
+
+### 2. 集群管理与数据采集 (李涛)
+- **集群注册闭环**：实现了前置 SSH 连通性校验，确保只有连接正常的节点才能完成注册；同步实现了集群 UUID 的精准采集与唯一性持久化。
+- **监控指标落地**：开发完成 CPU（负载、核数）、内存（总量、已用、空闲）的实时采集功能，支持多节点并行采集。
+- **日志采集能力**：实现了基于 SSH 的远程日志读取与关键字过滤功能，极大提升了故障排查效率。
+
+### 3. AI Agent 与自动化诊断 (沈永佳)
+- **工具调用集成**：完成了 `DiagnosisAgent` 的基础工具绑定，AI 现在可以调用系统接口进行集群状态查询。
+- **功能进展**：实现了 AI 诊断的 SSE 流式输出，优化了交互体验。目前 AI 自动修复功能已初步跑通，但在复杂场景下的指令生成仍需调优。
+
+### 4. 前端集成与 UI/UX (邢远鑫)
+- **UI 架构重构**：完成了 Sidebar、Header 及登录页面的大规模重构，提升了系统的整体视觉一致性。
+- **模块联调**：对接了执行日志、审计日志、告警配置等核心模块，实现了监控看板的数据可视化展示。
+
+### 5. 测试与质量保证 (王祖旺)
+- **Bug 修复与验证**：针对集群注册、数据采集中的阻断性 Bug 进行了集中清理。
+- **风险评估**：输出了项目质量风险说明文档，为结题准备了详实的测试依据。
+
+---
+
+## 二、 目标达成情况汇总
+
+| 目标分类 | 关键任务 | 状态 | 备注 |
+| :--- | :--- | :--- | :--- |
+| **基础架构** | 鉴权系统 RBAC 完善 | ✅ 已完成 | 权限键已统一，接口已加固。 |
+| **核心业务** | 集群注册与 UUID 采集 | ✅ 已完成 | 增加 SSH 校验，确保数据唯一性。 |
+| **监控采集** | CPU/内存/日志采集 | ✅ 已完成 | 支持多系统适配与并行采集。 |
+| **AI 自动化** | AI 工具调用与流式诊断 | 🟡 优化中 | 诊断闭环已通，修复精准度待提升。 |
+| **前端集成** | 核心模块全链路联调 | 🟡 进行中 | 大部分模块已通，细节交互待优化。 |
+
+---
+
+## 三、 存在的问题与改进措施
+
+1. **AI 修复决策精度**：AI 在处理复杂连锁故障时生成的方案不够精确。
+   - **改进**：下周将重点优化 Prompt 工程，引入多步验证与人工确认机制。
+2. **多系统环境兼容性**：不同发行版命令输出差异曾导致采集失败。
+   - **改进**：已通过命令输出规则适配器解决，后续将增加更多环境的回归测试。
+3. **高负载下的采集稳定性**：监控模块在极端负载下存在少量丢包。
+   - **改进**：计划优化采集队列与重试逻辑，确保数据高可靠。
+
+---
+
+## 四、 下周工作重点 (结题冲刺)
+1. **全链路回归测试**：进行多轮端到端测试，确保“监控-告警-诊断-修复”链路无死角。
+2. **AI 修复能力调优**：提升 AI 生成修复指令的安全性与准确性。
+3. **结题演示准备**：录制功能演示视频，完善项目技术文档与交付手册。
--- a/doc/process/weekly/week-15/members/shenyongjia-weekly-summary-15.md
+++ b/doc/process/weekly/week-15/members/shenyongjia-weekly-summary-15.md
@ -0,0 +1,42 @@
+# 第十五周个人周总结（沈永佳）
+
+**周期**：2025-12-29 至 2026-01-04
+
+---
+
+## 一、 本周工作内容总结
+
+### 1. 鉴权系统优化
+- **权限模型重构**：完善了基于角色的访问控制（RBAC）模型，将集群注册权限细化并扩展至管理员、操作员、观察员。
+- **权限键统一**：完成了 `cluster:register` 等核心权限键的统一替换与数据库映射同步。
+- **鉴权接口接入**：将集群注销、启动、停止等敏感接口接入统一的鉴权校验流程，提升了系统安全性。
+
+### 2. 核心功能开发进度
+- **功能完成度**：目前已基本完成大部分预定功能，包括 SSH 连通性校验、集群 UUID 自动采集以及后端核心管理逻辑。
+- **集群管理**：实现了集群生命周期管理的核心链路，确保操作具备审计追踪。
+
+### 3. AI Agent 与自动化
+- **工具调用落地**：完成了 `DiagnosisAgent` 的基础工具绑定，支持通过 AI 执行简单的集群查询。
+- **待优化项**：AI 修复功能（Self-healing）目前在复杂场景下的指令生成准确率尚待优化，需进一步调整提示词工程与反馈闭环。
+
+---
+
+## 二、 目标达成情况评估
+
+| 预定目标 | 达成状态 | 备注 |
+| :--- | :--- | :--- |
+| **完成所有核心功能** | 基本达成 | 大部分管理与监控功能已上线，进入准生产状态。 |
+| **强化 AI 工具调用能力** | 进行中 | 基础调用已通，但复杂场景下的修复逻辑仍需调优。 |
+
+---
+
+## 三、 遗留问题与后续计划
+
+### 1. 遗留问题
+- **AI 修复精准度**：在面对多节点连锁故障时，AI 生成的修复步骤有时不够精确。
+- **监控数据抖动**：实时采集在高负载下存在轻微的数据包丢失现象。
+
+### 2. 下周计划
+- **调优 AI 修复逻辑**：引入多步验证机制，提高 AI 在故障修复时的决策准确性。
+- **系统性能压测**：针对监控采集模块进行极限测试，确保在大规模集群下的稳定性。
+- **协助前端联调**：配合前端完成最后的交互细节优化与错误提示处理。
--- a/doc/process/weekly/week-16/group/meeting-minutes-16.md
+++ b/doc/process/weekly/week-16/group/meeting-minutes-16.md
--- a/doc/process/weekly/week-16/group/weekly-plan-16.md
+++ b/doc/process/weekly/week-16/group/weekly-plan-16.md
--- a/doc/process/weekly/week-16/group/weekly-summary-16.md
+++ b/doc/process/weekly/week-16/group/weekly-summary-16.md