十五周文档

pull/49/head
echo 3 months ago
parent d82f9c61a9
commit 5878fbd929

@ -0,0 +1,57 @@
# 第十五周小组周会会议纪要
**会议时间**2025年12月29日
**会议地点**:项目组办公室/线上会议
**参会人员**:李涛,沈永佳,王祖旺,邢远鑫,邹佳轩
**会议记录**:小组秘书
---
## 一、 会议议程
1. 汇报上周工作完成情况。
2. 讨论本周核心目标:实现“监控-采集-诊断-修复”全链路闭环。
3. 协调前后端联调进度及测试重点。
4. 风险评估与应对方案讨论。
---
## 二、 各成员汇报要点
### 1. 后端与集群管理(李涛)
- **重点任务**:彻底实现集群注册功能。
- **关键点**增加SSH连接校验作为注册前置条件确保UUID精准采集与持久化。
- **数据采集**开发CPU、内存及日志采集功能通过SSH远程执行命令并统一输出格式。
### 2. AI Agent 与自动化(沈永佳)
- **重点任务**实现AI诊断修复闭环。
- **工具调用**:完成 `DiagnosisAgent` 的工具绑定,支持联网搜索及集群启停操作。
- **性能优化**:强化 MetricsCollector 的采集频率,支持异常关键字告警,并对接前端看板。
### 3. 前端集成与UI/UX邢远鑫
- **重点任务**:深度联调与体验优化。
- **已完成**AI 诊断 SSE 流式输出、UI 架构大规模重构Sidebar/Header/Login
- **后续计划**:对接执行日志、审计日志、告警配置及权限动态过滤,确保系统进入准生产状态。
### 4. 测试与质量保证(王祖旺)
- **重点任务**:核心 Bug 的深度测试与风险评估。
- **计划**:梳理核心 Bug 清单,进行边界与异常测试,形成质量风险说明文档,支撑项目结题。
---
## 三、 会议决策与共识
1. **链路闭环**:本周三前必须完成“采集-监控-AI诊断”的基础链路联调。
2. **规范化**:全员需遵循沈永佳提供的代码格式化脚本,邢远鑫提供的联调指南进行协作。
3. **测试先行**:王祖旺在成员提交联调后需立即进行回归测试,每日更新核心 Bug 清单。
---
## 四、 风险提示
- **兼容性风险**:不同 Linux 发行版命令输出差异可能导致数据解析失败,需由李涛进行多系统适配。
- **性能风险**:大规模节点采集可能导致后端压力过大,需沈永佳优化采集频率与缓存逻辑。
- **联调风险**:前端 SSE 流式输出与后端接口映射可能存在延迟,需邢远鑫与沈永佳重点关注。
---
**下次会议预告**
时间2026年1月4日
主题:第十五周工作总结及结题演示准备

@ -0,0 +1,58 @@
# 第十五周小组周计划
**周期**2025-12-29 至 2026-01-04
**核心目标**:实现“监控-采集-诊断-修复”全链路集成,优化全局交互体验,完成系统核心 Bug 清理,确保项目进入准生产状态并准备结题。
---
## 一、 本周核心任务清单
### 1. 业务逻辑与后端开发
- **集群注册优化**:集成 SSH 连接校验与 UUID 精准采集,确保集群身份唯一性及连接可靠性。
- **数据采集落地**:实现 CPU、内存实时指标采集及 Hadoop 核心组件日志抓取,支持多节点并行采集。
- **集群自动化**:实现集群启动、停止接口及对应的审计日志记录。
### 2. AI Agent 与自动化诊断
- **AI 工具调用**:完成 `DiagnosisAgent` 的真实工具绑定,实现 AI 驱动的故障诊断与自动化修复(包括联网搜索解决方案)。
- **监控增强**:优化 MetricsCollector 的采集频率与过滤规则,实现异常关键字自动告警。
- **规范化建设**:集成统一的代码格式化脚本,优化自动化部署流程。
### 3. 前端集成与 UI/UX 优化
- **全链路联调**:完成执行日志(流式展示)、审计日志、告警配置及权限管理模块的前后端深度对接。
- **交互体验提升**:优化 AI 诊断的 SSE 流式输出效果,增加全局骨架屏加载状态,统一页面布局与响应式规范。
- **统一错误处理**:实现 Axios 拦截器级的统一错误反馈。
### 4. 质量保证与测试
- **核心 Bug 清理**:针对当前已知的阻断性 Bug 进行深度复现、分析与验证。
- **压力与边界测试**:在不同数据规模和极端条件下验证系统的稳定性,形成质量风险评估报告。
- **结题文档准备**:整理测试用例与测试报告,总结项目质量现状。
---
## 二、 阶段性里程碑
| 时间 | 目标 | 验收标准 |
| :--- | :--- | :--- |
| **周一至周二** | **基础链路联调** | 完成 SSH 校验、UUID 采集及 AI SSE 流式输出功能。 |
| **周三至周四** | **数据采集与日志系统** | 实现 CPU/内存实时监控看板,日志流式展示与多维过滤功能上线。 |
| **周五** | **AI 诊断修复闭环** | AI 能够准确识别集群故障并通过工具调用执行修复操作。 |
| **周六至周日** | **全系统回归与总结** | 完成全模块回归测试,修复所有核心 Bug产出第 15 周工作总结。 |
---
## 三、 成员分工详情
- **李涛**:负责集群注册 SSH 校验、UUID 持久化、CPU/内存/日志采集后端逻辑开发。
- **沈永佳**:负责 AI Tool Calling 落地、集群自动化管理接口、采集模块强化及格式化脚本。
- **邢远鑫**:负责前端 UI 重构、日志/告警/权限模块联调、全局交互体验及响应式适配。
- **王祖旺**:负责核心 Bug 梳理与复现、边界测试、质量风险评估及测试文档完善。
---
## 四、 风险预估与对策
1. **网络连接稳定性**SSH 远程操作受网络环境影响大。
- *对策*:增加连接重试机制与超时处理,对采集失败的节点进行明确标记。
2. **数据一致性风险**:多端数据同步可能存在延迟。
- *对策*:在前端增加实时刷新逻辑与 Loading 状态,后端加强事务管理与日志审计。
3. **AI 推理不可控性**AI 执行修复操作可能带来安全风险。
- *对策*:严格定义工具调用的权限范围,重要操作增加人工确认环节。

@ -0,0 +1,60 @@
# 第十五周小组周总结
**周期**2025-12-29 至 2026-01-04
**本周核心成果**:实现了“监控-采集-诊断-修复”全链路集成,完善了基于 RBAC 的鉴权系统,完成了集群注册与资源采集的核心开发,系统进入准生产状态。
---
## 一、 本周核心工作成果
### 1. 鉴权与安全系统 (沈永佳)
- **RBAC 模型完善**:重构了权限映射逻辑,将 `cluster:register` 等权限扩展至管理员、操作员、观察员,实现了更细粒度的访问控制。
- **接口安全加固**:完成了集群注销、启动、停止等敏感接口的统一鉴权校验,移除了硬编码权限检查。
- **权限键统一**:全量替换了过时的权限标识,确保了前后端权限校验的一致性。
### 2. 集群管理与数据采集 (李涛)
- **集群注册闭环**:实现了前置 SSH 连通性校验,确保只有连接正常的节点才能完成注册;同步实现了集群 UUID 的精准采集与唯一性持久化。
- **监控指标落地**:开发完成 CPU负载、核数、内存总量、已用、空闲的实时采集功能支持多节点并行采集。
- **日志采集能力**:实现了基于 SSH 的远程日志读取与关键字过滤功能,极大提升了故障排查效率。
### 3. AI Agent 与自动化诊断 (沈永佳)
- **工具调用集成**:完成了 `DiagnosisAgent` 的基础工具绑定AI 现在可以调用系统接口进行集群状态查询。
- **功能进展**:实现了 AI 诊断的 SSE 流式输出,优化了交互体验。目前 AI 自动修复功能已初步跑通,但在复杂场景下的指令生成仍需调优。
### 4. 前端集成与 UI/UX (邢远鑫)
- **UI 架构重构**:完成了 Sidebar、Header 及登录页面的大规模重构,提升了系统的整体视觉一致性。
- **模块联调**:对接了执行日志、审计日志、告警配置等核心模块,实现了监控看板的数据可视化展示。
### 5. 测试与质量保证 (王祖旺)
- **Bug 修复与验证**:针对集群注册、数据采集中的阻断性 Bug 进行了集中清理。
- **风险评估**:输出了项目质量风险说明文档,为结题准备了详实的测试依据。
---
## 二、 目标达成情况汇总
| 目标分类 | 关键任务 | 状态 | 备注 |
| :--- | :--- | :--- | :--- |
| **基础架构** | 鉴权系统 RBAC 完善 | ✅ 已完成 | 权限键已统一,接口已加固。 |
| **核心业务** | 集群注册与 UUID 采集 | ✅ 已完成 | 增加 SSH 校验,确保数据唯一性。 |
| **监控采集** | CPU/内存/日志采集 | ✅ 已完成 | 支持多系统适配与并行采集。 |
| **AI 自动化** | AI 工具调用与流式诊断 | 🟡 优化中 | 诊断闭环已通,修复精准度待提升。 |
| **前端集成** | 核心模块全链路联调 | 🟡 进行中 | 大部分模块已通,细节交互待优化。 |
---
## 三、 存在的问题与改进措施
1. **AI 修复决策精度**AI 在处理复杂连锁故障时生成的方案不够精确。
- **改进**:下周将重点优化 Prompt 工程,引入多步验证与人工确认机制。
2. **多系统环境兼容性**:不同发行版命令输出差异曾导致采集失败。
- **改进**:已通过命令输出规则适配器解决,后续将增加更多环境的回归测试。
3. **高负载下的采集稳定性**:监控模块在极端负载下存在少量丢包。
- **改进**:计划优化采集队列与重试逻辑,确保数据高可靠。
---
## 四、 下周工作重点 (结题冲刺)
1. **全链路回归测试**:进行多轮端到端测试,确保“监控-告警-诊断-修复”链路无死角。
2. **AI 修复能力调优**:提升 AI 生成修复指令的安全性与准确性。
3. **结题演示准备**:录制功能演示视频,完善项目技术文档与交付手册。

@ -0,0 +1,42 @@
# 第十五周个人周总结(沈永佳)
**周期**2025-12-29 至 2026-01-04
---
## 一、 本周工作内容总结
### 1. 鉴权系统优化
- **权限模型重构**完善了基于角色的访问控制RBAC模型将集群注册权限细化并扩展至管理员、操作员、观察员。
- **权限键统一**:完成了 `cluster:register` 等核心权限键的统一替换与数据库映射同步。
- **鉴权接口接入**:将集群注销、启动、停止等敏感接口接入统一的鉴权校验流程,提升了系统安全性。
### 2. 核心功能开发进度
- **功能完成度**:目前已基本完成大部分预定功能,包括 SSH 连通性校验、集群 UUID 自动采集以及后端核心管理逻辑。
- **集群管理**:实现了集群生命周期管理的核心链路,确保操作具备审计追踪。
### 3. AI Agent 与自动化
- **工具调用落地**:完成了 `DiagnosisAgent` 的基础工具绑定,支持通过 AI 执行简单的集群查询。
- **待优化项**AI 修复功能Self-healing目前在复杂场景下的指令生成准确率尚待优化需进一步调整提示词工程与反馈闭环。
---
## 二、 目标达成情况评估
| 预定目标 | 达成状态 | 备注 |
| :--- | :--- | :--- |
| **完成所有核心功能** | 基本达成 | 大部分管理与监控功能已上线,进入准生产状态。 |
| **强化 AI 工具调用能力** | 进行中 | 基础调用已通,但复杂场景下的修复逻辑仍需调优。 |
---
## 三、 遗留问题与后续计划
### 1. 遗留问题
- **AI 修复精准度**在面对多节点连锁故障时AI 生成的修复步骤有时不够精确。
- **监控数据抖动**:实时采集在高负载下存在轻微的数据包丢失现象。
### 2. 下周计划
- **调优 AI 修复逻辑**:引入多步验证机制,提高 AI 在故障修复时的决策准确性。
- **系统性能压测**:针对监控采集模块进行极限测试,确保在大规模集群下的稳定性。
- **协助前端联调**:配合前端完成最后的交互细节优化与错误提示处理。
Loading…
Cancel
Save