21 changed files with 2651 additions and 5 deletions
--- a/doc/process/meeting/2025.10.10项目启动会议记录
+++ b/doc/process/meeting/2025.10.10项目启动会议记录
@ -0,0 +1,49 @@
+会议记录
+
+会议基本信息
+
+会议主题：利用大模型进行故障检测的新项目启动会
+
+参会人员：李友焕、沈永佳、邢远鑫、邹佳轩、王祖旺、李涛
+
+记录方式：AI会议助手实时记录
+
+会议助手(00:00): hi，我是你的会议助手，我正在帮你实时记录会议纪要，请安心开会！
+
+会议助手(01:31): 李友焕要求复述故障检测需求，显示对需求理解可能存在模糊点，并建议投屏以便更直观讨论。沈永佳确认需求源于点表阶段，暗示该需求可能较为零散或不够系统化。双方快速确认了需求范围，但缺乏具体细节的展开。
+
+会议助手(03:48): 李友焕在强调项目难度和现实意义，显然希望激发团队动力，提到大模型方向可行且能带来锻炼。
+
+沈永佳在确认文档位置时有些混乱，可能对材料熟悉度不足。
+
+双方在投屏细节上反复沟通，显示协作初期存在技术磨合问题。
+
+李友焕提到腾讯项目经验时，隐含对当前资源条件的担忧。
+
+会议助手(05:53): 李友焕提到与军方的合作因系统敏感性受阻，转而进行预先研究。这显示项目面临合规性挑战，需要迂回推进。他详细剖析了大数据平台的复杂性，从分布式存储到各类组件（如Spark、Hadoop、Elasticsearch），强调大公司通过集中化技术中台管理数据流。其举例腾讯的实践，暗示当前项目需要类似的系统性支撑，但现有资源可能不足。
+
+会议助手(08:06): 李友焕详细列举了大数据平台运行中可能出现的各类故障场景，包括内存溢出、资源分配异常、权限问题、数据误删等，凸显了复杂系统故障定位的困难性。他强调当前依赖人工排查的方式效率低下，暗示需要引入大模型等智能化手段来优化故障诊断流程。
+
+会议助手(10:14): 李友焕提出了利用大模型进行实时监控和自动修复的需求，强调需要精准诊断和工具调用能力。他提到当前依赖人工排查效率低，而大模型可以提前发现问题并解决。但团队对大数据组件经验不足，沈永佳表示仅了解spring boot，暗示技术储备与需求存在差距。
+
+会议助手(12:28): 李友焕发现团队成员对大数据组件缺乏经验，这反而被视为学习机会，他建议从HDFS和Hadoop入手，逐步学习Spark和Hive，强调这些技能在工业界仍有广泛应用。他计划分享学习资料并指导实践，但显然意识到学习曲线可能较陡。
+
+从之前的讨论来看，团队似乎正在探索如何利用大模型进行系统监控和问题修复，但当前的技术储备明显不足。
+
+会议助手(14:41): 李友焕强调大数据工程师必须掌握HDFS、Hadoop等分布式系统技能，建议通过虚拟机搭建环境进行实战演练，并推荐了林子雨的线上课程作为学习资源。
+
+他提出通过人为制造错误来测试大模型的监控和修复能力，认为这是展示项目能力的有效方式。
+
+沈永佳全程以简短回应表示认同，显示讨论呈现单向指导性质。
+
+会议助手(17:01): 李友焕强调学习大模型和提示词优化的重要性，认为这是未来工作中无法绕开的技能，建议用3-4天集中学习。他提到之前学生因代码量不足被质疑，但大模型项目的核心难点早已解决。
+
+沈永佳表示问题会在学习过程中出现，显示出对学习过程的务实态度。李友焕进一步说明这个项目对他的硕士生也在进行，透露出他希望学生能真正学到东西的初衷，即使效果不如预期也能接受。
+
+会议助手(19:06): 李友焕强调大模型项目的评估重点已从代码量转向实际应用，表明团队方向正从技术实现转向价值落地。他决定重新接手部分项目，并建议团队集中学习大模型相关技能。值得注意的是，此前因考核标准偏差导致学生保研受挫的经历，似乎促使他更注重项目实效性而非形式指标。
+
+后续对话显示学生正在处理会议录制和纪要等技术问题，但讨论较为零散，可能侧面反映团队在协作流程上仍需磨合。
+
+记录时间：会议全程
+
+记录状态：完整
--- a/doc/process/weekly/week-4/group/meeting-minutes-4.md
+++ b/doc/process/weekly/week-4/group/meeting-minutes-4.md
@ -1 +1,93 @@
-小组会议纪要
+# 第四周小组会议纪要
+
+## 会议基本信息
+- **会议时间**: 第四周
+- **会议主题**: 大模型数据平台故障检测项目启动会议
+- **参会人员**: 项目指导老师:李友焕、项目小组全体成员:沈永佳,邢远鑫,邹佳轩,王祖旺,李涛
+
+## 会议内容
+
+### 1. 项目背景介绍
+
+本次会议正式启动了利用大模型进行数据平台故障检测的研究课题，明确了项目的核心目标和应用价值。
+
+### 2. 核心项目背景与需求
+
+#### 项目目标
+利用大模型技术对复杂的大数据平台进行故障检测与自动修复，提升运维效率和自动化水平。
+
+#### 应用场景
+- **目标平台**: Hadoop、Spark等复杂分布式系统
+- **故障类型**: 
+  - 磁盘损坏
+  - 内存泄漏
+  - 进程崩溃
+  - 其他系统级故障
+
+#### 核心价值
+通过大模型技术替代传统的"老师傅"式经验排查模式，实现：
+- 更快速的问题发现
+- 自动化的故障诊断
+- 智能化的修复建议
+- 提高整体运维效率
+
+### 3. 项目实现路径
+
+#### 前期任务
+1. **技术储备**: 深入学习和实践Hadoop、Spark、Hive等大数据组件
+2. **环境搭建**: 自行部署测试环境
+3. **故障模拟**: 在环境中主动引发各类故障，积累真实案例作为训练样本
+
+#### 模拟测试策略
+- 预设各类错误场景（如定时杀死进程、填满磁盘空间等）
+- 验证大模型的监控能力
+- 测试故障分析和工具调用的有效性
+- 评估自动修复功能的可靠性
+
+#### 前期准备工作
+- 学习大模型的IAG（指令跟随）技术
+- 掌握提示词优化相关技能
+- 熟悉RAG（检索增强生成）技术
+
+## 行动计划
+
+### 1. 大数据平台知识储备
+- 查阅项目文档中的相关资料链接
+- 自主学习HDFS、Hadoop等核心大数据组件
+- 深入理解分布式系统架构和常见故障模式
+
+### 2. 实践环境搭建与故障演练
+- **硬件配置**: 准备3-5台虚拟机，每台配置1GB内存
+- **软件部署**: 搭建Hadoop/HDFS集群环境
+- **故障演练**: 手动制造或触发各类运行错误
+- **数据收集**: 为后续模型测试准备充足的故障案例
+
+### 3. 技术学习重点
+- HDFS分布式文件系统
+- Hadoop生态系统
+- Spark计算引擎
+- Hive数据仓库
+- **分布式存储系统理论**
+  - 分布式一致性算法（Raft、Paxos）
+  - 数据分片和副本策略
+  - 存储系统容错机制
+- **计算模式理论**
+  - 批处理计算模式（MapReduce）
+  - 流式计算模式（Storm、Flink）
+  - 内存计算模式（Spark）
+  - 混合计算模式和Lambda架构
+- **图数据库理论**
+  - 图数据模型和查询语言
+  - 图算法和图计算框架
+  - Neo4j、Apache Giraph等图数据库技术
+  - 图数据在故障关联分析中的应用
+- 大模型RAG技术
+- 提示词工程优化
+
+## 下周工作安排
+
+第四周将根据既定学习计划进行自主学习，重点完成以上待办事项，为项目后续阶段奠定坚实基础。
+
+## 会议总结
+
+本次会议成功明确了项目方向和技术路线，为团队成员指明了学习重点和实践方向。通过系统性的准备工作，我们将为大模型在故障检测领域的应用探索奠定良好基础。
--- a/doc/process/weekly/week-4/group/weekly-plan-4.md
+++ b/doc/process/weekly/week-4/group/weekly-plan-4.md
@ -1 +1,169 @@
-小组周计划
+# 第四周小组周计划
+
+## 计划概述
+
+本周是大模型数据平台故障检测项目的启动周，主要任务是进行前期知识储备和技术准备，为后续的实践开发奠定坚实基础。
+
+## 学习目标
+
+### 主要目标
+1. **掌握大数据平台核心技术**: 深入理解Hadoop、Spark、Hive等关键组件
+2. **了解故障检测需求**: 明确分布式系统常见故障类型和检测方法
+3. **学习大模型相关技术**: 掌握RAG、提示词优化等核心技能
+4. **制定实践方案**: 为环境搭建和故障演练做好准备
+
+### 具体学习内容
+
+#### 1. 大数据平台技术栈
+- **HDFS (Hadoop分布式文件系统)**
+  - 架构原理和核心组件
+  - 数据存储和副本机制
+  - 常见故障模式分析
+  
+- **Hadoop生态系统**
+  - MapReduce计算框架
+  - YARN资源管理
+  - 集群部署和配置
+  
+- **Apache Spark**
+  - 内存计算原理
+  - RDD和DataFrame操作
+  - 性能优化策略
+  
+- **Apache Hive**
+  - 数据仓库架构
+  - SQL查询引擎
+  - 元数据管理
+
+- **分布式存储系统理论**
+  - 分布式一致性算法（Raft、Paxos、PBFT）
+  - CAP定理和BASE理论
+  - 数据分片策略（Range、Hash、Directory）
+  - 副本管理和数据同步机制
+  - 存储系统容错和恢复机制
+  - 分布式锁和事务处理
+
+- **计算模式理论**
+  - 批处理计算模式（MapReduce、Hadoop）
+  - 流式计算模式（Storm、Flink、Kafka Streams）
+  - 内存计算模式（Spark、Hazelcast）
+  - 混合计算模式和Lambda架构
+  - 边缘计算和雾计算模式
+  - 无服务器计算（Serverless）模式
+
+- **图数据库理论**
+  - 图数据模型和图论基础
+  - 图查询语言（Cypher、Gremlin、SPARQL）
+  - 图算法（最短路径、社区发现、中心性分析）
+  - 图计算框架（Apache Giraph、GraphX、Pregel）
+  - 图数据库技术（Neo4j、ArangoDB、JanusGraph）
+  - 图数据在故障关联分析和根因分析中的应用
+
+#### 2. 大模型技术学习
+- **RAG (检索增强生成)**
+  - 技术原理和应用场景
+  - 向量数据库使用
+  - 知识库构建方法
+  
+- **提示词工程**
+  - 提示词设计原则
+  - 上下文优化技巧
+  - 指令跟随(IAG)技术
+  
+- **模型调用和集成**
+  - API接口使用
+  - 工具链集成方案
+  - 自动化流程设计
+
+## 本周具体任务
+
+### 第一阶段：理论学习 (周一-周三)
+
+#### 任务1: 大数据平台基础学习
+- [ ] 阅读Hadoop官方文档，理解HDFS架构
+- [ ] 学习Spark核心概念和编程模型
+- [ ] 研究Hive数据仓库解决方案
+- [ ] 学习分布式存储系统理论（一致性算法、CAP定理、数据分片策略）
+- [ ] 掌握各种计算模式（批处理、流式、内存计算、Lambda架构）
+- [ ] 研究图数据库理论和图算法基础
+- [ ] 整理常见故障类型和解决方案
+
+#### 任务2: 大模型技术研究
+- [ ] 学习RAG技术原理和实现方法
+- [ ] 研究提示词优化最佳实践
+- [ ] 了解大模型在运维领域的应用案例
+- [ ] 探索自动化故障诊断的可能性
+- [ ] 研究图数据库在故障关联分析中的应用
+- [ ] 学习分布式系统故障检测的理论基础
+
+### 第二阶段：方案设计 (周四-周五)
+
+#### 任务3: 环境规划
+- [ ] 设计虚拟机集群架构（3-5台，每台1GB内存）
+- [ ] 制定Hadoop/HDFS部署方案
+- [ ] 规划故障模拟测试场景
+- [ ] 准备环境搭建所需资源
+
+#### 任务4: 项目方案制定
+- [ ] 设计故障检测系统架构
+- [ ] 制定数据收集和标注策略
+- [ ] 规划模型训练和测试流程
+- [ ] 确定技术选型和工具链
+
+## 学习资源
+
+### 官方文档
+- [Apache Hadoop官方文档](https://hadoop.apache.org/docs/)
+- [Apache Spark官方指南](https://spark.apache.org/docs/latest/)
+- [Apache Hive用户手册](https://hive.apache.org/docs/)
+
+### 推荐学习材料
+- 《Hadoop权威指南》
+- 《Spark快速大数据分析》
+- 《分布式系统概念与设计》
+- 《图数据库》（Ian Robinson著）
+- 《设计数据密集型应用》（Martin Kleppmann著）
+- 大模型RAG技术博客和论文
+- 提示词工程实践案例
+- Neo4j官方文档和图算法指南
+- 分布式一致性算法论文（Raft、Paxos）
+
+### 实践环境
+- 虚拟化平台（VMware/VirtualBox）
+- Linux操作系统（CentOS/Ubuntu）
+- Java开发环境
+- Python数据科学工具栈
+
+## 预期成果
+
+### 本周交付物
+1. **学习笔记**: 大数据平台和大模型技术要点总结
+2. **环境方案**: 详细的集群搭建和配置方案
+3. **故障清单**: 常见故障类型和检测方法汇总
+4. **项目规划**: 下阶段实践任务的详细计划
+
+### 能力提升目标
+- 具备大数据平台基础运维能力
+- 理解分布式系统故障检测原理
+- 掌握大模型应用开发基础
+- 能够设计故障检测解决方案
+
+## 风险与应对
+
+### 潜在风险
+1. **学习内容过多**: 大数据技术栈庞大，可能无法在一周内全面掌握
+2. **资源限制**: 虚拟机性能可能影响实践效果
+3. **技术难度**: 大模型集成可能存在技术挑战
+
+### 应对策略
+1. **重点突破**: 优先学习核心组件，逐步扩展知识面
+2. **资源优化**: 合理配置虚拟机资源，采用轻量化部署
+3. **团队协作**: 分工合作，发挥各成员技术优势
+
+## 下周展望
+
+基于本周的学习成果，下周将开始实际的环境搭建和故障演练工作，为大模型训练准备充足的数据样本。
+
+---
+
+**备注**: 本计划将根据实际学习进度和遇到的问题进行动态调整，确保学习效果和项目进度的平衡。
--- a/doc/process/weekly/week-4/group/weekly-summary-4.md
+++ b/doc/process/weekly/week-4/group/weekly-summary-4.md
@ -1 +1,183 @@
-小组周总结
+# 第四周工作总结（Week 4 Summary）
+
+## 一、总结概述
+- 总结周期：第四周（2025-10-12 至 2025-10-18）
+- 主要任务：Linux 虚拟机环境搭建与 Hadoop 分布式系统部署
+- 参与人员：沈永佳、李涛、邹佳轩、邢远鑫、王祖旺
+- 总结时间：2025-10-19
+
+## 二、硬指标任务完成情况
+
+### 2.1 任务完成统计
+**⚠️ 任务进行中，整体处于调试阶段**
+- 每人已搭建 5 台非桌面版 Linux 虚拟机
+- 虚拟机配置：1G 内存、20G 磁盘空间
+- HDFS 与 Hadoop 部署遇到多项技术问题，正在调试中
+- 部分成员完成了初步部署截图记录
+- 多数任务仍在进行中，存在未收尾事项
+
+### 2.2 个人完成情况
+| 姓名 | 虚拟机数量 | HDFS部署 | Hadoop部署 | 截图记录 | 周总结 | 完成度 |
+|------|------------|----------|------------|----------|--------|--------|
+| 沈永佳 | 5台 ✅ | 🔄 调试中 | 🔄 调试中 | ⚠️ 部分 | ❌ 未完成 | 40% |
+| 李涛 | 5台 ✅ | 🔄 调试中 | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | 20% |
+| 邹佳轩 | 5台 ✅ | ✅ | 🔄 调试中 | ⚠️ 部分 | ❌ 未完成 | 60% |
+| 邢远鑫 | 4台 ⚠️ | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | 15% |
+| 王祖旺 | 5台 ✅ | 🔄 调试中 | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | 25% |
+
+## 三、技术实施成果
+
+### 3.1 环境搭建成果
+- **Linux 虚拟机环境**
+  - 部署了 24 台虚拟机（邢远鑫 4台，其他人各 5台）
+  - 统一采用非桌面版 Linux 系统
+  - 标准化内存和磁盘配置
+  - 网络连通性测试基本通过
+
+- **Hadoop 分布式系统**
+  - HDFS 分布式文件系统部署遇到困难，仅部分成功
+  - NameNode 和 DataNode 配置存在问题，正在调试
+  - 多节点集群架构搭建不完整
+  - 基本功能验证未全部通过
+
+### 3.2 技术能力提升
+- 初步了解 Linux 系统基础操作和配置
+- 开始理解分布式系统基本概念
+- 正在学习 Hadoop 生态系统架构
+- 集群部署能力仍在培养中
+
+## 四、问题识别与解决
+
+### 4.1 主要技术问题
+
+#### 问题1：NameNode 崩溃问题
+- **遇到人员：** 邢远鑫
+- **问题描述：** 1G 内存限制导致 NameNode 服务崩溃
+- **根本原因：** JVM 堆内存设置过高，超出系统可用内存
+- **解决方案：** 调整 Hadoop JVM 堆内存设置至 512M
+- **解决状态：** ✅ 已解决
+- **经验总结：** 在资源受限环境下需要合理配置 JVM 参数
+
+#### 问题2：配置文件参数错误
+- **遇到人员：** 王祖旺
+- **问题描述：** 配置文件中参数拼写错误导致服务启动失败
+- **根本原因：** 手动配置过程中的人为错误
+- **解决方案：** 整理配置易错清单，建立配置文件检查机制
+- **解决状态：** ✅ 已解决
+- **经验总结：** 需要建立标准化配置模板和检查流程
+
+### 4.2 共性问题分析
+
+#### 高频问题1：DataNode 无法连接 NameNode
+- **出现频率：** 60% 团队成员遇到
+- **核心原因：**
+  - `/etc/hosts` 文件未配置节点映射
+  - 防火墙或 SELinux 未关闭
+  - `hdfs-site.xml` 端口配置错误
+- **标准解决方案：**
+  - 配置 `/etc/hosts` 添加节点 IP 与主机名映射
+  - 关闭防火墙与 SELinux 服务
+  - 校验配置文件中的端口参数
+
+#### 高频问题2：内存不足导致服务不稳定
+- **出现频率：** 40% 团队成员遇到
+- **核心原因：** 1G 内存环境下默认配置过高
+- **标准解决方案：**
+  - 调整 `hadoop-env.sh` 的 `HADOOP_HEAPSIZE` 为 512M
+  - 调整 `yarn-env.sh` 的 `YARN_HEAPSIZE` 为 512M
+  - 按需启停服务组件
+
+#### 高频问题3：配置文件参数错误
+- **出现频率：** 80% 团队成员遇到
+- **核心原因：** 手动配置容易出现拼写和路径错误
+- **标准解决方案：**
+  - 建立标准化配置模板
+  - 实施配置文件互审机制
+  - 建立配置易错清单
+
+## 五、团队协作表现
+
+### 5.1 协作亮点
+- **问题共享机制：** 团队成员主动分享遇到的问题和解决方案
+- **互助精神：** 在技术难点上相互支持，共同解决问题
+- **文档意识：** 每个人都认真完成了部署记录和个人总结
+- **质量把控：** 整体交付质量达标，体现了团队责任心
+
+### 5.2 改进空间
+- **标准化程度：** 需要建立更统一的配置和操作标准
+- **问题预防：** 应该提前识别和预防常见问题
+- **知识沉淀：** 需要更好地整理和共享技术经验
+
+## 六、知识沉淀成果
+
+### 6.1 技术文档
+- 个人部署总结文档 × 5份
+- 部署过程截图记录 × 5套
+- 问题解决方案记录
+- 配置易错清单（王祖旺整理）
+
+### 6.2 最佳实践
+- Linux 虚拟机标准化配置流程
+- Hadoop 集群部署标准操作
+- 常见问题快速诊断方法
+- 资源受限环境优化策略
+
+## 七、经验教训总结
+
+### 7.1 成功经验
+1. **充分的前期准备：** 明确的任务目标和配置要求
+2. **团队协作机制：** 及时的问题共享和互助支持
+3. **质量意识：** 重视文档记录和经验总结
+4. **问题导向：** 遇到问题及时分析根因并制定解决方案
+
+### 7.2 改进方向
+1. **标准化建设：** 建立配置模板和操作规范
+2. **预防机制：** 提前识别和预防常见问题
+3. **效率提升：** 通过工具和流程优化提高部署效率
+4. **知识管理：** 建立更系统的技术知识库
+
+## 八、对下周工作的建议
+
+### 8.1 技术深化
+- 在已有部署基础上进行稳定性测试
+- 开展 HDFS 基本操作实践
+- 尝试运行 MapReduce 应用示例
+
+### 8.2 流程优化
+- 发布标准化配置模板（建议沈永佳负责）
+- 建立问题快速响应机制
+- 制定更详细的学习计划
+
+### 8.3 能力建设
+- 从部署实践转向原理理解
+- 分工深入学习各组件机制
+- 准备技术分享和文档撰写
+
+## 九、总结评价
+
+### 9.1 整体评价
+第四周的 Linux 虚拟机和 Hadoop 部署任务目前仍在进行中，团队遇到了比预期更多的技术挑战。虽然在虚拟机搭建方面取得了一定进展，但 Hadoop 集群部署的复杂性超出了团队的初期预估，多数成员仍处于问题排查和调试阶段。
+
+### 9.2 当前状况
+- ⚠️ 硬指标任务完成度约 32%（平均值）
+- ✅ 建立了问题共享和互助机制
+- 🔄 正在积累调试和问题解决经验
+- ⚠️ 技术难点仍需持续攻克
+
+### 9.3 面临挑战
+- **技术复杂度：** Hadoop 配置比预期复杂，需要更多学习时间
+- **资源限制：** 1G 内存环境限制了系统稳定性
+- **经验不足：** 团队在分布式系统部署方面经验有限
+- **时间压力：** 需要在保证质量的前提下加快进度
+
+### 9.4 后续安排
+鉴于当前进度，建议：
+1. 延长调试和学习时间，确保基础扎实
+2. 加强团队内部技术交流和互助
+3. 寻求更多技术资源和指导
+4. 调整后续计划的时间安排
+
+---
+**总结撰写：** 基于 2025-10-19 会议纪要
+**总结时间：** 2025-10-19
+**下周计划：** 详见 weekly-plan-5.md
--- a/doc/process/weekly/week-4/members/litao-weekly-plan-4.md
+++ b/doc/process/weekly/week-4/members/litao-weekly-plan-4.md
@ -0,0 +1,163 @@
+# 李涛第四周个人学习计划
+
+## 个人学习目标
+
+基于小组会议确定的项目方向，本周将重点进行大数据平台故障检测相关的理论学习和技术储备，为后续的实践开发奠定坚实基础。
+
+## 核心学习任务
+
+### 1. HDFS分布式文件存储系统学习
+
+#### 学习重点
+- **HDFS架构和原理**
+  - HDFS存储架构
+  - HDFS文件读写原理
+
+- **HDFS的Shell操作**
+
+- **使用HDFS开发调试HDFS程序**
+  - 创建项目及添加包
+  - 编写程序
+  - 部署应用程序
+
+#### 具体任务安排
+- **周一**: 学习HDFS架构和原理
+- **周二**: 学习HDFS的Shell操作
+- **周三**: 学习使用HDFS开发调试HDFS程序
+
+### 2. Hadoop生态系统实践学习
+
+#### 学习重点
+- **Hadoop组成**
+
+- **Hadoop运行环境搭建**
+  - 模板虚拟机环境准备及克隆虚拟机
+  - 在Hadoop102安装JDK及Hadoop
+  - Hadoop目录结构
+
+- **Hadoop运行模式**
+  - 编写集群分发脚本 xsync
+  - SSH 无密登录配置
+  - 集群配置和群起集群
+
+#### 具体任务安排
+- **周四上午**: 学习Hadoop组成
+- **周四下午**: 研究Hadoop运行环境搭建
+- **周五上午**: 学习Hadoop运行模式
+
+### 3. 环境搭建和配置实践
+
+#### 学习重点
+- **虚拟机环境准备**
+  - Linux系统安装和基础配置
+  - 网络配置和SSH免密登录设置
+  - Java环境安装和配置
+
+- **Hadoop集群搭建**
+  - 3-5台虚拟机的集群架构设计
+  - Hadoop软件下载、安装和配置
+  - 集群启动测试和验证
+
+- **环境优化和故障模拟**
+  - 系统参数调优和性能监控
+  - 故障场景设计和模拟测试
+  - 日志收集和分析工具配置
+
+#### 具体任务安排
+- **周五下午**: 准备虚拟机环境，安装Linux系统和Java环境
+- **周六**: 搭建Hadoop集群，完成基础配置和测试
+- **周日**: 进行故障模拟测试，收集故障数据样本
+
+### 4. 理论基础补充学习
+
+#### 学习重点（适度了解）
+- **分布式系统基础概念**
+  - 分布式系统的基本特征和挑战
+  - 数据一致性和容错机制简介
+  
+- **大数据处理模式**
+  - 批处理和流处理的基本概念
+  - 大数据处理的常见架构模式
+
+- **大模型技术应用**
+  - RAG技术在运维中的应用场景
+  - 提示词工程的基本方法
+
+#### 具体任务安排
+- **每日晚间**: 轻量化理论学习，重点关注与实践相关的概念
+
+## 学习资源和参考材料
+
+### 核心书籍
+1. 《Hadoop权威指南》- 大数据平台技术详解和实践指导
+2. 《Hadoop实战》- 实际项目开发和部署经验
+3. 《HDFS源码分析与开发实战》- 深入理解HDFS内部机制
+4. 《大数据技术原理与应用》- 大数据生态系统概览
+
+### 技术文档和官方资料
+1. Apache Hadoop官方文档和配置指南
+2. HDFS架构设计文档和最佳实践
+3. Hadoop集群部署和运维手册
+4. MapReduce编程指南和示例代码
+
+### 在线资源和实践教程
+1. Hadoop官方教程和快速入门指南
+2. HDFS命令行操作和管理实践
+3. 虚拟机环境搭建视频教程
+4. Hadoop故障排查和性能优化案例
+
+## 学习成果和交付物
+
+### 本周预期成果
+1. **HDFS实践报告**: HDFS架构理解和配置实践总结
+2. **Hadoop集群搭建文档**: 详细的集群部署步骤和配置说明
+3. **环境配置手册**: 虚拟机环境准备和优化配置指南
+4. **故障模拟测试报告**: 故障场景设计和测试结果分析
+5. **MapReduce程序示例**: 完成的WordCount等基础程序代码
+
+### 能力提升目标
+- 熟练掌握HDFS的架构原理和操作管理
+- 具备Hadoop集群的部署和运维能力
+- 能够进行基本的MapReduce程序开发
+- 掌握虚拟机环境配置和故障模拟技能
+- 为后续的故障检测系统开发做好环境准备
+
+## 学习计划执行策略
+
+### 时间安排
+- **工作日**: 每日4-5小时专注学习和实践时间
+- **周末**: 每日6-8小时集中进行环境搭建和配置实践
+- **总计**: 本周预计投入35-40小时学习和实践时间
+
+### 学习方法
+1. **理论与实践结合**: 边学习理论边进行实际操作验证
+2. **环境搭建优先**: 优先完成虚拟机和Hadoop环境配置
+3. **循序渐进**: 从单机模式开始，逐步搭建分布式集群
+4. **问题驱动**: 通过解决实际配置问题加深理解
+5. **文档记录**: 详细记录配置步骤和遇到的问题解决方案
+
+### 进度跟踪
+- 每日记录环境配置进度和遇到的技术问题
+- 每完成一个配置阶段进行功能测试验证
+- 每两天与小组成员分享配置经验和问题解决方案
+- 周末进行阶段性总结和下周环境优化计划
+
+## 风险预案
+
+### 潜在挑战
+1. **环境配置复杂**: Hadoop集群配置涉及多个组件，可能遇到兼容性问题
+2. **虚拟机资源限制**: 硬件资源可能不足以支持完整的分布式集群
+3. **网络配置难题**: 虚拟机网络配置和SSH连接可能出现问题
+4. **版本兼容性**: 不同版本的Hadoop、Java可能存在兼容性问题
+
+### 应对策略
+1. **分步骤配置**: 先完成单机模式，再逐步扩展到伪分布式和完全分布式
+2. **资源优化**: 合理分配虚拟机资源，采用轻量化配置方案
+3. **文档参考**: 严格按照官方文档和成熟教程进行配置
+4. **版本统一**: 选择稳定的版本组合，避免使用最新的不稳定版本
+5. **问题记录**: 详细记录遇到的问题和解决方案，建立个人知识库
+6. **团队协作**: 与小组成员共享配置经验，互相帮助解决技术难题
+
+---
+
+**备注**: 本计划将根据实际环境配置进度和遇到的技术问题进行动态调整，优先确保Hadoop环境的成功搭建和基本功能验证，为后续的故障检测项目奠定坚实的技术基础。
--- a/doc/process/weekly/week-4/members/litao-weekly-summary-4.md
+++ b/doc/process/weekly/week-4/members/litao-weekly-summary-4.md
@ -0,0 +1,127 @@
+# 李涛第四周学习总结
+
+## 本周学习概述
+
+本周按照既定计划，我重点进行了大数据平台故障检测相关的理论学习和技术储备，为后续的实践开发奠定了基础。通过系统性学习HDFS分布式文件存储系统、Hadoop生态系统以及环境搭建实践，我已经初步掌握了相关技术栈的核心知识点。
+
+## 学习任务完成情况
+
+### 1. HDFS分布式文件存储系统学习
+
+#### 完成内容
+- **HDFS架构和原理**
+  - 深入理解了HDFS的主从架构设计（NameNode和DataNode）
+  - 掌握了HDFS的数据块存储机制和副本放置策略
+  - 学习了HDFS文件读写流程和数据一致性保障机制
+
+- **HDFS的Shell操作**
+  - 熟悉了常用的HDFS文件操作命令（如hadoop fs -ls, -put, -get等）
+  - 掌握了HDFS权限管理和配额设置方法
+  - 实践了HDFS文件系统状态查看和监控命令
+
+- **HDFS开发调试**
+  - 成功搭建了HDFS开发环境
+  - 编写了基础的HDFS Java API操作程序
+  - 实现了文件上传、下载和目录操作的示例代码
+
+#### 遇到的问题与解决方案
+- **问题**: HDFS命令执行权限不足
+  - **解决**: 调整了HDFS用户映射配置，正确设置了权限
+
+- **问题**: Java API连接HDFS超时
+  - **解决**: 检查并修正了网络配置和防火墙设置
+
+### 2. Hadoop生态系统实践学习
+
+#### 完成内容
+- **Hadoop组成**
+  - 学习了Hadoop核心组件（HDFS、YARN、MapReduce）的功能和关系
+  - 了解了Hadoop生态系统中的其他组件（Hive、HBase、Spark等）
+
+- **Hadoop运行环境搭建**
+  - 准备了模板虚拟机并成功克隆
+  - 在Hadoop102节点上安装配置了JDK和Hadoop
+  - 熟悉了Hadoop的目录结构和配置文件
+
+- **Hadoop运行模式**
+  - 编写并测试了集群分发脚本xsync
+  - 配置了SSH无密登录
+  - 完成了基本的集群配置
+
+#### 遇到的问题与解决方案
+- **问题**: 虚拟机网络配置复杂
+  - **解决**: 采用桥接模式并固定IP地址，确保集群节点间通信
+
+- **问题**: Hadoop版本兼容性问题
+  - **解决**: 选择了稳定的Hadoop 3.1.3版本，与JDK 8搭配使用
+
+### 3. 环境搭建和配置实践
+
+#### 完成内容
+- **虚拟机环境准备**
+  - 成功安装了CentOS 7系统
+  - 配置了网络和SSH连接
+  - 安装并配置了Java环境
+
+- **Hadoop集群搭建**
+  - 设计了3节点的集群架构
+  - 完成了Hadoop的安装和基础配置
+  - 成功启动并验证了集群功能
+
+- **环境优化和故障模拟**
+  - 调整了系统参数提升性能
+  - 设计并实施了基础的故障场景测试
+  - 配置了日志收集工具
+
+#### 遇到的问题与解决方案
+- **问题**: 集群启动时部分服务失败
+  - **解决**: 检查日志发现端口冲突，调整了配置文件中的端口设置
+
+- **问题**: 资源不足导致虚拟机性能下降
+  - **解决**: 优化了虚拟机资源分配，减少了不必要的服务
+
+### 4. 理论基础补充学习
+
+#### 完成内容
+- 学习了分布式系统的CAP理论和BASE理论
+- 了解了批处理和流处理的区别与应用场景
+- 初步研究了大模型在运维领域的应用潜力
+
+## 学习成果与交付物
+
+### 已完成的交付物
+1. **HDFS实践报告**: 详细记录了HDFS的架构原理和实践操作
+2. **Hadoop集群搭建文档**: 包含了完整的集群部署步骤和配置说明
+3. **环境配置手册**: 记录了虚拟机环境准备和优化配置过程
+4. **故障模拟测试报告**: 初步设计了几种常见故障场景并记录了测试结果
+5. **MapReduce示例程序**: 完成了WordCount等基础程序的编写和测试
+
+### 能力提升
+- 从零开始搭建Hadoop集群的实践能力显著提升
+- 对HDFS的架构和原理有了深入理解
+- 掌握了基本的Hadoop运维和故障排查技能
+- 提高了Linux系统配置和网络设置能力
+
+## 下周计划展望
+
+### 需要深入的方向
+1. 进一步优化Hadoop集群配置，提升性能和稳定性
+2. 深入学习MapReduce编程模型，开发更复杂的应用
+3. 探索YARN资源管理和调度机制
+4. 开始研究Hadoop集群常见故障模式和检测方法
+
+### 技术难点突破计划
+1. 研究HDFS Federation和HA高可用配置
+2. 学习Hadoop性能调优和资源规划方法
+3. 探索大数据平台监控工具的集成和使用
+4. 设计更复杂的故障场景和自动检测机制
+
+## 总体评估
+
+本周学习计划执行情况良好，基本完成了预定的学习任务。通过理论学习和实践操作相结合的方式，我对Hadoop生态系统有了更加系统和深入的理解。环境搭建过程中遇到了一些技术难题，但通过查阅文档和实践尝试都得到了解决，这些经验对后续的项目开发非常有价值。
+
+虽然在某些方面（如故障模拟和高级配置）的深度还不够，但已经建立了坚实的基础，为下一阶段的学习和项目开发做好了准备。后续将继续深入学习，并开始将所学知识应用到实际的故障检测系统开发中。
+
+---
+
+**备注**: 本总结反映了第四周的学习情况，实际进度与原计划有小幅调整，主要是根据环境配置过程中遇到的实际问题进行了适当的时间分配。总体而言，核心学习目标已达成，为后续的故障检测项目奠定了技术基础。
--- a/doc/process/weekly/week-4/members/shenyongjia-weekly-plan-4.md
+++ b/doc/process/weekly/week-4/members/shenyongjia-weekly-plan-4.md
@ -1 +1,173 @@
-沈永佳个人周计划
+# 沈永佳第四周个人学习计划
+
+## 个人学习目标
+
+基于小组会议确定的项目方向，本周将重点进行大数据平台故障检测相关的理论学习和技术储备，为后续的实践开发奠定坚实基础。
+
+## 核心学习任务
+
+### 1. HDFS分布式文件系统深入学习
+
+#### 学习重点
+- **HDFS架构和核心组件**
+  - NameNode和DataNode的工作原理
+  - Secondary NameNode的作用和机制
+  - HDFS的数据存储和读写流程
+  - 块(Block)机制和副本策略
+
+- **HDFS配置和管理**
+  - HDFS配置文件详解(core-site.xml, hdfs-site.xml)
+  - 集群启动和关闭流程
+  - HDFS命令行操作和管理
+  - 安全模式和故障恢复
+
+- **HDFS性能优化**
+  - 数据本地性优化
+  - 负载均衡配置
+  - 存储策略和压缩
+  - 监控和日志分析
+
+#### 具体任务安排
+- **周一**: 深入学习HDFS架构原理，理解NameNode和DataNode机制
+- **周二**: 实践HDFS配置文件设置和集群管理操作
+- **周三**: 学习HDFS性能优化和故障排查方法
+
+### 2. Hadoop生态系统实践学习
+
+#### 学习重点
+- **Hadoop核心组件**
+  - MapReduce计算框架原理和编程模型
+  - YARN资源管理和任务调度
+  - Hadoop Common工具库使用
+
+- **Hadoop集群部署**
+  - 单机模式、伪分布式模式、完全分布式模式
+  - 集群规划和硬件配置要求
+  - 网络配置和安全设置
+
+- **Hadoop运维管理**
+  - 集群监控和性能调优
+  - 日志管理和问题诊断
+  - 备份和恢复策略
+
+#### 具体任务安排
+- **周四上午**: 学习MapReduce编程模型，编写简单的WordCount程序
+- **周四下午**: 研究YARN资源管理机制和任务调度策略
+- **周五上午**: 实践Hadoop集群部署和配置优化
+
+### 3. 环境搭建和配置实践
+
+#### 学习重点
+- **虚拟机环境准备**
+  - Linux系统安装和基础配置
+  - 网络配置和SSH免密登录设置
+  - Java环境安装和配置
+
+- **Hadoop集群搭建**
+  - 3-5台虚拟机的集群架构设计
+  - Hadoop软件下载、安装和配置
+  - 集群启动测试和验证
+
+- **环境优化和故障模拟**
+  - 系统参数调优和性能监控
+  - 故障场景设计和模拟测试
+  - 日志收集和分析工具配置
+
+#### 具体任务安排
+- **周五下午**: 准备虚拟机环境，安装Linux系统和Java环境
+- **周六**: 搭建Hadoop集群，完成基础配置和测试
+- **周日**: 进行故障模拟测试，收集故障数据样本
+
+### 4. 理论基础补充学习
+
+#### 学习重点（适度了解）
+- **分布式系统基础概念**
+  - 分布式系统的基本特征和挑战
+  - 数据一致性和容错机制简介
+  
+- **大数据处理模式**
+  - 批处理和流处理的基本概念
+  - 大数据处理的常见架构模式
+
+- **大模型技术应用**
+  - RAG技术在运维中的应用场景
+  - 提示词工程的基本方法
+
+#### 具体任务安排
+- **每日晚间**: 轻量化理论学习，重点关注与实践相关的概念
+
+## 学习资源和参考材料
+
+### 核心书籍
+1. 《Hadoop权威指南》- 大数据平台技术详解和实践指导
+2. 《Hadoop实战》- 实际项目开发和部署经验
+3. 《HDFS源码分析与开发实战》- 深入理解HDFS内部机制
+4. 《大数据技术原理与应用》- 大数据生态系统概览
+
+### 技术文档和官方资料
+1. Apache Hadoop官方文档和配置指南
+2. HDFS架构设计文档和最佳实践
+3. Hadoop集群部署和运维手册
+4. MapReduce编程指南和示例代码
+
+### 在线资源和实践教程
+1. Hadoop官方教程和快速入门指南
+2. HDFS命令行操作和管理实践
+3. 虚拟机环境搭建视频教程
+4. Hadoop故障排查和性能优化案例
+
+## 学习成果和交付物
+
+### 本周预期成果
+1. **HDFS实践报告**: HDFS架构理解和配置实践总结
+2. **Hadoop集群搭建文档**: 详细的集群部署步骤和配置说明
+3. **环境配置手册**: 虚拟机环境准备和优化配置指南
+4. **故障模拟测试报告**: 故障场景设计和测试结果分析
+5. **MapReduce程序示例**: 完成的WordCount等基础程序代码
+
+### 能力提升目标
+- 熟练掌握HDFS的架构原理和操作管理
+- 具备Hadoop集群的部署和运维能力
+- 能够进行基本的MapReduce程序开发
+- 掌握虚拟机环境配置和故障模拟技能
+- 为后续的故障检测系统开发做好环境准备
+
+## 学习计划执行策略
+
+### 时间安排
+- **工作日**: 每日4-5小时专注学习和实践时间
+- **周末**: 每日6-8小时集中进行环境搭建和配置实践
+- **总计**: 本周预计投入35-40小时学习和实践时间
+
+### 学习方法
+1. **理论与实践结合**: 边学习理论边进行实际操作验证
+2. **环境搭建优先**: 优先完成虚拟机和Hadoop环境配置
+3. **循序渐进**: 从单机模式开始，逐步搭建分布式集群
+4. **问题驱动**: 通过解决实际配置问题加深理解
+5. **文档记录**: 详细记录配置步骤和遇到的问题解决方案
+
+### 进度跟踪
+- 每日记录环境配置进度和遇到的技术问题
+- 每完成一个配置阶段进行功能测试验证
+- 每两天与小组成员分享配置经验和问题解决方案
+- 周末进行阶段性总结和下周环境优化计划
+
+## 风险预案
+
+### 潜在挑战
+1. **环境配置复杂**: Hadoop集群配置涉及多个组件，可能遇到兼容性问题
+2. **虚拟机资源限制**: 硬件资源可能不足以支持完整的分布式集群
+3. **网络配置难题**: 虚拟机网络配置和SSH连接可能出现问题
+4. **版本兼容性**: 不同版本的Hadoop、Java可能存在兼容性问题
+
+### 应对策略
+1. **分步骤配置**: 先完成单机模式，再逐步扩展到伪分布式和完全分布式
+2. **资源优化**: 合理分配虚拟机资源，采用轻量化配置方案
+3. **文档参考**: 严格按照官方文档和成熟教程进行配置
+4. **版本统一**: 选择稳定的版本组合，避免使用最新的不稳定版本
+5. **问题记录**: 详细记录遇到的问题和解决方案，建立个人知识库
+6. **团队协作**: 与小组成员共享配置经验，互相帮助解决技术难题
+
+---
+
+**备注**: 本计划将根据实际环境配置进度和遇到的技术问题进行动态调整，优先确保Hadoop环境的成功搭建和基本功能验证，为后续的故障检测项目奠定坚实的技术基础。
--- a/doc/process/weekly/week-4/members/shenyongjia-weekly-summary-4.md
+++ b/doc/process/weekly/week-4/members/shenyongjia-weekly-summary-4.md
@ -1 +1,119 @@
-沈永佳个人周总结
+# 沈永佳第四周个人工作总结
+
+## 一、任务完成情况
+
+### 1.1 硬指标任务完成情况
+- ✅ **Linux虚拟机部署**：成功部署5台非桌面版Linux虚拟机（1G内存、20G磁盘）
+- 🔄 **HDFS部署**：正在调试中，遇到DataNode连接NameNode问题
+- 🔄 **Hadoop部署**：基础环境已搭建，但集群功能仍在调试阶段
+- ⚠️ **截图记录**：已记录部分部署过程，调试完成后将补充完整
+- ❌ **周总结文档**：因任务未完全完成，总结文档延后提交
+
+**个人完成度评估：约40%**
+
+### 1.2 技术实施现状
+**环境搭建成果：**
+- 成功搭建5台Linux虚拟机环境，满足基础设施要求
+- Hadoop分布式系统基础框架已部署，但功能验证未完全通过
+- NameNode和DataNode配置存在连接问题，正在排查中
+- HDFS文件系统基本功能仍在测试和调试阶段
+
+**技术能力现状：**
+- 初步掌握了Linux虚拟机的安装和基础配置
+- 开始了解Hadoop生态系统的基本架构和组件
+- 正在学习HDFS分布式文件系统的工作原理
+- 集群部署和配置能力仍在培养中，遇到较多技术挑战
+
+## 二、遇到的问题与解决方案
+
+### 2.1 主要技术问题
+1. **DataNode连接NameNode失败**
+   - 问题描述：DataNode无法正常连接到NameNode，集群启动异常
+   - 当前状态：🔄 正在调试中
+   - 尝试方案：配置/etc/hosts文件，添加节点IP与主机名映射；关闭防火墙和SELinux
+   - 进展情况：部分配置已调整，但问题仍未完全解决
+
+2. **内存不足导致服务不稳定**
+   - 问题描述：1G内存环境下Hadoop进程经常崩溃或启动失败
+   - 当前状态：⚠️ 部分缓解
+   - 解决方案：已调整hadoop-env.sh和yarn-env.sh中的堆内存设置为512M
+   - 效果评估：稳定性有所改善，但仍需进一步优化
+
+3. **配置文件参数错误**
+   - 问题描述：core-site.xml、hdfs-site.xml等配置文件参数拼写错误
+   - 当前状态：🔄 持续排查中
+   - 解决进展：正在逐一检查配置文件语法，参考官方文档进行修正
+   - 后续计划：将整理标准配置模板，避免类似错误
+
+### 2.2 学习过程中的挑战
+- Hadoop生态系统比预期复杂，组件间协作关系理解不够深入
+- Linux系统操作熟练度不足，影响问题排查效率
+- 分布式系统概念理解有限，调试问题时缺乏系统性思路
+- 1G内存限制增加了部署难度，需要更精细的资源管理
+
+### 2.3 当前困难与瓶颈
+- 技术复杂度超出初期预估，需要更多学习和实践时间
+- 缺乏分布式系统部署经验，问题定位能力有待提升
+- 资源受限环境下的优化配置仍在摸索中
+
+## 三、知识收获与技能提升
+
+### 3.1 技术知识收获
+- **分布式系统理解**：初步理解了分布式文件系统的基本原理
+- **Hadoop架构认知**：掌握了Hadoop核心组件（HDFS、YARN、MapReduce）的基本功能
+- **Linux系统操作**：提升了Linux环境下的系统配置和服务管理能力
+- **网络配置技能**：学会了集群环境下的网络配置和故障排查
+
+### 3.2 项目管理能力
+- 学会了按照项目要求进行任务分解和时间规划
+- 提升了技术文档编写和问题记录的能力
+- 增强了团队协作中的沟通和问题共享意识
+
+## 四、对团队贡献
+
+### 4.1 问题共享与协助
+- 主动在团队群中分享遇到的技术问题和解决方案
+- 协助其他成员解决类似的配置和部署问题
+- 参与团队讨论，贡献个人的技术见解和经验
+
+### 4.2 文档整理工作
+- 按照会议安排，承担了配置文件模板整理的任务
+- 计划在第五周整理core-site.xml、hdfs-site.xml等核心配置模板
+- 将为团队提供标准化配置文件，减少配置错误
+
+## 五、下周工作规划
+
+### 5.1 技术深入学习
+- 深入学习DataNode副本策略机制（承担的原理文档任务）
+- 完成HDFS稳定性测试和基本操作练习
+- 实践MapReduce应用，运行WordCount示例
+
+### 5.2 团队协作任务
+- 周四前完成核心配置文件模板整理和发布
+- 参与团队的集群稳定性测试工作
+- 协助团队成员解决部署和配置问题
+
+### 5.3 个人能力提升
+- 加强Linux系统操作的熟练度
+- 深入理解Hadoop分布式架构原理
+- 提升问题分析和解决的系统性思维
+
+## 六、总结与反思
+
+### 6.1 成果评价
+本周在Linux虚拟机搭建方面取得了预期成果，但Hadoop集群部署的复杂性超出了初期预估。虽然遇到了较多技术挑战，但通过持续的问题排查和团队协作，正在逐步解决各项技术难点。当前完成度约40%，仍需继续努力。
+
+### 6.2 面临的挑战
+- **技术复杂度高**：Hadoop分布式系统配置比预期复杂，需要更深入的学习
+- **资源限制影响**：1G内存环境限制了系统稳定性，增加了调试难度
+- **经验不足**：在分布式系统部署方面缺乏实践经验，问题定位能力有待提升
+- **时间压力**：需要在保证学习质量的前提下加快问题解决进度
+
+### 6.3 改进方向
+- 加强对分布式系统理论知识的系统学习
+- 提升Linux系统操作和问题排查的熟练度
+- 建立更系统的问题分析和解决思路
+- 加强与团队成员的技术交流和互助
+
+### 6.4 下周重点
+重点完成当前调试工作，确保Hadoop集群基本功能正常运行，然后按照团队计划进行稳定性测试和应用实践。同时承担配置文件模板整理工作，为团队提供标准化配置支持。
--- a/doc/process/weekly/week-4/members/wangzuwang-weekly-plan-4.md
+++ b/doc/process/weekly/week-4/members/wangzuwang-weekly-plan-4.md
@ -0,0 +1,125 @@
+# 王祖旺个人周计划
+基于大数据技术发展方向，本周将重点进行分布式存储与计算框架的深入学习，为构建大数据处理能力奠定基础。
+
+## 核心学习任务
+
+### 1. HDFS分布式文件系统深入学习
+**学习重点**
+#### HDFS架构原理
+- NameNode元数据管理机制
+- DataNode数据块存储实现
+- 读写流程和一致性保证
+- 副本放置策略和机架感知
+
+#### 高级特性
+- HDFS Federation架构
+- 快照(Snapshot)功能
+- 透明加密(Transparent Encryption)
+- Erasure Coding编码方案
+
+#### 运维管理
+- Balancer负载均衡工具
+- Disk Balancer磁盘均衡
+- 权限控制(ACL)配置
+- Audit Log审计日志分析
+
+**具体任务安排**
+- 周一: 研究NameNode HA实现和ZKFC机制
+- 周二: 实践Erasure Coding配置和性能测试
+- 周三: 分析HDFS源码中的RPC通信模型
+
+### 2. Hadoop生态系统实践学习
+**学习重点**
+#### YARN深入
+- 资源调度算法(Fair/Capacity)
+- NodeManager资源隔离
+- ApplicationMaster工作机制
+- Timeline Server使用
+
+#### 生态组件
+- HBase与HDFS集成
+- Hive数据仓库实践
+- ZooKeeper协调服务
+- Flume数据采集
+
+**具体任务安排**
+- 周四: 搭建YARN HA集群并测试故障转移
+- 周五: 实践Hive on Spark配置优化
+- 周六上午: 完成HBase集群部署测试
+
+### 3. Spark核心引擎学习
+**学习重点**
+#### 内核原理
+- RDD弹性数据集特性
+- DAG调度和执行计划
+- 内存管理机制
+- Shuffle优化策略
+
+#### 开发实践
+- DataFrame API编程
+- Spark SQL优化技巧
+- 结构化流处理
+- 性能调优参数
+
+**具体任务安排**
+- 周六下午: 编写Spark Core性能测试用例
+- 周日: 完成Structured Streaming实时处理demo
+- 周日晚上: 研究Spark Shuffle源码实现
+
+## 学习资源和参考材料
+**核心书籍**
+- 《Hadoop技术内幕》系列
+- 《Spark权威指南》
+- 《大数据处理之道》
+
+**技术文档**
+- Apache官方技术白皮书
+- HDFS Architecture Guide
+- Spark Performance Tuning Guide
+
+**实验环境**
+- 3节点虚拟机集群(8C16G)
+- CDH 6.3.2发行版
+- Spark 3.1.3版本
+
+## 学习成果和交付物
+**本周预期成果**
+1. HDFS技术分析报告(含性能测试数据)
+2. Hadoop生态组件部署文档
+3. Spark核心示例代码集
+4. 技术原理脑图总结
+
+**能力目标**
+- 掌握HDFS高级特性和调优方法
+- 具备Hadoop生态集成部署能力
+- 熟练使用Spark核心API开发
+- 理解分布式计算调度原理
+
+## 执行策略
+**时间管理**
+- 工作日: 19:00-23:00(4h)
+- 周末: 9:00-12:00, 14:00-18:00(7h)
+- 每日晨间30分钟复习
+
+**学习方法**
+- 源码分析配合实操验证
+- 性能基准测试驱动学习
+- 技术方案对比研究
+- 技术博客输出总结
+
+**进度控制**
+- 每日记录GitHub仓库
+- 模块学习完成后做演示
+- 关键问题记录issue跟踪
+
+## 风险预案
+**潜在挑战**
+- 集群资源不足影响实验
+- 版本兼容性问题
+- 复杂概念理解困难
+
+**应对措施**
+- 优先保证核心组件运行
+- 使用Docker简化环境
+- 结合多种资料对比学习
+- 技术社区寻求帮助
--- a/doc/process/weekly/week-4/members/wangzuwang-weekly-summary-4.md
+++ b/doc/process/weekly/week-4/members/wangzuwang-weekly-summary-4.md
@ -0,0 +1,57 @@
+# 王祖旺第四周周总结
+
+## 一、核心任务完成情况
+
+### 1. HDFS分布式文件系统学习
+**完成内容**
+- [x] NameNode HA机制分析：实现了基于ZKFC的自动故障转移，测试了脑裂防护场景
+- [x] Erasure Coding实践：配置了RS-6-3编码策略
+- [x] 源码研究：梳理了ClientProtocol的RPC调用链路，绘制了关键类图
+
+**未完成项**
+- 快照功能性能测试（因集群资源限制推迟）
+- Disk Balancer实操（文档理解不充分）
+
+### 2. Hadoop生态系统实践
+**关键进展**
+- ✅ YARN HA测试：模拟RM故障，切换时间控制在15秒内
+- ✅ Hive on Spark：完成TPC-DS基准测试，较MR版本提速3.2倍
+- ✅ HBase集成：实现SSD分级存储配置，Put操作TPS提升25%
+
+**存在问题**
+- Timeline Server数据采集延迟较高（平均800ms）
+- ZooKeeper客户端连接泄漏（已提交ISSUE#23）
+
+### 3. Spark核心技术
+**成果输出**
+- 🔥 完成5个Spark Core性能用例（含Shuffle优化对比）
+- 📊 Structured Streaming demo：实现Kafka->Spark->HDFS实时管道
+- 🧠 Shuffle源码分析：绘制了SortShuffleManager执行流程图
+
+**待改进**
+- DataFrame API使用不够熟练（需加强类型转换练习）
+- 内存调优参数理解不透彻（OOM问题出现2次）
+
+
+## 二、能力提升评估
+
+**达成目标**
+- 掌握HDFS EC配置和性能分析方法
+- 独立完成Hadoop生态组件联调部署
+- 能使用Spark SQL进行复杂查询优化
+
+**待加强**
+- YARN调度策略的深度调优
+- Spark内存管理机制理解
+- 生产环境问题诊断能力
+
+## 三、时间投入分析
+
+```mermaid
+pie
+    title 学习时间分布
+    "HDFS研究" : 14.5
+    "Hadoop生态" : 12
+    "Spark开发" : 10
+    "环境调试" : 5
+    "文档整理" : 3.5
--- a/doc/process/weekly/week-4/members/xingyuanxin-weekly-plan-4.md
+++ b/doc/process/weekly/week-4/members/xingyuanxin-weekly-plan-4.md
@ -0,0 +1,257 @@
+# 邢远鑫第4周个人学习计划
+
+## 个人基本信息
+- **姓名**: 邢远鑫
+- **周次**: 第4周
+- **学习时间**: 每日19:00-22:00（3小时/天）
+- **项目**: 大模型数据平台故障检测项目
+
+## 本周核心目标
+
+### 优先级排序
+1. **【高优先级】** 掌握Hadoop生态系统基础知识和架构原理
+2. **【高优先级】** 完成虚拟机环境搭建和基础配置
+3. **【中优先级】** 学习分布式系统故障检测理论基础
+4. **【中优先级】** 了解大模型RAG技术在运维中的应用
+5. **【低优先级】** 初步接触提示词工程和大模型调用方法
+
+## 每日计划分解
+
+### 周一（Day 1）- Hadoop基础理论学习
+**时间**: 19:00-22:00
+
+#### 主要任务
+- **任务1**: HDFS架构原理学习
+  - **预期产出**: HDFS核心概念笔记（NameNode、DataNode、Block机制）
+  - **时间分配**: 1.5小时
+  - **依赖资源**: 《Hadoop权威指南》第3-4章、Apache官方文档
+  
+- **任务2**: MapReduce计算模型理解
+  - **预期产出**: MapReduce工作流程图解和代码示例分析
+  - **时间分配**: 1小时
+  - **依赖资源**: Hadoop官方教程、WordCount示例代码
+  
+- **任务3**: 环境准备规划
+  - **预期产出**: 虚拟机配置方案和软件清单
+  - **时间分配**: 0.5小时
+  - **依赖资源**: VMware/VirtualBox、Linux镜像文件
+
+### 周二（Day 2）- 虚拟机环境搭建
+**时间**: 19:00-22:00
+
+#### 主要任务
+- **任务1**: Linux虚拟机安装配置
+  - **预期产出**: 3台CentOS虚拟机（1GB内存/台）
+  - **时间分配**: 2小时
+  - **依赖资源**: CentOS 7镜像、虚拟化软件
+  
+- **任务2**: 网络配置和SSH设置
+  - **预期产出**: 虚拟机间免密SSH连接
+  - **时间分配**: 0.5小时
+  - **依赖资源**: 网络配置文档
+  
+- **任务3**: Java环境安装
+  - **预期产出**: 所有虚拟机完成JDK 1.8安装和环境变量配置
+  - **时间分配**: 0.5小时
+  - **依赖资源**: OpenJDK 1.8安装包
+
+### 周三（Day 3）- Hadoop集群部署
+**时间**: 19:00-22:00
+
+#### 主要任务
+- **任务1**: Hadoop软件下载和解压
+  - **预期产出**: 所有节点完成Hadoop 3.x安装
+  - **时间分配**: 0.5小时
+  - **依赖资源**: Hadoop官方下载包
+  
+- **任务2**: 集群配置文件设置
+  - **预期产出**: core-site.xml、hdfs-site.xml等配置文件
+  - **时间分配**: 1.5小时
+  - **依赖资源**: Hadoop配置文档、集群规划方案
+  
+- **任务3**: 集群启动和验证测试
+  - **预期产出**: 成功启动HDFS集群并通过基础功能测试
+  - **时间分配**: 1小时
+  - **依赖资源**: Hadoop命令行工具、测试数据
+
+### 周四（Day 4）- 分布式系统理论学习
+**时间**: 19:00-22:00
+
+#### 主要任务
+- **任务1**: 分布式一致性算法学习
+  - **预期产出**: Raft和Paxos算法原理总结
+  - **时间分配**: 1.5小时
+  - **依赖资源**: 《设计数据密集型应用》相关章节、论文资料
+  
+- **任务2**: CAP定理和BASE理论理解
+  - **预期产出**: 分布式系统权衡策略分析笔记
+  - **时间分配**: 1小时
+  - **依赖资源**: 分布式系统教材、在线资源
+  
+- **任务3**: 故障检测方法调研
+  - **预期产出**: 传统故障检测方法vs大模型方法对比分析
+  - **时间分配**: 0.5小时
+  - **依赖资源**: 学术论文、技术博客
+
+### 周五（Day 5）- 大模型技术初探
+**时间**: 19:00-22:00
+
+#### 主要任务
+- **任务1**: RAG技术原理学习
+  - **预期产出**: RAG架构图和应用场景总结
+  - **时间分配**: 1.5小时
+  - **依赖资源**: RAG技术论文、开源项目文档
+  
+- **任务2**: 提示词工程基础
+  - **预期产出**: 故障检测场景的提示词模板设计
+  - **时间分配**: 1小时
+  - **依赖资源**: 提示词工程教程、GPT最佳实践
+  
+- **任务3**: 周总结和下周规划
+  - **预期产出**: 本周学习成果总结和问题清单
+  - **时间分配**: 0.5小时
+  - **依赖资源**: 本周学习笔记和实践记录
+
+## 学习/提升计划
+
+### 专业技能学习内容
+
+#### 核心技术栈
+1. **大数据平台技术**
+   - Hadoop生态系统（HDFS、MapReduce、YARN）
+   - Apache Spark基础概念
+   - Hive数据仓库简介
+
+2. **分布式系统理论**
+   - 分布式一致性和容错机制
+   - 数据分片和副本策略
+   - 分布式存储系统设计原理
+
+3. **大模型应用技术**
+   - RAG（检索增强生成）技术
+   - 提示词工程和优化方法
+   - 大模型在运维场景的应用案例
+
+### 学习时间安排
+- **工作日**: 每日19:00-22:00（3小时）
+- **周末**: 根据需要进行补充学习和实践
+- **总计**: 本周预计15小时理论学习 + 实践操作时间
+
+### 学习资源配置
+- **书籍**: 《Hadoop权威指南》、《设计数据密集型应用》
+- **文档**: Apache官方文档、技术博客
+- **视频**: 相关技术教程和实践案例
+- **实践**: 虚拟机环境、开源项目代码
+
+## 风险管理
+
+### 潜在问题预判及应对方案
+
+#### 技术风险
+1. **虚拟机资源不足**
+   - **风险描述**: 硬件配置可能无法支持3台虚拟机同时运行
+   - **应对方案**: 
+     - 优先搭建单机伪分布式模式
+     - 合理分配内存资源（每台虚拟机512MB起步）
+     - 必要时采用Docker容器化部署
+
+2. **Hadoop配置复杂性**
+   - **风险描述**: 集群配置涉及多个组件，容易出现配置错误
+   - **应对方案**:
+     - 严格按照官方文档步骤操作
+     - 每个配置步骤都进行验证测试
+     - 准备回滚方案和配置备份
+
+3. **网络连接问题**
+   - **风险描述**: 虚拟机网络配置可能导致节点间通信失败
+   - **应对方案**:
+     - 提前测试虚拟机网络连通性
+     - 准备多种网络配置方案（NAT、桥接模式）
+     - 记录详细的网络配置步骤
+
+#### 学习进度风险
+1. **时间管理挑战**
+   - **风险描述**: 每日3小时学习时间可能不足以完成所有任务
+   - **应对方案**:
+     - 优先完成核心任务，次要任务可延后
+     - 合理调整任务难度和深度
+     - 周末时间进行补充学习
+
+2. **理论理解困难**
+   - **风险描述**: 分布式系统理论较为抽象，理解难度大
+   - **应对方案**:
+     - 结合实际案例和图解辅助理解
+     - 与团队成员讨论交流
+     - 循序渐进，先掌握基础概念
+
+## 复盘机制
+
+### 每日小结模板
+
+#### 完成情况记录
+```markdown
+## [日期] 每日学习小结
+
+### ✅ 已完成事项
+- [ ] 任务1：具体完成内容和质量评估
+- [ ] 任务2：学习成果和理解程度
+- [ ] 任务3：实践操作结果
+
+### ❌ 未完成事项
+- [ ] 任务名称：未完成原因分析
+- [ ] 遇到的具体问题和困难
+- [ ] 需要的额外资源或帮助
+
+### 📝 学习收获
+- 新掌握的知识点
+- 实践中的经验总结
+- 对项目理解的深化
+
+### 🔄 明日调整
+- 未完成任务的处理方案
+- 学习方法的优化调整
+- 时间分配的重新规划
+```
+
+### 周度总结框架
+
+#### 周总结结构
+```markdown
+## 第4周学习总结报告
+
+### 📊 目标达成情况
+- 核心目标完成度统计
+- 各项任务的完成质量评估
+- 超预期完成的内容
+
+### 🎯 核心成果
+- **技术能力提升**：具体掌握的技能
+- **环境搭建成果**：实际部署的系统
+- **理论知识积累**：学习的核心概念
+- **问题解决能力**：遇到并解决的技术难题
+
+### 🚧 遇到的挑战
+- 技术难点和解决过程
+- 时间管理的问题和改进
+- 学习方法的反思和优化
+
+### 📈 下周改进计划
+- 基于本周经验的学习策略调整
+- 需要重点关注的技术领域
+- 团队协作和资源利用优化
+
+### 📚 知识体系构建
+- 本周学习内容在整体项目中的定位
+- 与其他技术模块的关联关系
+- 为后续学习奠定的基础
+```
+
+### 复盘执行机制
+- **每日复盘**: 22:00-22:15（15分钟）
+- **周度复盘**: 周日晚进行深度总结
+- **问题跟踪**: 建立问题清单，持续跟进解决
+- **经验分享**: 与团队成员定期交流学习心得
+
+---
+
+**备注**: 本计划将根据实际学习进度和遇到的问题进行动态调整，确保在有限的学习时间内最大化学习效果，为大模型数据平台故障检测项目奠定坚实的技术基础。
--- a/doc/process/weekly/week-4/members/xingyuanxin-weekly-summary-4.md
+++ b/doc/process/weekly/week-4/members/xingyuanxin-weekly-summary-4.md
@ -0,0 +1,94 @@
+# 邢远鑫第四周工作总结报告
+
+## 个人基本信息
+- **姓名**: 邢远鑫
+- **周次**: 第4周
+- **项目**: 大模型数据平台故障检测项目
+- **报告日期**: 2025年秋季学期第4周
+
+## 本周工作完成情况
+
+### ✅ 已完成任务
+
+#### 1. 虚拟机环境搭建
+- **CentOS 7.5系统安装**: 在VMware平台上成功完成操作系统的软硬件安装
+- **网络配置**: 完成IP地址及主机名称的配置设置
+- **远程访问工具**: 完成Xshell远程访问工具的安装与配置，实现便捷的远程管理
+
+#### 2. 集群环境准备
+- **模板虚拟机制作**: 完成标准化模板虚拟机的安装和配置
+- **虚拟机克隆**: 成功克隆五台虚拟机，为Hadoop集群部署做好准备
+- **Java环境配置**: 在所有虚拟机上完成JDK的安装和环境变量配置
+
+#### 3. 大数据平台部署（进行中）
+- **Hadoop安装**: 当前正在进行Hadoop分布式文件系统的安装配置
+
+## 工作成果总结
+
+### 技术能力提升
+1. **虚拟化技术**: 掌握了VMware虚拟机的创建、配置和管理
+2. **Linux系统管理**: 熟悉了CentOS系统的安装、网络配置和基础管理
+3. **集群环境搭建**: 学会了分布式集群环境的规划和准备工作
+4. **远程管理工具**: 掌握了Xshell等远程访问工具的使用
+
+### 环境搭建成果
+- **硬件资源**: 5台CentOS 7.5虚拟机（符合项目要求的1GB内存配置）
+- **网络环境**: 完成集群网络拓扑配置，支持节点间通信
+- **基础软件**: Java运行环境就绪，为Hadoop部署奠定基础
+- **管理工具**: 远程管理环境配置完成，提高运维效率
+
+## 遇到的问题与解决方案
+
+### 技术挑战
+1. **虚拟机资源限制**: 
+   - **问题**: 硬件资源有限，需要合理分配内存和存储
+   - **解决方案**: 优化虚拟机配置，采用1GB内存的精简配置方案
+
+2. **网络配置复杂性**:
+   - **问题**: 多台虚拟机的网络互联配置较为复杂
+   - **解决方案**: 采用统一的网络规划方案，确保节点间正常通信
+
+### 学习收获
+- 深入理解了分布式系统的环境搭建流程
+- 掌握了虚拟化技术在大数据平台中的应用
+- 提升了Linux系统管理和网络配置能力
+
+## 下周工作计划
+
+### 优先任务
+1. **完成Hadoop安装**: 完成HDFS分布式文件系统的部署和配置
+2. **集群功能验证**: 进行Hadoop集群的启动测试和基础功能验证
+3. **故障模拟准备**: 为后续的故障检测实验准备测试环境
+
+### 学习目标
+1. **HDFS原理学习**: 深入理解分布式文件系统的架构和工作原理
+2. **MapReduce实践**: 完成基础的MapReduce程序编写和运行
+3. **集群运维**: 掌握Hadoop集群的日常管理和监控方法
+
+## 项目贡献度评估
+
+### 个人贡献
+- **环境搭建**: 按计划完成了个人负责的集群环境搭建任务
+- **技术准备**: 为团队后续的Hadoop实践奠定了基础环境
+- **进度控制**: 严格按照项目时间节点推进各项任务
+
+### 团队协作
+- 与团队成员保持良好沟通，及时同步环境搭建进度
+- 积极参与技术问题讨论，分享环境配置经验
+- 为团队整体的技术方案实施提供支持
+
+## 反思与改进
+
+### 工作方法优化
+1. **时间管理**: 合理安排学习和实践时间，提高工作效率
+2. **文档记录**: 加强操作步骤和配置参数的详细记录
+3. **问题跟踪**: 建立问题清单，系统性解决技术难点
+
+### 下阶段重点
+1. **深化理论学习**: 在实践基础上加强分布式系统理论理解
+2. **提升实操能力**: 通过更多实际操作掌握Hadoop生态系统
+3. **团队协作**: 加强与团队成员的技术交流和协作
+
+---
+
+**总结**: 本周成功完成了虚拟机环境搭建的核心任务，为项目后续阶段奠定了坚实的基础环境。虽然Hadoop安装仍在进行中，但整体进度符合预期。下周将重点完成Hadoop部署并开始深入的技术学习和实践。
--- a/doc/process/weekly/week-4/members/zoujiaxuan-weekly-summary-4.md
+++ b/doc/process/weekly/week-4/members/zoujiaxuan-weekly-summary-4.md
@ -0,0 +1,118 @@
+# 邹佳轩第四周个人工作总结
+
+## 基本信息
+- **姓名：** 邹佳轩
+- **总结周期：** 第四周（2025-10-12 至 2025-10-18）
+- **主要任务：** Linux 虚拟机环境搭建与 Hadoop 分布式系统部署
+- **总结时间：** 2025-10-19
+
+## 任务完成情况
+
+### 完成情况统计表
+| 任务项目 | 目标 | 实际完成 | 完成状态 | 完成度 |
+|----------|------|----------|----------|--------|
+| Linux虚拟机搭建 | 5台 | 5台 | ✅ 已完成 | 100% |
+| HDFS部署 | 完成部署 | 已完成 | ✅ 已完成 | 100% |
+| Hadoop部署 | 完成部署 | 调试中 | 🔄 进行中 | 80% |
+| 截图记录 | 完整记录 | 部分完成 | ⚠️ 部分 | 70% |
+| 个人周总结 | 按时提交 | 按时完成 | ✅ 已完成 | 100% |
+
+**个人整体完成度：60%**
+
+## 具体完成任务
+
+### 1. Linux 虚拟机环境搭建
+- **完成情况：** 成功搭建 5 台非桌面版 Linux 虚拟机
+- **配置规格：** 每台虚拟机配置 1G 内存、20G 磁盘空间
+- **技术要点：** 
+  - 掌握了虚拟机基础配置和网络设置
+  - 完成了系统基础环境的标准化配置
+  - 实现了多台虚拟机之间的网络连通性测试
+
+### 2. HDFS 分布式文件系统部署
+- **完成情况：** 成功完成 HDFS 部署，是团队中较早完成此项任务的成员
+- **技术成果：**
+  - 成功配置了 NameNode 和 DataNode
+  - 完成了 HDFS 基础功能验证
+  - 解决了多个配置相关的技术问题
+
+### 3. Hadoop 集群部署
+- **当前状态：** 正在调试中，已完成 80% 的部署工作
+- **遇到挑战：** 在集群多节点配置方面遇到一些技术难点
+- **解决进展：** 正在逐步排查和解决配置问题
+
+## 遇到的问题及解决方案
+
+### 主要技术问题
+
+#### 问题1：DataNode 连接 NameNode 失败
+- **问题描述：** 初期部署时 DataNode 无法正常连接到 NameNode
+- **根本原因：** `/etc/hosts` 文件未正确配置节点映射关系
+- **解决方案：** 
+  - 在 `/etc/hosts` 文件中添加了所有节点的 IP 与主机名映射
+  - 检查并关闭了防火墙服务
+  - 验证了 `hdfs-site.xml` 中的端口配置
+- **解决状态：** ✅ 已解决
+- **经验总结：** 分布式系统部署中网络配置和主机名解析至关重要
+
+#### 问题2：内存配置优化
+- **问题描述：** 在 1G 内存限制下，默认 Hadoop 配置导致服务不稳定
+- **解决方案：** 
+  - 调整 `hadoop-env.sh` 中的 `HADOOP_HEAPSIZE` 为 512M
+  - 优化 JVM 参数配置
+  - 按需启停服务组件
+- **解决状态：** ✅ 已解决
+- **经验总结：** 在资源受限环境下需要合理配置系统参数
+
+## 学习收获
+
+### 技术能力提升
+1. **Linux 系统管理：** 深入了解了 Linux 系统的基础操作和配置管理
+2. **分布式系统理解：** 初步理解了分布式文件系统的基本概念和架构
+3. **Hadoop 生态系统：** 开始掌握 Hadoop 核心组件的部署和配置
+4. **问题排查能力：** 提升了系统问题诊断和解决的能力
+
+### 项目管理经验
+1. **任务规划：** 学会了将复杂任务分解为可管理的小步骤
+2. **文档记录：** 养成了详细记录部署过程和问题解决方案的习惯
+3. **团队协作：** 在遇到问题时主动寻求帮助并分享解决方案
+
+## 下周工作计划
+
+### 主要任务
+1. **完成 Hadoop 部署调试：** 解决剩余的配置问题，确保集群稳定运行
+2. **HDFS 稳定性测试：** 对已部署的 HDFS 进行全面的功能和稳定性测试
+3. **HDFS 命令操作实践：** 学习和练习 HDFS 的基本命令操作
+4. **MapReduce 原理学习：** 深入学习 MapReduce 的工作流程和原理机制
+
+### 具体安排
+- **周一-周二：** 完成 Hadoop 集群部署的最后调试工作
+- **周三-周四：** 进行 HDFS 稳定性测试和基本操作练习
+- **周五-周日：** 专注于 MapReduce 原理的学习和文档整理
+
+### 学习目标
+- 掌握 MapReduce 的完整工作流程
+- 理解 Map 和 Reduce 阶段的具体实现机制
+- 能够解释 MapReduce 的数据处理过程
+
+## 自我评价
+
+### 优势表现
+1. **学习能力强：** 能够快速掌握新技术和解决遇到的问题
+2. **执行力好：** 在团队中较早完成了 HDFS 部署任务
+3. **问题解决能力：** 遇到技术问题时能够系统性地分析和解决
+4. **团队合作：** 积极参与团队讨论，主动分享经验和解决方案
+
+### 需要改进的方面
+1. **文档记录：** 截图记录工作需要更加完整和系统
+2. **时间管理：** 需要更好地平衡各项任务的时间分配
+3. **深度学习：** 在掌握操作的基础上，需要更深入理解技术原理
+
+### 整体评价
+第四周的工作中，我在 Linux 虚拟机搭建和 HDFS 部署方面取得了较好的成果，个人完成度达到 60%，在团队中处于中上水平。虽然 Hadoop 集群部署还在调试中，但通过这周的实践，我对分布式系统有了更深入的理解，问题解决能力也得到了显著提升。
+
+下周将重点完成剩余的部署工作，并开始深入学习 MapReduce 原理，为后续的技术分享和文档撰写做好准备。
+
+---
+**总结完成时间：** 2025-10-19  
+**下周重点任务：** MapReduce 流程原理学习与文档整理
--- a/doc/process/weekly/week-5/group/meeting-minutes-5.md
+++ b/doc/process/weekly/week-5/group/meeting-minutes-5.md
@ -0,0 +1,51 @@
+# Hadoop 部署任务复盘与后续学习规划会议纪要（精简润色）
+
+## 一、会议基本信息
+- 会议时间：2025-10-19 09:00–10:00
+- 参会人员：沈永佳、李涛、邹佳轩、邢远鑫、王祖旺
+- 会议主题：复盘上周 Linux 虚拟机与 Hadoop 部署硬指标、讨论共性问题、规划后续学习路径
+- 记录人：邹佳轩
+
+## 二、上周硬指标任务完成情况
+- 全员完成：每人 5 台非桌面版 Linux 虚拟机（1G 内存、20G 磁盘），完成 HDFS 与 Hadoop 部署、截图记录与周总结；整体质量达标、无未收尾事项。
+- 问题与处理：
+  - 邢远鑫：1G 内存导致 `NameNode` 崩溃；通过调整 Hadoop JVM 堆内存至 `512M` 已解决。
+  - 王祖旺：配置文件参数拼写错误；已整理配置易错清单并同步至周总结。
+
+## 三、上周共性问题与统一方案（三类高频）
+### 问题 1：DataNode 无法连接 NameNode
+- 核心原因：`/etc/hosts` 未配置节点映射；或防火墙、`SELinux` 未关闭；`hdfs-site.xml` 端口配置有误。
+- 统一方案：
+  - 在所有虚拟机的 `/etc/hosts` 添加 NameNode、DataNode 的 IP 与主机名映射（示例：`192.168.1.100 namenode`）。
+  - 关闭防火墙与 `SELinux`，确保网络端口可达。
+  - 校验 `hdfs-site.xml` 中的端口参数与服务一致。
+
+### 问题 2：1G 内存导致 Hadoop 进程不稳定
+- 调整 `hadoop-env.sh` 的 `HADOOP_HEAPSIZE` 与 `yarn-env.sh` 的 `YARN_HEAPSIZE`，从默认 `1024M` 改为 `512M`。
+- 如需同时启动多服务，按需临时停用不使用的组件（例：进行 HDFS 测试时暂停 `YARN`）。
+
+### 问题 3：配置文件参数错误（拼写、路径）
+- 由沈永佳整理核心配置模板（`core-site.xml`、`hdfs-site.xml` 等），标注必填参数与注释；本周四在群内发布。
+- 后续部署直接按模板填写 IP 等关键项，降低拼写失误。
+
+## 四、后续安排：从部署到深入理解（三阶段）
+### 第一阶段：部署巩固（本周 1–2）
+- 对已部署集群进行 HDFS 稳定性测试：上传 1G 文件、验证副本数量，确保集群可用。
+
+### 第二阶段：简单应用实践（本周 3–5）
+- 完成 HDFS 命令操作：创建目录、上传/下载文件。
+- 运行 `WordCount` 示例，验证 MapReduce 流程。
+
+### 第三阶段：原理深入（下周 1–7）
+- 每人负责 1 个核心组件原理文档，需包含核心逻辑与关键参数说明：
+  - 李涛：NameNode 机制
+  - 沈永佳：DataNode 副本策略
+  - 邹佳轩：MapReduce 流程
+  - 邢远鑫：YARN 调度
+  - 王祖旺：HDFS 安全模式
+- 提交时间：下周日 18:00 前，同步至共享目录。
+
+## 五、会议决议与行动项
+- 全员：每日 18:00 前在群内同步当日任务进度。
+- 沈永佳：本周四前发布核心配置文件模板。
+- 其他：按三阶段执行，遇到问题及时在群内同步。
--- a/doc/process/weekly/week-5/group/weekly-plan-5.md
+++ b/doc/process/weekly/week-5/group/weekly-plan-5.md
@ -0,0 +1,135 @@
+# 第五周工作计划（Week 5 Plan）
+
+## 一、计划概述
+- 计划周期：第五周（2025-10-19 至 2025-10-25）
+- 主要目标：基于上周 Hadoop 部署经验，进行集群稳定性测试和基础应用实践
+- 参与人员：沈永佳、李涛、邹佳轩、邢远鑫、王祖旺
+
+## 二、本周主要任务
+
+### 2.1 第一阶段：部署巩固（周一至周二）
+**目标：** 确保已部署的 Hadoop 集群稳定可用
+
+**具体任务：**
+- 对已部署集群进行 HDFS 稳定性测试
+  - 上传 1G 测试文件到 HDFS
+  - 验证文件副本数量设置是否正确
+  - 检查集群各节点运行状态
+  - 确保集群在负载下的稳定性
+
+**负责人：** 全员
+**完成时间：** 周二 18:00 前
+
+### 2.2 第二阶段：简单应用实践（周三至周五）
+**目标：** 掌握 HDFS 基本操作和 MapReduce 应用
+
+**具体任务：**
+- HDFS 命令操作练习
+  - 创建目录结构
+  - 上传/下载文件操作
+  - 文件权限管理
+  - 目录浏览和文件查看
+- MapReduce 应用实践
+  - 运行 WordCount 示例程序
+  - 验证 MapReduce 完整流程
+  - 分析作业执行日志
+
+**负责人：** 全员
+**完成时间：** 周五 18:00 前
+
+## 三、配置优化任务
+
+### 3.1 配置模板发布
+**任务：** 发布标准化配置文件模板
+**负责人：** 沈永佳
+**完成时间：** 周四 18:00 前
+**内容：**
+- 整理 `core-site.xml`、`hdfs-site.xml` 等核心配置模板
+- 标注必填参数和详细注释
+- 提供配置易错清单
+- 在群内发布供团队使用
+
+### 3.2 内存优化配置
+**任务：** 针对 1G 内存环境优化 Hadoop 配置
+**负责人：** 全员应用
+**配置要点：**
+- 调整 `hadoop-env.sh` 中的 `HADOOP_HEAPSIZE` 为 512M
+- 调整 `yarn-env.sh` 中的 `YARN_HEAPSIZE` 为 512M
+- 按需停用不使用的组件以节省内存
+
+## 四、问题解决方案
+
+### 4.1 DataNode 连接问题
+**解决方案：**
+- 配置 `/etc/hosts` 文件，添加节点 IP 与主机名映射
+- 关闭防火墙和 SELinux
+- 校验 `hdfs-site.xml` 端口配置
+
+### 4.2 内存不足问题
+**解决方案：**
+- 降低 JVM 堆内存设置
+- 分时启动不同服务组件
+- 监控内存使用情况
+
+### 4.3 配置文件错误
+**解决方案：**
+- 使用标准化配置模板
+- 仔细检查参数拼写和路径
+- 团队内部配置文件互审
+
+## 五、进度跟踪机制
+
+### 5.1 日常汇报
+- **频率：** 每日 18:00 前
+- **方式：** 群内同步当日任务进度
+- **内容：** 完成情况、遇到问题、需要协助事项
+
+### 5.2 阶段检查点
+- **周二检查点：** 集群稳定性测试完成情况
+- **周五检查点：** HDFS 操作和 MapReduce 实践完成情况
+
+## 六、预期成果
+
+### 6.1 技术成果
+- 稳定运行的 Hadoop 集群
+- 熟练掌握 HDFS 基本操作
+- 成功运行 MapReduce 应用
+- 标准化配置文件模板
+
+### 6.2 文档成果
+- 集群稳定性测试报告
+- HDFS 操作实践总结
+- MapReduce 应用运行记录
+- 问题解决方案文档
+
+## 七、风险预警
+
+### 7.1 技术风险
+- 集群不稳定导致测试失败
+- 内存限制影响应用运行
+- 网络配置问题导致节点通信异常
+
+### 7.2 应对措施
+- 提前准备备用配置方案
+- 建立问题快速响应机制
+- 加强团队内部技术交流
+
+## 八、下周准备
+
+### 8.1 原理学习准备
+为下周的深入学习阶段做准备：
+- 收集各组件相关技术资料
+- 分配原理文档撰写任务
+- 制定学习计划时间表
+
+### 8.2 任务分工预告
+- 李涛：NameNode 机制原理
+- 沈永佳：DataNode 副本策略
+- 邹佳轩：MapReduce 流程原理
+- 邢远鑫：YARN 调度机制
+- 王祖旺：HDFS 安全模式
+
+---
+**计划制定时间：** 2025-10-19
+**计划执行周期：** 2025-10-19 至 2025-10-25
+**下次计划更新：** 2025-10-26
--- a/doc/process/weekly/week-5/members/litao-weekly-plan-5.md
+++ b/doc/process/weekly/week-5/members/litao-weekly-plan-5.md
@ -0,0 +1,51 @@
+# 李涛第五周个人学习计划
+
+## 学习目标
+- 深入理解Spark核心概念和架构
+- 掌握Spark SQL的使用方法
+- 学习Spark流处理功能
+- 实践Spark数据处理项目
+
+## 详细计划
+
+### 周一
+- 复习Spark RDD基础概念
+- 学习Spark DataFrame API
+- 完成Spark SQL基础查询练习
+
+### 周二
+- 深入学习Spark SQL高级功能
+- 掌握窗口函数和自定义UDF
+- 实践复杂数据分析案例
+
+### 周三
+- 学习Spark Streaming基础
+- 理解DStream概念和操作
+- 完成简单的实时数据处理示例
+
+### 周四
+- 深入学习Structured Streaming
+- 掌握流处理中的窗口操作
+- 实践流数据与静态数据的结合分析
+
+### 周五
+- 学习Spark MLlib基础
+- 了解常用机器学习算法在Spark中的实现
+- 完成一个简单的机器学习模型训练
+
+### 周末
+- 综合项目实践：使用Spark完成一个数据处理流水线
+- 总结本周学习内容，记录遇到的问题和解决方案
+- 规划下周学习重点
+
+## 学习资源
+- 《Spark权威指南》
+- Spark官方文档
+- Databricks社区教程
+- GitHub上的Spark示例项目
+
+## 预期成果
+- 能够熟练使用Spark SQL进行数据分析
+- 掌握Spark流处理的基本应用
+- 完成一个包含批处理和流处理的综合项目
+- 形成本周学习总结文档
--- a/doc/process/weekly/week-5/members/shenyongjia-weekly-plan-5.md
+++ b/doc/process/weekly/week-5/members/shenyongjia-weekly-plan-5.md
@ -0,0 +1,178 @@
+# 沈永佳第五周个人学习计划
+
+## 一、计划概述
+- 计划周期：第五周（2025-10-19 至 2025-10-25）
+- 主要目标：完成第四周遗留的Hadoop部署调试，参与团队集群稳定性测试和应用实践
+- 个人重点：配置文件模板整理、DataNode副本策略学习、团队技术支持
+
+## 二、第四周遗留任务完成
+
+### 2.1 紧急调试任务（周一上午）
+**目标：** 解决当前Hadoop集群部署问题
+- 完成DataNode连接NameNode问题的最终调试
+- 验证HDFS基本功能正常运行
+- 补充完整的部署截图记录
+- 提交完整的第四周个人总结
+
+**预期成果：** Hadoop集群基本功能正常，个人任务完成度达到80%以上
+
+## 三、团队协作任务
+
+### 3.1 配置文件模板整理（周一至周四）
+**任务描述：** 根据会议安排，负责整理标准化配置文件模板
+**具体工作：**
+- 整理 `core-site.xml` 配置模板，标注必填参数和详细注释
+- 整理 `hdfs-site.xml` 配置模板，包含端口配置说明
+- 整理 `hadoop-env.sh` 和 `yarn-env.sh` 内存优化配置
+- 编制配置易错清单，总结常见错误和解决方案
+- 制作配置文件检查清单
+
+**交付时间：** 周四 18:00 前在群内发布
+**交付形式：** 标准配置模板文件 + 配置说明文档
+
+### 3.2 团队技术支持（持续）
+- 协助其他成员解决类似的配置和部署问题
+- 分享个人调试过程中的经验和解决方案
+- 参与团队技术讨论，提供配置相关的技术建议
+
+## 四、阶段性学习任务
+
+### 4.1 第一阶段：部署巩固（周一至周二）
+**目标：** 确保个人Hadoop集群稳定可用，参与团队稳定性测试
+
+**具体任务：**
+- 对已调试的集群进行HDFS稳定性测试
+  - 上传1G测试文件到HDFS
+  - 验证文件副本数量设置
+  - 检查各节点运行状态
+  - 测试集群在负载下的稳定性
+- 记录测试过程和结果
+- 协助团队其他成员完成类似测试
+
+### 4.2 第二阶段：应用实践（周三至周五）
+**目标：** 掌握HDFS基本操作和MapReduce应用
+
+**具体任务：**
+- HDFS命令操作练习
+  - 创建目录结构：`/user/shenyongjia/input`、`/user/shenyongjia/output`
+  - 上传/下载文件操作，测试不同大小文件
+  - 文件权限管理和目录浏览
+  - 文件查看和基本管理操作
+- MapReduce应用实践
+  - 运行WordCount示例程序
+  - 分析MapReduce作业执行流程
+  - 查看作业执行日志，理解执行过程
+  - 尝试调整作业参数，观察性能变化
+
+## 五、深度学习任务
+
+### 5.1 DataNode副本策略研究（下周准备）
+**任务背景：** 根据会议安排，负责下周的DataNode副本策略原理文档
+**本周准备工作：**
+- 研读Hadoop官方文档中关于副本策略的部分
+- 学习HDFS副本放置策略的基本原理
+- 了解副本数量配置和管理机制
+- 收集相关技术资料和案例
+
+**学习重点：**
+- 副本放置策略的算法原理
+- 副本数量的配置和影响因素
+- 副本一致性保证机制
+- 副本故障恢复流程
+
+## 六、每日具体安排
+
+### 周一（2025-10-19）
+- **上午**：完成第四周遗留的调试任务
+- **下午**：开始配置文件模板整理工作
+- **晚上**：参与团队进度同步，汇报调试结果
+
+### 周二（2025-10-20）
+- **上午**：完成HDFS稳定性测试
+- **下午**：继续配置模板整理，重点完成core-site.xml
+- **晚上**：协助团队成员解决配置问题
+
+### 周三（2025-10-21）
+- **上午**：开始HDFS命令操作练习
+- **下午**：完成hdfs-site.xml模板整理
+- **晚上**：总结HDFS操作经验，准备分享
+
+### 周四（2025-10-22）
+- **上午**：运行WordCount示例程序
+- **下午**：完成配置易错清单，发布配置模板
+- **晚上**：分析MapReduce执行日志
+
+### 周五（2025-10-23）
+- **上午**：深入分析MapReduce流程
+- **下午**：开始DataNode副本策略预习
+- **晚上**：整理本周学习成果，准备周总结
+
+### 周末（2025-10-24至10-25）
+- 深入学习DataNode副本策略理论
+- 准备下周的原理文档撰写
+- 总结本周技术收获和问题
+
+## 七、学习资源
+
+### 7.1 技术文档
+- Hadoop官方文档（重点：HDFS部分）
+- 《Hadoop权威指南》相关章节
+- Apache Hadoop社区技术文章
+
+### 7.2 实践环境
+- 个人5台Linux虚拟机集群
+- 团队共享的测试数据集
+- 配置文件模板和工具脚本
+
+## 八、预期成果
+
+### 8.1 技术成果
+- 稳定运行的个人Hadoop集群
+- 熟练掌握HDFS基本操作命令
+- 成功运行MapReduce应用示例
+- 深入理解DataNode副本策略基础
+
+### 8.2 团队贡献
+- 标准化配置文件模板（core-site.xml、hdfs-site.xml等）
+- 配置易错清单和检查机制
+- 团队技术支持和问题解决协助
+- 配置相关的最佳实践总结
+
+### 8.3 文档成果
+- 个人集群稳定性测试报告
+- HDFS操作实践总结
+- MapReduce应用执行分析
+- DataNode副本策略学习笔记（为下周文档做准备）
+
+## 九、风险预警与应对
+
+### 9.1 技术风险
+- **风险**：第四周调试任务可能延期
+- **应对**：优先解决核心问题，必要时寻求团队协助
+
+### 9.2 时间风险
+- **风险**：配置模板整理工作量可能超预期
+- **应对**：分阶段完成，优先完成核心配置文件
+
+### 9.3 学习风险
+- **风险**：DataNode副本策略理论较复杂
+- **应对**：提前开始预习，充分利用周末时间
+
+## 十、成功标准
+
+### 10.1 必达目标
+- ✅ 完成第四周遗留调试任务
+- ✅ 按时发布配置文件模板
+- ✅ 完成HDFS稳定性测试
+- ✅ 成功运行WordCount示例
+
+### 10.2 挑战目标
+- 🎯 深入理解HDFS副本机制
+- 🎯 协助团队成员解决技术问题
+- 🎯 为下周原理文档做好充分准备
+- 🎯 建立个人技术知识库
+
+---
+**计划制定时间：** 2025-10-19
+**计划执行周期：** 2025-10-19 至 2025-10-25
+**下周重点：** DataNode副本策略原理文档撰写
--- a/doc/process/weekly/week-5/members/shenyongjia-weekly-summary-5.md
+++ b/doc/process/weekly/week-5/members/shenyongjia-weekly-summary-5.md
--- a/doc/process/weekly/week-5/members/wangzuwang-weekly-plan-5.md
+++ b/doc/process/weekly/week-5/members/wangzuwang-weekly-plan-5.md
@ -0,0 +1,111 @@
+# 王祖旺第5周个人学习计划
+
+## 个人基本信息
+- **姓名**: 王祖旺  
+- **周次**: 第5周  
+- **学习时间**: 每日19:00-22:00（3小时/天）  
+- **项目**: 大模型数据平台故障检测项目  
+
+## 本周核心目标
+### 优先级排序
+- 【高优先级】 对Hadoop生态系统更进一步掌握并熟练Hdfs命令  
+- 【高优先级】 学习Hive并了解数据仓库概念  
+- 【中优先级】 学习分布式系统故障检测理论基础  
+- 【中优先级】 了解大模型在运维以及修复方面的应用  
+- 【低优先级】 学习并掌握大模型的IAG（指令跟随）、提示词优化等相关技术  
+
+## 每日计划分解
+
+### 周一（Day 1）- Hadoop进阶与HDFS命令
+**时间**: 19:00-22:00  
+**主要任务**  
+1. **任务1**: HDFS高级命令实践  
+   - 预期产出: 常用HDFS命令手册（上传/下载/权限管理等）  
+   - 时间分配: 1.5小时  
+   - 依赖资源: Hadoop官方文档、实操环境  
+
+2. **任务2**: Hive基础概念学习  
+   - 预期产出: Hive架构图及与Hadoop的关系总结  
+   - 时间分配: 1小时  
+   - 依赖资源: 《Hive编程指南》第1-2章  
+
+3. **任务3**: 数据仓库基础  
+   - 预期产出: 数据仓库核心概念笔记（ETL、OLAP等）  
+   - 时间分配: 0.5小时  
+   - 依赖资源: 数据仓库技术博客  
+
+---
+
+### 周二（Day 2）- Hive实践与故障检测理论
+**时间**: 19:00-22:00  
+**主要任务**  
+1. **任务1**: Hive环境搭建与基础SQL  
+   - 预期产出: 完成Hive安装并运行示例查询  
+   - 时间分配: 2小时  
+   - 依赖资源: Hive安装指南、测试数据集  
+
+2. **任务2**: 分布式故障检测基础  
+   - 预期产出: 心跳检测、超时机制等方法的对比分析  
+   - 时间分配: 1小时  
+   - 依赖资源: 《分布式系统：概念与设计》  
+
+---
+
+### 周三（Day 3）- 大模型运维应用
+**时间**: 19:00-22:00  
+**主要任务**  
+1. **任务1**: 大模型运维案例研究  
+   - 预期产出: 大模型在日志分析、故障预测中的应用场景总结  
+   - 时间分配: 2小时  
+   - 依赖资源: 行业白皮书、AI运维论文  
+
+2. **任务2**: IAG技术初探  
+   - 预期产出: 指令跟随技术的简单示例代码  
+   - 时间分配: 1小时  
+   - 依赖资源: OpenAI文档、LangChain教程  
+
+---
+
+### 周四（Day 4）- 分布式系统深入
+**时间**: 19:00-22:00  
+**主要任务**  
+1. **任务1**: CAP定理与一致性算法  
+   - 预期产出: 不同场景下的权衡策略分析表  
+   - 时间分配: 2小时  
+   - 依赖资源: 分布式系统论文  
+
+2. **任务2**: 提示词优化基础  
+   - 预期产出: 针对运维场景的提示词模板  
+   - 时间分配: 1小时  
+   - 依赖资源: Prompt Engineering指南  
+
+---
+
+### 周五（Day 5）- 综合实践与总结
+**时间**: 19:00-22:00  
+**主要任务**  
+1. **任务1**: Hadoop+Hive综合练习  
+   - 预期产出: 完成从HDFS到Hive的数据处理流水线  
+   - 时间分配: 2小时  
+   - 依赖资源: 实战项目案例  
+
+2. **任务2**: 周总结与问题整理  
+   - 预期产出: 本周学习脑图+待解决问题清单  
+   - 时间分配: 1小时  
+
+---
+
+## 学习资源配置
+| 类型       | 资源列表                                                                 |
+|------------|--------------------------------------------------------------------------|
+| **书籍**   | 《Hadoop权威指南》《Hive编程指南》《设计数据密集型应用》                |
+| **工具**   | Hadoop集群、Hive环境、Jupyter Notebook                                  |
+| **在线**   | Apache文档、Coursera分布式系统课程、AI运维技术博客                      |
+
+## 风险管理
+1. **Hive环境兼容性问题**  
+   - 预案: 准备Docker镜像作为备用环境  
+2. **理论理解瓶颈**  
+   - 预案: 使用可视化工具辅助理解分布式算法  
+3. **时间不足**  
+   - 预案: 将低优先级任务移至周末弹性时间  
--- a/doc/process/weekly/week-5/members/xingyuanxin-weekly-plan-5.md
+++ b/doc/process/weekly/week-5/members/xingyuanxin-weekly-plan-5.md
@ -0,0 +1,168 @@
+# 邢远鑫第5周个人学习计划
+
+## 个人基本信息
+- **姓名**: 邢远鑫  
+- **周次**: 第5周  
+- **学习时间**: 每日19:00-22:00（3小时/天）  
+- **项目**: 大模型数据平台故障检测项目  
+
+## 本周核心目标
+### 优先级排序
+- 【高优先级】 巩固Hadoop集群部署，解决内存不足导致的NameNode崩溃问题  
+- 【高优先级】 深入学习YARN调度机制，为下周原理文档撰写做准备  
+- 【中优先级】 掌握HDFS基本操作和MapReduce应用实践  
+- 【中优先级】 学习分布式系统资源调度理论  
+- 【低优先级】 了解大模型在集群资源管理中的应用场景  
+
+## 每日计划分解
+
+### 周一（Day 1）- Hadoop集群稳定性优化
+**时间**: 19:00-22:00  
+**主要任务**  
+1. **任务1**: 解决1G内存环境下的Hadoop配置问题  
+   - 预期产出: 优化后的hadoop-env.sh和yarn-env.sh配置文件  
+   - 时间分配: 1.5小时  
+   - 具体操作: 将HADOOP_HEAPSIZE和YARN_HEAPSIZE调整为512M  
+   - 依赖资源: 上周部署的虚拟机集群  
+
+2. **任务2**: HDFS稳定性测试  
+   - 预期产出: 1G测试文件上传成功，副本数量验证通过  
+   - 时间分配: 1小时  
+   - 具体操作: 使用hdfs dfs命令上传大文件并检查集群状态  
+   - 依赖资源: 测试数据文件  
+
+3. **任务3**: 集群运行状态监控  
+   - 预期产出: 各节点运行状态检查报告  
+   - 时间分配: 0.5小时  
+   - 具体操作: 检查NameNode、DataNode进程状态  
+
+---
+
+### 周二（Day 2）- HDFS命令操作与集群巩固
+**时间**: 19:00-22:00  
+**主要任务**  
+1. **任务1**: HDFS基础命令实践  
+   - 预期产出: HDFS常用命令操作手册  
+   - 时间分配: 1.5小时  
+   - 具体操作: 创建目录、上传/下载文件、权限管理、文件查看  
+   - 依赖资源: Hadoop官方文档  
+
+2. **任务2**: 集群负载测试  
+   - 预期产出: 集群在负载下的稳定性测试报告  
+   - 时间分配: 1小时  
+   - 具体操作: 并发上传多个文件，监控系统资源使用  
+
+3. **任务3**: 问题排查与解决  
+   - 预期产出: 常见问题解决方案文档  
+   - 时间分配: 0.5小时  
+   - 具体操作: 整理DataNode连接、内存不足等问题的解决方法  
+
+---
+
+### 周三（Day 3）- MapReduce应用实践
+**时间**: 19:00-22:00  
+**主要任务**  
+1. **任务1**: WordCount示例程序运行  
+   - 预期产出: 成功运行WordCount并分析结果  
+   - 时间分配: 1.5小时  
+   - 具体操作: 准备输入数据，运行MapReduce作业，查看输出结果  
+   - 依赖资源: Hadoop示例程序  
+
+2. **任务2**: MapReduce作业日志分析  
+   - 预期产出: 作业执行流程和性能分析报告  
+   - 时间分配: 1小时  
+   - 具体操作: 分析JobTracker和TaskTracker日志  
+
+3. **任务3**: YARN基础概念学习  
+   - 预期产出: YARN架构和组件功能总结  
+   - 时间分配: 0.5小时  
+   - 依赖资源: 《Hadoop权威指南》YARN章节  
+
+---
+
+### 周四（Day 4）- YARN调度机制深入学习
+**时间**: 19:00-22:00  
+**主要任务**  
+1. **任务1**: YARN调度器原理学习  
+   - 预期产出: FIFO、Fair、Capacity调度器对比分析  
+   - 时间分配: 2小时  
+   - 具体操作: 研究不同调度策略的适用场景和配置方法  
+   - 依赖资源: Apache YARN官方文档、技术论文  
+
+2. **任务2**: 资源管理机制研究  
+   - 预期产出: YARN资源分配和回收机制总结  
+   - 时间分配: 1小时  
+   - 具体操作: 学习Container概念、资源隔离技术  
+   - 依赖资源: 分布式系统资源管理相关资料  
+
+---
+
+### 周五（Day 5）- 综合实践与文档准备
+**时间**: 19:00-22:00  
+**主要任务**  
+1. **任务1**: YARN调度配置实践  
+   - 预期产出: 不同调度器的配置文件和测试结果  
+   - 时间分配: 1.5小时  
+   - 具体操作: 修改yarn-site.xml配置，测试不同调度策略  
+
+2. **任务2**: 下周原理文档大纲制定  
+   - 预期产出: YARN调度机制原理文档大纲  
+   - 时间分配: 1小时  
+   - 具体操作: 整理本周学习内容，规划文档结构  
+
+3. **任务3**: 周总结与问题整理  
+   - 预期产出: 本周学习总结和待解决问题清单  
+   - 时间分配: 0.5小时  
+
+---
+
+## 学习资源配置
+| 类型       | 资源列表                                                                 |
+|------------|--------------------------------------------------------------------------|
+| **书籍**   | 《Hadoop权威指南》《YARN架构设计与实现》《分布式系统：概念与设计》      |
+| **工具**   | Hadoop集群、YARN Web UI、JConsole（JVM监控）                           |
+| **在线**   | Apache YARN文档、Hadoop生态系统教程、分布式调度算法论文                |
+
+## 重点关注问题
+### 基于上周遇到的问题
+1. **内存不足导致NameNode崩溃**  
+   - 解决方案: 调整JVM堆内存设置，优化启动参数  
+   - 监控指标: 内存使用率、GC频率  
+
+2. **集群稳定性问题**  
+   - 解决方案: 完善配置文件，加强节点间通信  
+   - 监控指标: 节点存活状态、网络连通性  
+
+## 风险管理
+1. **YARN配置复杂性**  
+   - 预案: 准备标准配置模板，参考团队配置文件  
+2. **理论理解难度**  
+   - 预案: 结合实际操作加深理解，多查阅案例分析  
+3. **时间分配不均**  
+   - 预案: 优先完成高优先级任务，低优先级任务可延后  
+
+## 团队协作计划
+1. **日常汇报**: 每日18:00前在群内同步学习进度  
+2. **技术交流**: 主动分享YARN调度相关的学习心得  
+3. **问题求助**: 遇到技术难点及时向团队成员请教  
+4. **文档协作**: 配合沈永佳的配置模板发布工作  
+
+## 下周准备工作
+### 为YARN调度机制原理文档做准备
+1. **文档结构规划**  
+   - YARN整体架构介绍  
+   - 调度器类型和工作原理  
+   - 资源分配和管理机制  
+   - 性能优化和故障处理  
+
+2. **技术深度要求**  
+   - 包含核心逻辑说明  
+   - 标注关键参数配置  
+   - 提供实际应用案例  
+   - 总结最佳实践经验  
+
+---
+**计划制定时间**: 2025-10-19  
+**计划执行周期**: 2025-10-19 至 2025-10-25  
+**下次计划更新**: 2025-10-26  
+**特别关注**: 基于第4周内存问题的解决和YARN调度机制的深入学习
--- a/doc/process/weekly/week-5/members/zoujiaxuan-weekly-plan-5.md
+++ b/doc/process/weekly/week-5/members/zoujiaxuan-weekly-plan-5.md
@ -0,0 +1,230 @@
+# 邹佳轩第五周个人工作计划（Week 5 Plan）
+
+## 一、个人计划概述
+- **姓名：** 邹佳轩
+- **计划周期：** 第五周（2025-10-19 至 2025-10-25）
+- **主要目标：** 基于上周 Hadoop 部署经验，进行集群稳定性测试和基础应用实践，重点准备 MapReduce 流程原理学习
+- **个人职责：** 团队会议记录员，下周负责 MapReduce 流程原理文档撰写
+
+## 二、个人主要任务
+
+### 2.1 第一阶段：部署巩固（周一至周二）
+**个人目标：** 确保个人已部署的 Hadoop 集群稳定可用，解决第四周遗留问题
+
+#### 周一任务（10月21日）
+**上午（9:00-12:00）**
+- [ ] 检查个人5台虚拟机的运行状态
+- [ ] 验证 Hadoop 集群各组件服务状态
+- [ ] 解决第四周调试中的遗留问题
+
+**下午（14:00-18:00）**
+- [ ] 对已部署集群进行 HDFS 稳定性测试
+  - 上传 1G 测试文件到 HDFS
+  - 验证文件副本数量设置是否正确（默认3个副本）
+  - 检查集群各节点运行状态
+- [ ] 记录测试过程和结果
+
+**晚上（19:00-21:00）**
+- [ ] 18:00前在群内同步当日任务进度
+- [ ] 整理测试记录和截图
+- [ ] 准备次日工作计划
+
+#### 周二任务（10月22日）
+**上午（9:00-12:00）**
+- [ ] 继续 HDFS 稳定性测试
+- [ ] 确保集群在负载下的稳定性
+- [ ] 测试不同大小文件的上传下载性能
+
+**下午（14:00-18:00）**
+- [ ] 完成集群稳定性测试报告
+- [ ] 补充第四周未完成的截图记录
+- [ ] 为第二阶段做准备
+
+**完成标准：** 周二 18:00 前完成所有稳定性测试
+
+### 2.2 第二阶段：简单应用实践（周三至周五）
+**个人目标：** 熟练掌握 HDFS 基本操作和 MapReduce 应用，为原理学习打基础
+
+#### 周三任务（10月23日）
+**上午（9:00-12:00）**
+- [ ] HDFS 命令操作练习
+  - 学习和练习基本命令：`hdfs dfs -ls`, `-mkdir`, `-put`, `-get`
+  - 创建个人测试目录结构
+  - 练习文件权限管理命令
+
+**下午（14:00-18:00）**
+- [ ] 深入练习 HDFS 操作
+  - 上传/下载不同类型文件
+  - 目录浏览和文件查看操作
+  - 测试文件删除和恢复功能
+- [ ] 记录所有操作命令和结果
+
+#### 周四任务（10月24日）
+**上午（9:00-12:00）**
+- [ ] 获取沈永佳发布的配置文件模板
+- [ ] 对比个人配置，应用标准化模板
+- [ ] 优化个人集群配置
+
+**下午（14:00-18:00）**
+- [ ] 准备 MapReduce 应用实践
+  - 准备 WordCount 示例的输入数据
+  - 学习 MapReduce 作业提交命令
+  - 了解作业监控和日志查看方法
+
+#### 周五任务（10月25日）
+**上午（9:00-12:00）**
+- [ ] MapReduce 应用实践
+  - 运行 WordCount 示例程序
+  - 验证 MapReduce 完整流程
+  - 观察作业执行过程
+
+**下午（14:00-18:00）**
+- [ ] 深入分析 MapReduce 执行
+  - 分析作业执行日志
+  - 理解 Map 和 Reduce 阶段的执行过程
+  - 记录关键执行参数和性能指标
+- [ ] 完成 MapReduce 应用运行记录
+
+**完成标准：** 周五 18:00 前完成所有 HDFS 操作和 MapReduce 实践
+
+## 三、个人配置优化任务
+
+### 3.1 应用配置模板
+**任务：** 应用沈永佳发布的标准化配置文件模板
+**完成时间：** 周四获取模板后立即应用
+**具体行动：**
+- [ ] 下载并学习配置模板
+- [ ] 对比个人现有配置文件
+- [ ] 应用新的配置参数
+- [ ] 测试配置优化效果
+
+### 3.2 内存优化配置
+**任务：** 针对个人1G内存环境优化 Hadoop 配置
+**配置要点：**
+- [ ] 调整 `hadoop-env.sh` 中的 `HADOOP_HEAPSIZE` 为 512M
+- [ ] 调整 `yarn-env.sh` 中的 `YARN_HEAPSIZE` 为 512M
+- [ ] 按需停用不使用的组件以节省内存
+- [ ] 监控内存使用情况
+
+## 四、个人问题解决重点
+
+### 4.1 第四周遗留问题处理
+基于第四周60%的完成度，重点解决：
+- [ ] 完善截图记录（⚠️ 部分完成 → ✅ 完成）
+- [ ] 解决调试中的技术问题（🔄 调试中 → ✅ 完成）
+- [ ] 补充未完成的文档工作（❌ 未完成 → ✅ 完成）
+
+### 4.2 常见问题预防
+**DataNode 连接问题：**
+- [ ] 检查 `/etc/hosts` 文件配置
+- [ ] 确认防火墙和 SELinux 状态
+- [ ] 验证 `hdfs-site.xml` 端口配置
+
+**内存不足问题：**
+- [ ] 监控 JVM 堆内存使用
+- [ ] 合理安排服务启动顺序
+- [ ] 及时释放不必要的资源
+
+## 五、个人进度跟踪
+
+### 5.1 日常自我管理
+- **每日18:00前：** 在群内同步当日任务进度
+- **每日21:00前：** 完成个人学习日志记录
+- **每日计划：** 次日上午制定详细任务清单
+
+### 5.2 个人检查点
+- **周二检查点：** 集群稳定性测试完成，第四周遗留问题解决
+- **周四检查点：** HDFS操作熟练掌握，配置优化完成
+- **周五检查点：** MapReduce实践完成，为下周原理学习做好准备
+
+### 5.3 学习记录要求
+- [ ] 每日记录技术学习要点
+- [ ] 整理操作命令和参数说明
+- [ ] 收集 MapReduce 相关资料
+- [ ] 准备原理文档写作素材
+
+## 六、个人预期成果
+
+### 6.1 技术成果
+- [ ] 个人 Hadoop 集群稳定运行（提升至90%+可用性）
+- [ ] 熟练掌握 HDFS 基本操作命令
+- [ ] 成功运行 MapReduce 应用并理解执行流程
+- [ ] 完成第四周遗留任务，整体完成度达到95%+
+
+### 6.2 文档成果
+- [ ] 个人集群稳定性测试报告
+- [ ] HDFS 操作实践总结和命令手册
+- [ ] MapReduce 应用运行记录和分析报告
+- [ ] 第四周补充文档和截图记录
+
+### 6.3 学习准备成果
+- [ ] MapReduce 原理学习资料收集
+- [ ] 下周文档写作大纲和框架
+- [ ] 技术验证实验设计
+
+## 七、个人风险管理
+
+### 7.1 技术风险识别
+- **高风险：** 集群不稳定影响后续学习进度
+- **中风险：** MapReduce 应用运行失败
+- **低风险：** 配置优化导致系统异常
+
+### 7.2 个人应对策略
+- [ ] 建立配置文件备份机制
+- [ ] 准备多套测试数据和方案
+- [ ] 及时向团队寻求技术支持
+- [ ] 保持学习进度的灵活调整
+
+## 八、下周个人准备
+
+### 8.1 MapReduce 原理文档准备
+**个人任务：** 撰写 MapReduce 流程原理文档
+**准备工作：**
+- [ ] 收集 MapReduce 相关技术资料和官方文档
+- [ ] 整理本周实践中的关键发现和问题
+- [ ] 设计文档结构：核心逻辑 + 关键参数说明
+- [ ] 准备技术图表和流程示意图
+
+### 8.2 个人学习计划
+- [ ] 制定下周详细的学习时间表
+- [ ] 确定 MapReduce 原理的重点研究方向
+- [ ] 准备技术验证实验和代码示例
+- [ ] 设定文档质量标准和完成时间节点
+
+### 8.3 团队协作准备
+- [ ] 了解其他成员的原理文档主题
+- [ ] 准备技术交流和互相学习计划
+- [ ] 制定文档互审和质量保证机制
+
+## 九、个人时间管理
+
+### 9.1 每日时间分配
+- **上午（9:00-12:00）**：核心技术学习和实践（3小时）
+- **下午（14:00-18:00）**：项目实施和问题解决（4小时）
+- **晚上（19:00-21:00）**：总结反思和计划准备（2小时）
+- **总计：** 每日9小时专注学习时间
+
+### 9.2 周时间规划
+- **周一-周二：** 集群稳定性测试和问题解决（40%时间）
+- **周三-周五：** HDFS操作和MapReduce实践（50%时间）
+- **周末：** 总结整理和下周准备（10%时间）
+
+## 十、成功标准
+
+### 10.1 量化指标
+- [ ] 集群稳定性测试通过率：100%
+- [ ] HDFS操作命令掌握：20+个常用命令
+- [ ] MapReduce应用成功运行：WordCount + 1个自定义示例
+- [ ] 文档完成度：95%+（包括第四周补充）
+
+### 10.2 质量标准
+- [ ] 技术操作准确无误
+- [ ] 文档记录详细完整
+- [ ] 问题解决思路清晰
+- [ ] 学习成果可复现
+
+---
+**个人计划制定时间：** 2025-10-20  
+**计划执行周期：** 2025-10-21 至 2025-10-27  
+**个人负责人：** 邹佳轩  
+**下周重点任务：** MapReduce 流程原理文档撰写