From 74fab842b481b7637baa6017076907b86de096b0 Mon Sep 17 00:00:00 2001 From: xingyuanxin Date: Mon, 20 Oct 2025 20:49:56 +0800 Subject: [PATCH] =?UTF-8?q?=E6=B7=BB=E5=8A=A0=E9=82=A2=E8=BF=9C=E9=91=AB?= =?UTF-8?q?=E7=AC=AC=E4=BA=94=E5=91=A8=E4=B8=AA=E4=BA=BA=E5=AD=A6=E4=B9=A0?= =?UTF-8?q?=E8=AE=A1=E5=88=92=E5=B9=B6=E6=9B=B4=E6=96=B0=E7=9B=B8=E5=85=B3?= =?UTF-8?q?=E5=9B=A2=E9=98=9F=E6=96=87=E6=A1=A3?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../weekly/week-4/group/weekly-summary-4.md | 184 +++++++++++++++++- .../weekly/week-5/group/weekly-plan-5.md | 135 +++++++++++++ .../members/xingyuanxin-weekly-plan-5.md | 168 ++++++++++++++++ 3 files changed, 486 insertions(+), 1 deletion(-) create mode 100644 doc/process/weekly/week-5/members/xingyuanxin-weekly-plan-5.md diff --git a/doc/process/weekly/week-4/group/weekly-summary-4.md b/doc/process/weekly/week-4/group/weekly-summary-4.md index e743ffa..eb31e93 100644 --- a/doc/process/weekly/week-4/group/weekly-summary-4.md +++ b/doc/process/weekly/week-4/group/weekly-summary-4.md @@ -1 +1,183 @@ -小组周总结 \ No newline at end of file +# 第四周工作总结(Week 4 Summary) + +## 一、总结概述 +- 总结周期:第四周(2025-10-12 至 2025-10-18) +- 主要任务:Linux 虚拟机环境搭建与 Hadoop 分布式系统部署 +- 参与人员:沈永佳、李涛、邹佳轩、邢远鑫、王祖旺 +- 总结时间:2025-10-19 + +## 二、硬指标任务完成情况 + +### 2.1 任务完成统计 +**⚠️ 任务进行中,整体处于调试阶段** +- 每人已搭建 5 台非桌面版 Linux 虚拟机 +- 虚拟机配置:1G 内存、20G 磁盘空间 +- HDFS 与 Hadoop 部署遇到多项技术问题,正在调试中 +- 部分成员完成了初步部署截图记录 +- 多数任务仍在进行中,存在未收尾事项 + +### 2.2 个人完成情况 +| 姓名 | 虚拟机数量 | HDFS部署 | Hadoop部署 | 截图记录 | 周总结 | 完成度 | +|------|------------|----------|------------|----------|--------|--------| +| 沈永佳 | 5台 ✅ | 🔄 调试中 | 🔄 调试中 | ⚠️ 部分 | ❌ 未完成 | 40% | +| 李涛 | 5台 ✅ | 🔄 调试中 | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | 20% | +| 邹佳轩 | 5台 ✅ | ✅ | 🔄 调试中 | ⚠️ 部分 | ❌ 未完成 | 60% | +| 邢远鑫 | 4台 ⚠️ | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | 15% | +| 王祖旺 | 5台 ✅ | 🔄 调试中 | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | 25% | + +## 三、技术实施成果 + +### 3.1 环境搭建成果 +- **Linux 虚拟机环境** + - 部署了 24 台虚拟机(邢远鑫 4台,其他人各 5台) + - 统一采用非桌面版 Linux 系统 + - 标准化内存和磁盘配置 + - 网络连通性测试基本通过 + +- **Hadoop 分布式系统** + - HDFS 分布式文件系统部署遇到困难,仅部分成功 + - NameNode 和 DataNode 配置存在问题,正在调试 + - 多节点集群架构搭建不完整 + - 基本功能验证未全部通过 + +### 3.2 技术能力提升 +- 初步了解 Linux 系统基础操作和配置 +- 开始理解分布式系统基本概念 +- 正在学习 Hadoop 生态系统架构 +- 集群部署能力仍在培养中 + +## 四、问题识别与解决 + +### 4.1 主要技术问题 + +#### 问题1:NameNode 崩溃问题 +- **遇到人员:** 邢远鑫 +- **问题描述:** 1G 内存限制导致 NameNode 服务崩溃 +- **根本原因:** JVM 堆内存设置过高,超出系统可用内存 +- **解决方案:** 调整 Hadoop JVM 堆内存设置至 512M +- **解决状态:** ✅ 已解决 +- **经验总结:** 在资源受限环境下需要合理配置 JVM 参数 + +#### 问题2:配置文件参数错误 +- **遇到人员:** 王祖旺 +- **问题描述:** 配置文件中参数拼写错误导致服务启动失败 +- **根本原因:** 手动配置过程中的人为错误 +- **解决方案:** 整理配置易错清单,建立配置文件检查机制 +- **解决状态:** ✅ 已解决 +- **经验总结:** 需要建立标准化配置模板和检查流程 + +### 4.2 共性问题分析 + +#### 高频问题1:DataNode 无法连接 NameNode +- **出现频率:** 60% 团队成员遇到 +- **核心原因:** + - `/etc/hosts` 文件未配置节点映射 + - 防火墙或 SELinux 未关闭 + - `hdfs-site.xml` 端口配置错误 +- **标准解决方案:** + - 配置 `/etc/hosts` 添加节点 IP 与主机名映射 + - 关闭防火墙与 SELinux 服务 + - 校验配置文件中的端口参数 + +#### 高频问题2:内存不足导致服务不稳定 +- **出现频率:** 40% 团队成员遇到 +- **核心原因:** 1G 内存环境下默认配置过高 +- **标准解决方案:** + - 调整 `hadoop-env.sh` 的 `HADOOP_HEAPSIZE` 为 512M + - 调整 `yarn-env.sh` 的 `YARN_HEAPSIZE` 为 512M + - 按需启停服务组件 + +#### 高频问题3:配置文件参数错误 +- **出现频率:** 80% 团队成员遇到 +- **核心原因:** 手动配置容易出现拼写和路径错误 +- **标准解决方案:** + - 建立标准化配置模板 + - 实施配置文件互审机制 + - 建立配置易错清单 + +## 五、团队协作表现 + +### 5.1 协作亮点 +- **问题共享机制:** 团队成员主动分享遇到的问题和解决方案 +- **互助精神:** 在技术难点上相互支持,共同解决问题 +- **文档意识:** 每个人都认真完成了部署记录和个人总结 +- **质量把控:** 整体交付质量达标,体现了团队责任心 + +### 5.2 改进空间 +- **标准化程度:** 需要建立更统一的配置和操作标准 +- **问题预防:** 应该提前识别和预防常见问题 +- **知识沉淀:** 需要更好地整理和共享技术经验 + +## 六、知识沉淀成果 + +### 6.1 技术文档 +- 个人部署总结文档 × 5份 +- 部署过程截图记录 × 5套 +- 问题解决方案记录 +- 配置易错清单(王祖旺整理) + +### 6.2 最佳实践 +- Linux 虚拟机标准化配置流程 +- Hadoop 集群部署标准操作 +- 常见问题快速诊断方法 +- 资源受限环境优化策略 + +## 七、经验教训总结 + +### 7.1 成功经验 +1. **充分的前期准备:** 明确的任务目标和配置要求 +2. **团队协作机制:** 及时的问题共享和互助支持 +3. **质量意识:** 重视文档记录和经验总结 +4. **问题导向:** 遇到问题及时分析根因并制定解决方案 + +### 7.2 改进方向 +1. **标准化建设:** 建立配置模板和操作规范 +2. **预防机制:** 提前识别和预防常见问题 +3. **效率提升:** 通过工具和流程优化提高部署效率 +4. **知识管理:** 建立更系统的技术知识库 + +## 八、对下周工作的建议 + +### 8.1 技术深化 +- 在已有部署基础上进行稳定性测试 +- 开展 HDFS 基本操作实践 +- 尝试运行 MapReduce 应用示例 + +### 8.2 流程优化 +- 发布标准化配置模板(建议沈永佳负责) +- 建立问题快速响应机制 +- 制定更详细的学习计划 + +### 8.3 能力建设 +- 从部署实践转向原理理解 +- 分工深入学习各组件机制 +- 准备技术分享和文档撰写 + +## 九、总结评价 + +### 9.1 整体评价 +第四周的 Linux 虚拟机和 Hadoop 部署任务目前仍在进行中,团队遇到了比预期更多的技术挑战。虽然在虚拟机搭建方面取得了一定进展,但 Hadoop 集群部署的复杂性超出了团队的初期预估,多数成员仍处于问题排查和调试阶段。 + +### 9.2 当前状况 +- ⚠️ 硬指标任务完成度约 32%(平均值) +- ✅ 建立了问题共享和互助机制 +- 🔄 正在积累调试和问题解决经验 +- ⚠️ 技术难点仍需持续攻克 + +### 9.3 面临挑战 +- **技术复杂度:** Hadoop 配置比预期复杂,需要更多学习时间 +- **资源限制:** 1G 内存环境限制了系统稳定性 +- **经验不足:** 团队在分布式系统部署方面经验有限 +- **时间压力:** 需要在保证质量的前提下加快进度 + +### 9.4 后续安排 +鉴于当前进度,建议: +1. 延长调试和学习时间,确保基础扎实 +2. 加强团队内部技术交流和互助 +3. 寻求更多技术资源和指导 +4. 调整后续计划的时间安排 + +--- +**总结撰写:** 基于 2025-10-19 会议纪要 +**总结时间:** 2025-10-19 +**下周计划:** 详见 weekly-plan-5.md \ No newline at end of file diff --git a/doc/process/weekly/week-5/group/weekly-plan-5.md b/doc/process/weekly/week-5/group/weekly-plan-5.md index e69de29..026e05d 100644 --- a/doc/process/weekly/week-5/group/weekly-plan-5.md +++ b/doc/process/weekly/week-5/group/weekly-plan-5.md @@ -0,0 +1,135 @@ +# 第五周工作计划(Week 5 Plan) + +## 一、计划概述 +- 计划周期:第五周(2025-10-19 至 2025-10-25) +- 主要目标:基于上周 Hadoop 部署经验,进行集群稳定性测试和基础应用实践 +- 参与人员:沈永佳、李涛、邹佳轩、邢远鑫、王祖旺 + +## 二、本周主要任务 + +### 2.1 第一阶段:部署巩固(周一至周二) +**目标:** 确保已部署的 Hadoop 集群稳定可用 + +**具体任务:** +- 对已部署集群进行 HDFS 稳定性测试 + - 上传 1G 测试文件到 HDFS + - 验证文件副本数量设置是否正确 + - 检查集群各节点运行状态 + - 确保集群在负载下的稳定性 + +**负责人:** 全员 +**完成时间:** 周二 18:00 前 + +### 2.2 第二阶段:简单应用实践(周三至周五) +**目标:** 掌握 HDFS 基本操作和 MapReduce 应用 + +**具体任务:** +- HDFS 命令操作练习 + - 创建目录结构 + - 上传/下载文件操作 + - 文件权限管理 + - 目录浏览和文件查看 +- MapReduce 应用实践 + - 运行 WordCount 示例程序 + - 验证 MapReduce 完整流程 + - 分析作业执行日志 + +**负责人:** 全员 +**完成时间:** 周五 18:00 前 + +## 三、配置优化任务 + +### 3.1 配置模板发布 +**任务:** 发布标准化配置文件模板 +**负责人:** 沈永佳 +**完成时间:** 周四 18:00 前 +**内容:** +- 整理 `core-site.xml`、`hdfs-site.xml` 等核心配置模板 +- 标注必填参数和详细注释 +- 提供配置易错清单 +- 在群内发布供团队使用 + +### 3.2 内存优化配置 +**任务:** 针对 1G 内存环境优化 Hadoop 配置 +**负责人:** 全员应用 +**配置要点:** +- 调整 `hadoop-env.sh` 中的 `HADOOP_HEAPSIZE` 为 512M +- 调整 `yarn-env.sh` 中的 `YARN_HEAPSIZE` 为 512M +- 按需停用不使用的组件以节省内存 + +## 四、问题解决方案 + +### 4.1 DataNode 连接问题 +**解决方案:** +- 配置 `/etc/hosts` 文件,添加节点 IP 与主机名映射 +- 关闭防火墙和 SELinux +- 校验 `hdfs-site.xml` 端口配置 + +### 4.2 内存不足问题 +**解决方案:** +- 降低 JVM 堆内存设置 +- 分时启动不同服务组件 +- 监控内存使用情况 + +### 4.3 配置文件错误 +**解决方案:** +- 使用标准化配置模板 +- 仔细检查参数拼写和路径 +- 团队内部配置文件互审 + +## 五、进度跟踪机制 + +### 5.1 日常汇报 +- **频率:** 每日 18:00 前 +- **方式:** 群内同步当日任务进度 +- **内容:** 完成情况、遇到问题、需要协助事项 + +### 5.2 阶段检查点 +- **周二检查点:** 集群稳定性测试完成情况 +- **周五检查点:** HDFS 操作和 MapReduce 实践完成情况 + +## 六、预期成果 + +### 6.1 技术成果 +- 稳定运行的 Hadoop 集群 +- 熟练掌握 HDFS 基本操作 +- 成功运行 MapReduce 应用 +- 标准化配置文件模板 + +### 6.2 文档成果 +- 集群稳定性测试报告 +- HDFS 操作实践总结 +- MapReduce 应用运行记录 +- 问题解决方案文档 + +## 七、风险预警 + +### 7.1 技术风险 +- 集群不稳定导致测试失败 +- 内存限制影响应用运行 +- 网络配置问题导致节点通信异常 + +### 7.2 应对措施 +- 提前准备备用配置方案 +- 建立问题快速响应机制 +- 加强团队内部技术交流 + +## 八、下周准备 + +### 8.1 原理学习准备 +为下周的深入学习阶段做准备: +- 收集各组件相关技术资料 +- 分配原理文档撰写任务 +- 制定学习计划时间表 + +### 8.2 任务分工预告 +- 李涛:NameNode 机制原理 +- 沈永佳:DataNode 副本策略 +- 邹佳轩:MapReduce 流程原理 +- 邢远鑫:YARN 调度机制 +- 王祖旺:HDFS 安全模式 + +--- +**计划制定时间:** 2025-10-19 +**计划执行周期:** 2025-10-19 至 2025-10-25 +**下次计划更新:** 2025-10-26 \ No newline at end of file diff --git a/doc/process/weekly/week-5/members/xingyuanxin-weekly-plan-5.md b/doc/process/weekly/week-5/members/xingyuanxin-weekly-plan-5.md new file mode 100644 index 0000000..727b6c7 --- /dev/null +++ b/doc/process/weekly/week-5/members/xingyuanxin-weekly-plan-5.md @@ -0,0 +1,168 @@ +# 邢远鑫第5周个人学习计划 + +## 个人基本信息 +- **姓名**: 邢远鑫 +- **周次**: 第5周 +- **学习时间**: 每日19:00-22:00(3小时/天) +- **项目**: 大模型数据平台故障检测项目 + +## 本周核心目标 +### 优先级排序 +- 【高优先级】 巩固Hadoop集群部署,解决内存不足导致的NameNode崩溃问题 +- 【高优先级】 深入学习YARN调度机制,为下周原理文档撰写做准备 +- 【中优先级】 掌握HDFS基本操作和MapReduce应用实践 +- 【中优先级】 学习分布式系统资源调度理论 +- 【低优先级】 了解大模型在集群资源管理中的应用场景 + +## 每日计划分解 + +### 周一(Day 1)- Hadoop集群稳定性优化 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: 解决1G内存环境下的Hadoop配置问题 + - 预期产出: 优化后的hadoop-env.sh和yarn-env.sh配置文件 + - 时间分配: 1.5小时 + - 具体操作: 将HADOOP_HEAPSIZE和YARN_HEAPSIZE调整为512M + - 依赖资源: 上周部署的虚拟机集群 + +2. **任务2**: HDFS稳定性测试 + - 预期产出: 1G测试文件上传成功,副本数量验证通过 + - 时间分配: 1小时 + - 具体操作: 使用hdfs dfs命令上传大文件并检查集群状态 + - 依赖资源: 测试数据文件 + +3. **任务3**: 集群运行状态监控 + - 预期产出: 各节点运行状态检查报告 + - 时间分配: 0.5小时 + - 具体操作: 检查NameNode、DataNode进程状态 + +--- + +### 周二(Day 2)- HDFS命令操作与集群巩固 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: HDFS基础命令实践 + - 预期产出: HDFS常用命令操作手册 + - 时间分配: 1.5小时 + - 具体操作: 创建目录、上传/下载文件、权限管理、文件查看 + - 依赖资源: Hadoop官方文档 + +2. **任务2**: 集群负载测试 + - 预期产出: 集群在负载下的稳定性测试报告 + - 时间分配: 1小时 + - 具体操作: 并发上传多个文件,监控系统资源使用 + +3. **任务3**: 问题排查与解决 + - 预期产出: 常见问题解决方案文档 + - 时间分配: 0.5小时 + - 具体操作: 整理DataNode连接、内存不足等问题的解决方法 + +--- + +### 周三(Day 3)- MapReduce应用实践 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: WordCount示例程序运行 + - 预期产出: 成功运行WordCount并分析结果 + - 时间分配: 1.5小时 + - 具体操作: 准备输入数据,运行MapReduce作业,查看输出结果 + - 依赖资源: Hadoop示例程序 + +2. **任务2**: MapReduce作业日志分析 + - 预期产出: 作业执行流程和性能分析报告 + - 时间分配: 1小时 + - 具体操作: 分析JobTracker和TaskTracker日志 + +3. **任务3**: YARN基础概念学习 + - 预期产出: YARN架构和组件功能总结 + - 时间分配: 0.5小时 + - 依赖资源: 《Hadoop权威指南》YARN章节 + +--- + +### 周四(Day 4)- YARN调度机制深入学习 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: YARN调度器原理学习 + - 预期产出: FIFO、Fair、Capacity调度器对比分析 + - 时间分配: 2小时 + - 具体操作: 研究不同调度策略的适用场景和配置方法 + - 依赖资源: Apache YARN官方文档、技术论文 + +2. **任务2**: 资源管理机制研究 + - 预期产出: YARN资源分配和回收机制总结 + - 时间分配: 1小时 + - 具体操作: 学习Container概念、资源隔离技术 + - 依赖资源: 分布式系统资源管理相关资料 + +--- + +### 周五(Day 5)- 综合实践与文档准备 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: YARN调度配置实践 + - 预期产出: 不同调度器的配置文件和测试结果 + - 时间分配: 1.5小时 + - 具体操作: 修改yarn-site.xml配置,测试不同调度策略 + +2. **任务2**: 下周原理文档大纲制定 + - 预期产出: YARN调度机制原理文档大纲 + - 时间分配: 1小时 + - 具体操作: 整理本周学习内容,规划文档结构 + +3. **任务3**: 周总结与问题整理 + - 预期产出: 本周学习总结和待解决问题清单 + - 时间分配: 0.5小时 + +--- + +## 学习资源配置 +| 类型 | 资源列表 | +|------------|--------------------------------------------------------------------------| +| **书籍** | 《Hadoop权威指南》《YARN架构设计与实现》《分布式系统:概念与设计》 | +| **工具** | Hadoop集群、YARN Web UI、JConsole(JVM监控) | +| **在线** | Apache YARN文档、Hadoop生态系统教程、分布式调度算法论文 | + +## 重点关注问题 +### 基于上周遇到的问题 +1. **内存不足导致NameNode崩溃** + - 解决方案: 调整JVM堆内存设置,优化启动参数 + - 监控指标: 内存使用率、GC频率 + +2. **集群稳定性问题** + - 解决方案: 完善配置文件,加强节点间通信 + - 监控指标: 节点存活状态、网络连通性 + +## 风险管理 +1. **YARN配置复杂性** + - 预案: 准备标准配置模板,参考团队配置文件 +2. **理论理解难度** + - 预案: 结合实际操作加深理解,多查阅案例分析 +3. **时间分配不均** + - 预案: 优先完成高优先级任务,低优先级任务可延后 + +## 团队协作计划 +1. **日常汇报**: 每日18:00前在群内同步学习进度 +2. **技术交流**: 主动分享YARN调度相关的学习心得 +3. **问题求助**: 遇到技术难点及时向团队成员请教 +4. **文档协作**: 配合沈永佳的配置模板发布工作 + +## 下周准备工作 +### 为YARN调度机制原理文档做准备 +1. **文档结构规划** + - YARN整体架构介绍 + - 调度器类型和工作原理 + - 资源分配和管理机制 + - 性能优化和故障处理 + +2. **技术深度要求** + - 包含核心逻辑说明 + - 标注关键参数配置 + - 提供实际应用案例 + - 总结最佳实践经验 + +--- +**计划制定时间**: 2025-10-19 +**计划执行周期**: 2025-10-19 至 2025-10-25 +**下次计划更新**: 2025-10-26 +**特别关注**: 基于第4周内存问题的解决和YARN调度机制的深入学习 \ No newline at end of file -- 2.34.1