邢远鑫2025年秋季学期第五周周计划 #17

Merged
hnu202326010131 merged 1 commits from xingyuanxin_branch into develop 3 months ago

@ -1 +1,183 @@
小组周总结
# 第四周工作总结Week 4 Summary
## 一、总结概述
- 总结周期第四周2025-10-12 至 2025-10-18
- 主要任务Linux 虚拟机环境搭建与 Hadoop 分布式系统部署
- 参与人员:沈永佳、李涛、邹佳轩、邢远鑫、王祖旺
- 总结时间2025-10-19
## 二、硬指标任务完成情况
### 2.1 任务完成统计
**⚠️ 任务进行中,整体处于调试阶段**
- 每人已搭建 5 台非桌面版 Linux 虚拟机
- 虚拟机配置1G 内存、20G 磁盘空间
- HDFS 与 Hadoop 部署遇到多项技术问题,正在调试中
- 部分成员完成了初步部署截图记录
- 多数任务仍在进行中,存在未收尾事项
### 2.2 个人完成情况
| 姓名 | 虚拟机数量 | HDFS部署 | Hadoop部署 | 截图记录 | 周总结 | 完成度 |
|------|------------|----------|------------|----------|--------|--------|
| 沈永佳 | 5台 ✅ | 🔄 调试中 | 🔄 调试中 | ⚠️ 部分 | ❌ 未完成 | 40% |
| 李涛 | 5台 ✅ | 🔄 调试中 | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | 20% |
| 邹佳轩 | 5台 ✅ | ✅ | 🔄 调试中 | ⚠️ 部分 | ❌ 未完成 | 60% |
| 邢远鑫 | 4台 ⚠️ | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | 15% |
| 王祖旺 | 5台 ✅ | 🔄 调试中 | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | 25% |
## 三、技术实施成果
### 3.1 环境搭建成果
- **Linux 虚拟机环境**
- 部署了 24 台虚拟机(邢远鑫 4台其他人各 5台
- 统一采用非桌面版 Linux 系统
- 标准化内存和磁盘配置
- 网络连通性测试基本通过
- **Hadoop 分布式系统**
- HDFS 分布式文件系统部署遇到困难,仅部分成功
- NameNode 和 DataNode 配置存在问题,正在调试
- 多节点集群架构搭建不完整
- 基本功能验证未全部通过
### 3.2 技术能力提升
- 初步了解 Linux 系统基础操作和配置
- 开始理解分布式系统基本概念
- 正在学习 Hadoop 生态系统架构
- 集群部署能力仍在培养中
## 四、问题识别与解决
### 4.1 主要技术问题
#### 问题1NameNode 崩溃问题
- **遇到人员:** 邢远鑫
- **问题描述:** 1G 内存限制导致 NameNode 服务崩溃
- **根本原因:** JVM 堆内存设置过高,超出系统可用内存
- **解决方案:** 调整 Hadoop JVM 堆内存设置至 512M
- **解决状态:** ✅ 已解决
- **经验总结:** 在资源受限环境下需要合理配置 JVM 参数
#### 问题2配置文件参数错误
- **遇到人员:** 王祖旺
- **问题描述:** 配置文件中参数拼写错误导致服务启动失败
- **根本原因:** 手动配置过程中的人为错误
- **解决方案:** 整理配置易错清单,建立配置文件检查机制
- **解决状态:** ✅ 已解决
- **经验总结:** 需要建立标准化配置模板和检查流程
### 4.2 共性问题分析
#### 高频问题1DataNode 无法连接 NameNode
- **出现频率:** 60% 团队成员遇到
- **核心原因:**
- `/etc/hosts` 文件未配置节点映射
- 防火墙或 SELinux 未关闭
- `hdfs-site.xml` 端口配置错误
- **标准解决方案:**
- 配置 `/etc/hosts` 添加节点 IP 与主机名映射
- 关闭防火墙与 SELinux 服务
- 校验配置文件中的端口参数
#### 高频问题2内存不足导致服务不稳定
- **出现频率:** 40% 团队成员遇到
- **核心原因:** 1G 内存环境下默认配置过高
- **标准解决方案:**
- 调整 `hadoop-env.sh``HADOOP_HEAPSIZE` 为 512M
- 调整 `yarn-env.sh``YARN_HEAPSIZE` 为 512M
- 按需启停服务组件
#### 高频问题3配置文件参数错误
- **出现频率:** 80% 团队成员遇到
- **核心原因:** 手动配置容易出现拼写和路径错误
- **标准解决方案:**
- 建立标准化配置模板
- 实施配置文件互审机制
- 建立配置易错清单
## 五、团队协作表现
### 5.1 协作亮点
- **问题共享机制:** 团队成员主动分享遇到的问题和解决方案
- **互助精神:** 在技术难点上相互支持,共同解决问题
- **文档意识:** 每个人都认真完成了部署记录和个人总结
- **质量把控:** 整体交付质量达标,体现了团队责任心
### 5.2 改进空间
- **标准化程度:** 需要建立更统一的配置和操作标准
- **问题预防:** 应该提前识别和预防常见问题
- **知识沉淀:** 需要更好地整理和共享技术经验
## 六、知识沉淀成果
### 6.1 技术文档
- 个人部署总结文档 × 5份
- 部署过程截图记录 × 5套
- 问题解决方案记录
- 配置易错清单(王祖旺整理)
### 6.2 最佳实践
- Linux 虚拟机标准化配置流程
- Hadoop 集群部署标准操作
- 常见问题快速诊断方法
- 资源受限环境优化策略
## 七、经验教训总结
### 7.1 成功经验
1. **充分的前期准备:** 明确的任务目标和配置要求
2. **团队协作机制:** 及时的问题共享和互助支持
3. **质量意识:** 重视文档记录和经验总结
4. **问题导向:** 遇到问题及时分析根因并制定解决方案
### 7.2 改进方向
1. **标准化建设:** 建立配置模板和操作规范
2. **预防机制:** 提前识别和预防常见问题
3. **效率提升:** 通过工具和流程优化提高部署效率
4. **知识管理:** 建立更系统的技术知识库
## 八、对下周工作的建议
### 8.1 技术深化
- 在已有部署基础上进行稳定性测试
- 开展 HDFS 基本操作实践
- 尝试运行 MapReduce 应用示例
### 8.2 流程优化
- 发布标准化配置模板(建议沈永佳负责)
- 建立问题快速响应机制
- 制定更详细的学习计划
### 8.3 能力建设
- 从部署实践转向原理理解
- 分工深入学习各组件机制
- 准备技术分享和文档撰写
## 九、总结评价
### 9.1 整体评价
第四周的 Linux 虚拟机和 Hadoop 部署任务目前仍在进行中,团队遇到了比预期更多的技术挑战。虽然在虚拟机搭建方面取得了一定进展,但 Hadoop 集群部署的复杂性超出了团队的初期预估,多数成员仍处于问题排查和调试阶段。
### 9.2 当前状况
- ⚠️ 硬指标任务完成度约 32%(平均值)
- ✅ 建立了问题共享和互助机制
- 🔄 正在积累调试和问题解决经验
- ⚠️ 技术难点仍需持续攻克
### 9.3 面临挑战
- **技术复杂度:** Hadoop 配置比预期复杂,需要更多学习时间
- **资源限制:** 1G 内存环境限制了系统稳定性
- **经验不足:** 团队在分布式系统部署方面经验有限
- **时间压力:** 需要在保证质量的前提下加快进度
### 9.4 后续安排
鉴于当前进度,建议:
1. 延长调试和学习时间,确保基础扎实
2. 加强团队内部技术交流和互助
3. 寻求更多技术资源和指导
4. 调整后续计划的时间安排
---
**总结撰写:** 基于 2025-10-19 会议纪要
**总结时间:** 2025-10-19
**下周计划:** 详见 weekly-plan-5.md

@ -0,0 +1,135 @@
# 第五周工作计划Week 5 Plan
## 一、计划概述
- 计划周期第五周2025-10-19 至 2025-10-25
- 主要目标:基于上周 Hadoop 部署经验,进行集群稳定性测试和基础应用实践
- 参与人员:沈永佳、李涛、邹佳轩、邢远鑫、王祖旺
## 二、本周主要任务
### 2.1 第一阶段:部署巩固(周一至周二)
**目标:** 确保已部署的 Hadoop 集群稳定可用
**具体任务:**
- 对已部署集群进行 HDFS 稳定性测试
- 上传 1G 测试文件到 HDFS
- 验证文件副本数量设置是否正确
- 检查集群各节点运行状态
- 确保集群在负载下的稳定性
**负责人:** 全员
**完成时间:** 周二 18:00 前
### 2.2 第二阶段:简单应用实践(周三至周五)
**目标:** 掌握 HDFS 基本操作和 MapReduce 应用
**具体任务:**
- HDFS 命令操作练习
- 创建目录结构
- 上传/下载文件操作
- 文件权限管理
- 目录浏览和文件查看
- MapReduce 应用实践
- 运行 WordCount 示例程序
- 验证 MapReduce 完整流程
- 分析作业执行日志
**负责人:** 全员
**完成时间:** 周五 18:00 前
## 三、配置优化任务
### 3.1 配置模板发布
**任务:** 发布标准化配置文件模板
**负责人:** 沈永佳
**完成时间:** 周四 18:00 前
**内容:**
- 整理 `core-site.xml`、`hdfs-site.xml` 等核心配置模板
- 标注必填参数和详细注释
- 提供配置易错清单
- 在群内发布供团队使用
### 3.2 内存优化配置
**任务:** 针对 1G 内存环境优化 Hadoop 配置
**负责人:** 全员应用
**配置要点:**
- 调整 `hadoop-env.sh` 中的 `HADOOP_HEAPSIZE` 为 512M
- 调整 `yarn-env.sh` 中的 `YARN_HEAPSIZE` 为 512M
- 按需停用不使用的组件以节省内存
## 四、问题解决方案
### 4.1 DataNode 连接问题
**解决方案:**
- 配置 `/etc/hosts` 文件,添加节点 IP 与主机名映射
- 关闭防火墙和 SELinux
- 校验 `hdfs-site.xml` 端口配置
### 4.2 内存不足问题
**解决方案:**
- 降低 JVM 堆内存设置
- 分时启动不同服务组件
- 监控内存使用情况
### 4.3 配置文件错误
**解决方案:**
- 使用标准化配置模板
- 仔细检查参数拼写和路径
- 团队内部配置文件互审
## 五、进度跟踪机制
### 5.1 日常汇报
- **频率:** 每日 18:00 前
- **方式:** 群内同步当日任务进度
- **内容:** 完成情况、遇到问题、需要协助事项
### 5.2 阶段检查点
- **周二检查点:** 集群稳定性测试完成情况
- **周五检查点:** HDFS 操作和 MapReduce 实践完成情况
## 六、预期成果
### 6.1 技术成果
- 稳定运行的 Hadoop 集群
- 熟练掌握 HDFS 基本操作
- 成功运行 MapReduce 应用
- 标准化配置文件模板
### 6.2 文档成果
- 集群稳定性测试报告
- HDFS 操作实践总结
- MapReduce 应用运行记录
- 问题解决方案文档
## 七、风险预警
### 7.1 技术风险
- 集群不稳定导致测试失败
- 内存限制影响应用运行
- 网络配置问题导致节点通信异常
### 7.2 应对措施
- 提前准备备用配置方案
- 建立问题快速响应机制
- 加强团队内部技术交流
## 八、下周准备
### 8.1 原理学习准备
为下周的深入学习阶段做准备:
- 收集各组件相关技术资料
- 分配原理文档撰写任务
- 制定学习计划时间表
### 8.2 任务分工预告
- 李涛NameNode 机制原理
- 沈永佳DataNode 副本策略
- 邹佳轩MapReduce 流程原理
- 邢远鑫YARN 调度机制
- 王祖旺HDFS 安全模式
---
**计划制定时间:** 2025-10-19
**计划执行周期:** 2025-10-19 至 2025-10-25
**下次计划更新:** 2025-10-26

@ -0,0 +1,168 @@
# 邢远鑫第5周个人学习计划
## 个人基本信息
- **姓名**: 邢远鑫
- **周次**: 第5周
- **学习时间**: 每日19:00-22:003小时/天)
- **项目**: 大模型数据平台故障检测项目
## 本周核心目标
### 优先级排序
- 【高优先级】 巩固Hadoop集群部署解决内存不足导致的NameNode崩溃问题
- 【高优先级】 深入学习YARN调度机制为下周原理文档撰写做准备
- 【中优先级】 掌握HDFS基本操作和MapReduce应用实践
- 【中优先级】 学习分布式系统资源调度理论
- 【低优先级】 了解大模型在集群资源管理中的应用场景
## 每日计划分解
### 周一Day 1- Hadoop集群稳定性优化
**时间**: 19:00-22:00
**主要任务**
1. **任务1**: 解决1G内存环境下的Hadoop配置问题
- 预期产出: 优化后的hadoop-env.sh和yarn-env.sh配置文件
- 时间分配: 1.5小时
- 具体操作: 将HADOOP_HEAPSIZE和YARN_HEAPSIZE调整为512M
- 依赖资源: 上周部署的虚拟机集群
2. **任务2**: HDFS稳定性测试
- 预期产出: 1G测试文件上传成功副本数量验证通过
- 时间分配: 1小时
- 具体操作: 使用hdfs dfs命令上传大文件并检查集群状态
- 依赖资源: 测试数据文件
3. **任务3**: 集群运行状态监控
- 预期产出: 各节点运行状态检查报告
- 时间分配: 0.5小时
- 具体操作: 检查NameNode、DataNode进程状态
---
### 周二Day 2- HDFS命令操作与集群巩固
**时间**: 19:00-22:00
**主要任务**
1. **任务1**: HDFS基础命令实践
- 预期产出: HDFS常用命令操作手册
- 时间分配: 1.5小时
- 具体操作: 创建目录、上传/下载文件、权限管理、文件查看
- 依赖资源: Hadoop官方文档
2. **任务2**: 集群负载测试
- 预期产出: 集群在负载下的稳定性测试报告
- 时间分配: 1小时
- 具体操作: 并发上传多个文件,监控系统资源使用
3. **任务3**: 问题排查与解决
- 预期产出: 常见问题解决方案文档
- 时间分配: 0.5小时
- 具体操作: 整理DataNode连接、内存不足等问题的解决方法
---
### 周三Day 3- MapReduce应用实践
**时间**: 19:00-22:00
**主要任务**
1. **任务1**: WordCount示例程序运行
- 预期产出: 成功运行WordCount并分析结果
- 时间分配: 1.5小时
- 具体操作: 准备输入数据运行MapReduce作业查看输出结果
- 依赖资源: Hadoop示例程序
2. **任务2**: MapReduce作业日志分析
- 预期产出: 作业执行流程和性能分析报告
- 时间分配: 1小时
- 具体操作: 分析JobTracker和TaskTracker日志
3. **任务3**: YARN基础概念学习
- 预期产出: YARN架构和组件功能总结
- 时间分配: 0.5小时
- 依赖资源: 《Hadoop权威指南》YARN章节
---
### 周四Day 4- YARN调度机制深入学习
**时间**: 19:00-22:00
**主要任务**
1. **任务1**: YARN调度器原理学习
- 预期产出: FIFO、Fair、Capacity调度器对比分析
- 时间分配: 2小时
- 具体操作: 研究不同调度策略的适用场景和配置方法
- 依赖资源: Apache YARN官方文档、技术论文
2. **任务2**: 资源管理机制研究
- 预期产出: YARN资源分配和回收机制总结
- 时间分配: 1小时
- 具体操作: 学习Container概念、资源隔离技术
- 依赖资源: 分布式系统资源管理相关资料
---
### 周五Day 5- 综合实践与文档准备
**时间**: 19:00-22:00
**主要任务**
1. **任务1**: YARN调度配置实践
- 预期产出: 不同调度器的配置文件和测试结果
- 时间分配: 1.5小时
- 具体操作: 修改yarn-site.xml配置测试不同调度策略
2. **任务2**: 下周原理文档大纲制定
- 预期产出: YARN调度机制原理文档大纲
- 时间分配: 1小时
- 具体操作: 整理本周学习内容,规划文档结构
3. **任务3**: 周总结与问题整理
- 预期产出: 本周学习总结和待解决问题清单
- 时间分配: 0.5小时
---
## 学习资源配置
| 类型 | 资源列表 |
|------------|--------------------------------------------------------------------------|
| **书籍** | 《Hadoop权威指南》《YARN架构设计与实现》《分布式系统概念与设计》 |
| **工具** | Hadoop集群、YARN Web UI、JConsoleJVM监控 |
| **在线** | Apache YARN文档、Hadoop生态系统教程、分布式调度算法论文 |
## 重点关注问题
### 基于上周遇到的问题
1. **内存不足导致NameNode崩溃**
- 解决方案: 调整JVM堆内存设置优化启动参数
- 监控指标: 内存使用率、GC频率
2. **集群稳定性问题**
- 解决方案: 完善配置文件,加强节点间通信
- 监控指标: 节点存活状态、网络连通性
## 风险管理
1. **YARN配置复杂性**
- 预案: 准备标准配置模板,参考团队配置文件
2. **理论理解难度**
- 预案: 结合实际操作加深理解,多查阅案例分析
3. **时间分配不均**
- 预案: 优先完成高优先级任务,低优先级任务可延后
## 团队协作计划
1. **日常汇报**: 每日18:00前在群内同步学习进度
2. **技术交流**: 主动分享YARN调度相关的学习心得
3. **问题求助**: 遇到技术难点及时向团队成员请教
4. **文档协作**: 配合沈永佳的配置模板发布工作
## 下周准备工作
### 为YARN调度机制原理文档做准备
1. **文档结构规划**
- YARN整体架构介绍
- 调度器类型和工作原理
- 资源分配和管理机制
- 性能优化和故障处理
2. **技术深度要求**
- 包含核心逻辑说明
- 标注关键参数配置
- 提供实际应用案例
- 总结最佳实践经验
---
**计划制定时间**: 2025-10-19
**计划执行周期**: 2025-10-19 至 2025-10-25
**下次计划更新**: 2025-10-26
**特别关注**: 基于第4周内存问题的解决和YARN调度机制的深入学习
Loading…
Cancel
Save