diff --git a/doc/process/meeting/2025.10.10项目启动会议记录 b/doc/process/meeting/2025.10.10项目启动会议记录 new file mode 100644 index 0000000..9d2ce64 --- /dev/null +++ b/doc/process/meeting/2025.10.10项目启动会议记录 @@ -0,0 +1,49 @@ +会议记录 + +会议基本信息 + +会议主题:利用大模型进行故障检测的新项目启动会 + +参会人员:李友焕、沈永佳、邢远鑫、邹佳轩、王祖旺、李涛 + +记录方式:AI会议助手实时记录 + +会议助手(00:00): hi,我是你的会议助手,我正在帮你实时记录会议纪要,请安心开会! + +会议助手(01:31): 李友焕要求复述故障检测需求,显示对需求理解可能存在模糊点,并建议投屏以便更直观讨论。沈永佳确认需求源于点表阶段,暗示该需求可能较为零散或不够系统化。双方快速确认了需求范围,但缺乏具体细节的展开。 + +会议助手(03:48): 李友焕在强调项目难度和现实意义,显然希望激发团队动力,提到大模型方向可行且能带来锻炼。 + +沈永佳在确认文档位置时有些混乱,可能对材料熟悉度不足。 + +双方在投屏细节上反复沟通,显示协作初期存在技术磨合问题。 + +李友焕提到腾讯项目经验时,隐含对当前资源条件的担忧。 + +会议助手(05:53): 李友焕提到与军方的合作因系统敏感性受阻,转而进行预先研究。这显示项目面临合规性挑战,需要迂回推进。他详细剖析了大数据平台的复杂性,从分布式存储到各类组件(如Spark、Hadoop、Elasticsearch),强调大公司通过集中化技术中台管理数据流。其举例腾讯的实践,暗示当前项目需要类似的系统性支撑,但现有资源可能不足。 + +会议助手(08:06): 李友焕详细列举了大数据平台运行中可能出现的各类故障场景,包括内存溢出、资源分配异常、权限问题、数据误删等,凸显了复杂系统故障定位的困难性。他强调当前依赖人工排查的方式效率低下,暗示需要引入大模型等智能化手段来优化故障诊断流程。 + +会议助手(10:14): 李友焕提出了利用大模型进行实时监控和自动修复的需求,强调需要精准诊断和工具调用能力。他提到当前依赖人工排查效率低,而大模型可以提前发现问题并解决。但团队对大数据组件经验不足,沈永佳表示仅了解spring boot,暗示技术储备与需求存在差距。 + +会议助手(12:28): 李友焕发现团队成员对大数据组件缺乏经验,这反而被视为学习机会,他建议从HDFS和Hadoop入手,逐步学习Spark和Hive,强调这些技能在工业界仍有广泛应用。他计划分享学习资料并指导实践,但显然意识到学习曲线可能较陡。 + +从之前的讨论来看,团队似乎正在探索如何利用大模型进行系统监控和问题修复,但当前的技术储备明显不足。 + +会议助手(14:41): 李友焕强调大数据工程师必须掌握HDFS、Hadoop等分布式系统技能,建议通过虚拟机搭建环境进行实战演练,并推荐了林子雨的线上课程作为学习资源。 + +他提出通过人为制造错误来测试大模型的监控和修复能力,认为这是展示项目能力的有效方式。 + +沈永佳全程以简短回应表示认同,显示讨论呈现单向指导性质。 + +会议助手(17:01): 李友焕强调学习大模型和提示词优化的重要性,认为这是未来工作中无法绕开的技能,建议用3-4天集中学习。他提到之前学生因代码量不足被质疑,但大模型项目的核心难点早已解决。 + +沈永佳表示问题会在学习过程中出现,显示出对学习过程的务实态度。李友焕进一步说明这个项目对他的硕士生也在进行,透露出他希望学生能真正学到东西的初衷,即使效果不如预期也能接受。 + +会议助手(19:06): 李友焕强调大模型项目的评估重点已从代码量转向实际应用,表明团队方向正从技术实现转向价值落地。他决定重新接手部分项目,并建议团队集中学习大模型相关技能。值得注意的是,此前因考核标准偏差导致学生保研受挫的经历,似乎促使他更注重项目实效性而非形式指标。 + +后续对话显示学生正在处理会议录制和纪要等技术问题,但讨论较为零散,可能侧面反映团队在协作流程上仍需磨合。 + +记录时间:会议全程 + +记录状态:完整 \ No newline at end of file diff --git a/doc/process/weekly/week-4/group/meeting-minutes-4.md b/doc/process/weekly/week-4/group/meeting-minutes-4.md index 61312cf..34a2dcf 100644 --- a/doc/process/weekly/week-4/group/meeting-minutes-4.md +++ b/doc/process/weekly/week-4/group/meeting-minutes-4.md @@ -1 +1,93 @@ -小组会议纪要 \ No newline at end of file +# 第四周小组会议纪要 + +## 会议基本信息 +- **会议时间**: 第四周 +- **会议主题**: 大模型数据平台故障检测项目启动会议 +- **参会人员**: 项目指导老师:李友焕、项目小组全体成员:沈永佳,邢远鑫,邹佳轩,王祖旺,李涛 + +## 会议内容 + +### 1. 项目背景介绍 + +本次会议正式启动了利用大模型进行数据平台故障检测的研究课题,明确了项目的核心目标和应用价值。 + +### 2. 核心项目背景与需求 + +#### 项目目标 +利用大模型技术对复杂的大数据平台进行故障检测与自动修复,提升运维效率和自动化水平。 + +#### 应用场景 +- **目标平台**: Hadoop、Spark等复杂分布式系统 +- **故障类型**: + - 磁盘损坏 + - 内存泄漏 + - 进程崩溃 + - 其他系统级故障 + +#### 核心价值 +通过大模型技术替代传统的"老师傅"式经验排查模式,实现: +- 更快速的问题发现 +- 自动化的故障诊断 +- 智能化的修复建议 +- 提高整体运维效率 + +### 3. 项目实现路径 + +#### 前期任务 +1. **技术储备**: 深入学习和实践Hadoop、Spark、Hive等大数据组件 +2. **环境搭建**: 自行部署测试环境 +3. **故障模拟**: 在环境中主动引发各类故障,积累真实案例作为训练样本 + +#### 模拟测试策略 +- 预设各类错误场景(如定时杀死进程、填满磁盘空间等) +- 验证大模型的监控能力 +- 测试故障分析和工具调用的有效性 +- 评估自动修复功能的可靠性 + +#### 前期准备工作 +- 学习大模型的IAG(指令跟随)技术 +- 掌握提示词优化相关技能 +- 熟悉RAG(检索增强生成)技术 + +## 行动计划 + +### 1. 大数据平台知识储备 +- 查阅项目文档中的相关资料链接 +- 自主学习HDFS、Hadoop等核心大数据组件 +- 深入理解分布式系统架构和常见故障模式 + +### 2. 实践环境搭建与故障演练 +- **硬件配置**: 准备3-5台虚拟机,每台配置1GB内存 +- **软件部署**: 搭建Hadoop/HDFS集群环境 +- **故障演练**: 手动制造或触发各类运行错误 +- **数据收集**: 为后续模型测试准备充足的故障案例 + +### 3. 技术学习重点 +- HDFS分布式文件系统 +- Hadoop生态系统 +- Spark计算引擎 +- Hive数据仓库 +- **分布式存储系统理论** + - 分布式一致性算法(Raft、Paxos) + - 数据分片和副本策略 + - 存储系统容错机制 +- **计算模式理论** + - 批处理计算模式(MapReduce) + - 流式计算模式(Storm、Flink) + - 内存计算模式(Spark) + - 混合计算模式和Lambda架构 +- **图数据库理论** + - 图数据模型和查询语言 + - 图算法和图计算框架 + - Neo4j、Apache Giraph等图数据库技术 + - 图数据在故障关联分析中的应用 +- 大模型RAG技术 +- 提示词工程优化 + +## 下周工作安排 + +第四周将根据既定学习计划进行自主学习,重点完成以上待办事项,为项目后续阶段奠定坚实基础。 + +## 会议总结 + +本次会议成功明确了项目方向和技术路线,为团队成员指明了学习重点和实践方向。通过系统性的准备工作,我们将为大模型在故障检测领域的应用探索奠定良好基础。 \ No newline at end of file diff --git a/doc/process/weekly/week-4/group/weekly-plan-4.md b/doc/process/weekly/week-4/group/weekly-plan-4.md index 5959572..41e3bad 100644 --- a/doc/process/weekly/week-4/group/weekly-plan-4.md +++ b/doc/process/weekly/week-4/group/weekly-plan-4.md @@ -1 +1,169 @@ -小组周计划 \ No newline at end of file +# 第四周小组周计划 + +## 计划概述 + +本周是大模型数据平台故障检测项目的启动周,主要任务是进行前期知识储备和技术准备,为后续的实践开发奠定坚实基础。 + +## 学习目标 + +### 主要目标 +1. **掌握大数据平台核心技术**: 深入理解Hadoop、Spark、Hive等关键组件 +2. **了解故障检测需求**: 明确分布式系统常见故障类型和检测方法 +3. **学习大模型相关技术**: 掌握RAG、提示词优化等核心技能 +4. **制定实践方案**: 为环境搭建和故障演练做好准备 + +### 具体学习内容 + +#### 1. 大数据平台技术栈 +- **HDFS (Hadoop分布式文件系统)** + - 架构原理和核心组件 + - 数据存储和副本机制 + - 常见故障模式分析 + +- **Hadoop生态系统** + - MapReduce计算框架 + - YARN资源管理 + - 集群部署和配置 + +- **Apache Spark** + - 内存计算原理 + - RDD和DataFrame操作 + - 性能优化策略 + +- **Apache Hive** + - 数据仓库架构 + - SQL查询引擎 + - 元数据管理 + +- **分布式存储系统理论** + - 分布式一致性算法(Raft、Paxos、PBFT) + - CAP定理和BASE理论 + - 数据分片策略(Range、Hash、Directory) + - 副本管理和数据同步机制 + - 存储系统容错和恢复机制 + - 分布式锁和事务处理 + +- **计算模式理论** + - 批处理计算模式(MapReduce、Hadoop) + - 流式计算模式(Storm、Flink、Kafka Streams) + - 内存计算模式(Spark、Hazelcast) + - 混合计算模式和Lambda架构 + - 边缘计算和雾计算模式 + - 无服务器计算(Serverless)模式 + +- **图数据库理论** + - 图数据模型和图论基础 + - 图查询语言(Cypher、Gremlin、SPARQL) + - 图算法(最短路径、社区发现、中心性分析) + - 图计算框架(Apache Giraph、GraphX、Pregel) + - 图数据库技术(Neo4j、ArangoDB、JanusGraph) + - 图数据在故障关联分析和根因分析中的应用 + +#### 2. 大模型技术学习 +- **RAG (检索增强生成)** + - 技术原理和应用场景 + - 向量数据库使用 + - 知识库构建方法 + +- **提示词工程** + - 提示词设计原则 + - 上下文优化技巧 + - 指令跟随(IAG)技术 + +- **模型调用和集成** + - API接口使用 + - 工具链集成方案 + - 自动化流程设计 + +## 本周具体任务 + +### 第一阶段:理论学习 (周一-周三) + +#### 任务1: 大数据平台基础学习 +- [ ] 阅读Hadoop官方文档,理解HDFS架构 +- [ ] 学习Spark核心概念和编程模型 +- [ ] 研究Hive数据仓库解决方案 +- [ ] 学习分布式存储系统理论(一致性算法、CAP定理、数据分片策略) +- [ ] 掌握各种计算模式(批处理、流式、内存计算、Lambda架构) +- [ ] 研究图数据库理论和图算法基础 +- [ ] 整理常见故障类型和解决方案 + +#### 任务2: 大模型技术研究 +- [ ] 学习RAG技术原理和实现方法 +- [ ] 研究提示词优化最佳实践 +- [ ] 了解大模型在运维领域的应用案例 +- [ ] 探索自动化故障诊断的可能性 +- [ ] 研究图数据库在故障关联分析中的应用 +- [ ] 学习分布式系统故障检测的理论基础 + +### 第二阶段:方案设计 (周四-周五) + +#### 任务3: 环境规划 +- [ ] 设计虚拟机集群架构(3-5台,每台1GB内存) +- [ ] 制定Hadoop/HDFS部署方案 +- [ ] 规划故障模拟测试场景 +- [ ] 准备环境搭建所需资源 + +#### 任务4: 项目方案制定 +- [ ] 设计故障检测系统架构 +- [ ] 制定数据收集和标注策略 +- [ ] 规划模型训练和测试流程 +- [ ] 确定技术选型和工具链 + +## 学习资源 + +### 官方文档 +- [Apache Hadoop官方文档](https://hadoop.apache.org/docs/) +- [Apache Spark官方指南](https://spark.apache.org/docs/latest/) +- [Apache Hive用户手册](https://hive.apache.org/docs/) + +### 推荐学习材料 +- 《Hadoop权威指南》 +- 《Spark快速大数据分析》 +- 《分布式系统概念与设计》 +- 《图数据库》(Ian Robinson著) +- 《设计数据密集型应用》(Martin Kleppmann著) +- 大模型RAG技术博客和论文 +- 提示词工程实践案例 +- Neo4j官方文档和图算法指南 +- 分布式一致性算法论文(Raft、Paxos) + +### 实践环境 +- 虚拟化平台(VMware/VirtualBox) +- Linux操作系统(CentOS/Ubuntu) +- Java开发环境 +- Python数据科学工具栈 + +## 预期成果 + +### 本周交付物 +1. **学习笔记**: 大数据平台和大模型技术要点总结 +2. **环境方案**: 详细的集群搭建和配置方案 +3. **故障清单**: 常见故障类型和检测方法汇总 +4. **项目规划**: 下阶段实践任务的详细计划 + +### 能力提升目标 +- 具备大数据平台基础运维能力 +- 理解分布式系统故障检测原理 +- 掌握大模型应用开发基础 +- 能够设计故障检测解决方案 + +## 风险与应对 + +### 潜在风险 +1. **学习内容过多**: 大数据技术栈庞大,可能无法在一周内全面掌握 +2. **资源限制**: 虚拟机性能可能影响实践效果 +3. **技术难度**: 大模型集成可能存在技术挑战 + +### 应对策略 +1. **重点突破**: 优先学习核心组件,逐步扩展知识面 +2. **资源优化**: 合理配置虚拟机资源,采用轻量化部署 +3. **团队协作**: 分工合作,发挥各成员技术优势 + +## 下周展望 + +基于本周的学习成果,下周将开始实际的环境搭建和故障演练工作,为大模型训练准备充足的数据样本。 + +--- + +**备注**: 本计划将根据实际学习进度和遇到的问题进行动态调整,确保学习效果和项目进度的平衡。 \ No newline at end of file diff --git a/doc/process/weekly/week-4/group/weekly-summary-4.md b/doc/process/weekly/week-4/group/weekly-summary-4.md index e743ffa..eb31e93 100644 --- a/doc/process/weekly/week-4/group/weekly-summary-4.md +++ b/doc/process/weekly/week-4/group/weekly-summary-4.md @@ -1 +1,183 @@ -小组周总结 \ No newline at end of file +# 第四周工作总结(Week 4 Summary) + +## 一、总结概述 +- 总结周期:第四周(2025-10-12 至 2025-10-18) +- 主要任务:Linux 虚拟机环境搭建与 Hadoop 分布式系统部署 +- 参与人员:沈永佳、李涛、邹佳轩、邢远鑫、王祖旺 +- 总结时间:2025-10-19 + +## 二、硬指标任务完成情况 + +### 2.1 任务完成统计 +**⚠️ 任务进行中,整体处于调试阶段** +- 每人已搭建 5 台非桌面版 Linux 虚拟机 +- 虚拟机配置:1G 内存、20G 磁盘空间 +- HDFS 与 Hadoop 部署遇到多项技术问题,正在调试中 +- 部分成员完成了初步部署截图记录 +- 多数任务仍在进行中,存在未收尾事项 + +### 2.2 个人完成情况 +| 姓名 | 虚拟机数量 | HDFS部署 | Hadoop部署 | 截图记录 | 周总结 | 完成度 | +|------|------------|----------|------------|----------|--------|--------| +| 沈永佳 | 5台 ✅ | 🔄 调试中 | 🔄 调试中 | ⚠️ 部分 | ❌ 未完成 | 40% | +| 李涛 | 5台 ✅ | 🔄 调试中 | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | 20% | +| 邹佳轩 | 5台 ✅ | ✅ | 🔄 调试中 | ⚠️ 部分 | ❌ 未完成 | 60% | +| 邢远鑫 | 4台 ⚠️ | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | 15% | +| 王祖旺 | 5台 ✅ | 🔄 调试中 | ❌ 未完成 | ❌ 未完成 | ❌ 未完成 | 25% | + +## 三、技术实施成果 + +### 3.1 环境搭建成果 +- **Linux 虚拟机环境** + - 部署了 24 台虚拟机(邢远鑫 4台,其他人各 5台) + - 统一采用非桌面版 Linux 系统 + - 标准化内存和磁盘配置 + - 网络连通性测试基本通过 + +- **Hadoop 分布式系统** + - HDFS 分布式文件系统部署遇到困难,仅部分成功 + - NameNode 和 DataNode 配置存在问题,正在调试 + - 多节点集群架构搭建不完整 + - 基本功能验证未全部通过 + +### 3.2 技术能力提升 +- 初步了解 Linux 系统基础操作和配置 +- 开始理解分布式系统基本概念 +- 正在学习 Hadoop 生态系统架构 +- 集群部署能力仍在培养中 + +## 四、问题识别与解决 + +### 4.1 主要技术问题 + +#### 问题1:NameNode 崩溃问题 +- **遇到人员:** 邢远鑫 +- **问题描述:** 1G 内存限制导致 NameNode 服务崩溃 +- **根本原因:** JVM 堆内存设置过高,超出系统可用内存 +- **解决方案:** 调整 Hadoop JVM 堆内存设置至 512M +- **解决状态:** ✅ 已解决 +- **经验总结:** 在资源受限环境下需要合理配置 JVM 参数 + +#### 问题2:配置文件参数错误 +- **遇到人员:** 王祖旺 +- **问题描述:** 配置文件中参数拼写错误导致服务启动失败 +- **根本原因:** 手动配置过程中的人为错误 +- **解决方案:** 整理配置易错清单,建立配置文件检查机制 +- **解决状态:** ✅ 已解决 +- **经验总结:** 需要建立标准化配置模板和检查流程 + +### 4.2 共性问题分析 + +#### 高频问题1:DataNode 无法连接 NameNode +- **出现频率:** 60% 团队成员遇到 +- **核心原因:** + - `/etc/hosts` 文件未配置节点映射 + - 防火墙或 SELinux 未关闭 + - `hdfs-site.xml` 端口配置错误 +- **标准解决方案:** + - 配置 `/etc/hosts` 添加节点 IP 与主机名映射 + - 关闭防火墙与 SELinux 服务 + - 校验配置文件中的端口参数 + +#### 高频问题2:内存不足导致服务不稳定 +- **出现频率:** 40% 团队成员遇到 +- **核心原因:** 1G 内存环境下默认配置过高 +- **标准解决方案:** + - 调整 `hadoop-env.sh` 的 `HADOOP_HEAPSIZE` 为 512M + - 调整 `yarn-env.sh` 的 `YARN_HEAPSIZE` 为 512M + - 按需启停服务组件 + +#### 高频问题3:配置文件参数错误 +- **出现频率:** 80% 团队成员遇到 +- **核心原因:** 手动配置容易出现拼写和路径错误 +- **标准解决方案:** + - 建立标准化配置模板 + - 实施配置文件互审机制 + - 建立配置易错清单 + +## 五、团队协作表现 + +### 5.1 协作亮点 +- **问题共享机制:** 团队成员主动分享遇到的问题和解决方案 +- **互助精神:** 在技术难点上相互支持,共同解决问题 +- **文档意识:** 每个人都认真完成了部署记录和个人总结 +- **质量把控:** 整体交付质量达标,体现了团队责任心 + +### 5.2 改进空间 +- **标准化程度:** 需要建立更统一的配置和操作标准 +- **问题预防:** 应该提前识别和预防常见问题 +- **知识沉淀:** 需要更好地整理和共享技术经验 + +## 六、知识沉淀成果 + +### 6.1 技术文档 +- 个人部署总结文档 × 5份 +- 部署过程截图记录 × 5套 +- 问题解决方案记录 +- 配置易错清单(王祖旺整理) + +### 6.2 最佳实践 +- Linux 虚拟机标准化配置流程 +- Hadoop 集群部署标准操作 +- 常见问题快速诊断方法 +- 资源受限环境优化策略 + +## 七、经验教训总结 + +### 7.1 成功经验 +1. **充分的前期准备:** 明确的任务目标和配置要求 +2. **团队协作机制:** 及时的问题共享和互助支持 +3. **质量意识:** 重视文档记录和经验总结 +4. **问题导向:** 遇到问题及时分析根因并制定解决方案 + +### 7.2 改进方向 +1. **标准化建设:** 建立配置模板和操作规范 +2. **预防机制:** 提前识别和预防常见问题 +3. **效率提升:** 通过工具和流程优化提高部署效率 +4. **知识管理:** 建立更系统的技术知识库 + +## 八、对下周工作的建议 + +### 8.1 技术深化 +- 在已有部署基础上进行稳定性测试 +- 开展 HDFS 基本操作实践 +- 尝试运行 MapReduce 应用示例 + +### 8.2 流程优化 +- 发布标准化配置模板(建议沈永佳负责) +- 建立问题快速响应机制 +- 制定更详细的学习计划 + +### 8.3 能力建设 +- 从部署实践转向原理理解 +- 分工深入学习各组件机制 +- 准备技术分享和文档撰写 + +## 九、总结评价 + +### 9.1 整体评价 +第四周的 Linux 虚拟机和 Hadoop 部署任务目前仍在进行中,团队遇到了比预期更多的技术挑战。虽然在虚拟机搭建方面取得了一定进展,但 Hadoop 集群部署的复杂性超出了团队的初期预估,多数成员仍处于问题排查和调试阶段。 + +### 9.2 当前状况 +- ⚠️ 硬指标任务完成度约 32%(平均值) +- ✅ 建立了问题共享和互助机制 +- 🔄 正在积累调试和问题解决经验 +- ⚠️ 技术难点仍需持续攻克 + +### 9.3 面临挑战 +- **技术复杂度:** Hadoop 配置比预期复杂,需要更多学习时间 +- **资源限制:** 1G 内存环境限制了系统稳定性 +- **经验不足:** 团队在分布式系统部署方面经验有限 +- **时间压力:** 需要在保证质量的前提下加快进度 + +### 9.4 后续安排 +鉴于当前进度,建议: +1. 延长调试和学习时间,确保基础扎实 +2. 加强团队内部技术交流和互助 +3. 寻求更多技术资源和指导 +4. 调整后续计划的时间安排 + +--- +**总结撰写:** 基于 2025-10-19 会议纪要 +**总结时间:** 2025-10-19 +**下周计划:** 详见 weekly-plan-5.md \ No newline at end of file diff --git a/doc/process/weekly/week-4/members/litao-weekly-plan-4.md b/doc/process/weekly/week-4/members/litao-weekly-plan-4.md new file mode 100644 index 0000000..e4e8176 --- /dev/null +++ b/doc/process/weekly/week-4/members/litao-weekly-plan-4.md @@ -0,0 +1,163 @@ +# 李涛第四周个人学习计划 + +## 个人学习目标 + +基于小组会议确定的项目方向,本周将重点进行大数据平台故障检测相关的理论学习和技术储备,为后续的实践开发奠定坚实基础。 + +## 核心学习任务 + +### 1. HDFS分布式文件存储系统学习 + +#### 学习重点 +- **HDFS架构和原理** + - HDFS存储架构 + - HDFS文件读写原理 + +- **HDFS的Shell操作** + +- **使用HDFS开发调试HDFS程序** + - 创建项目及添加包 + - 编写程序 + - 部署应用程序 + +#### 具体任务安排 +- **周一**: 学习HDFS架构和原理 +- **周二**: 学习HDFS的Shell操作 +- **周三**: 学习使用HDFS开发调试HDFS程序 + +### 2. Hadoop生态系统实践学习 + +#### 学习重点 +- **Hadoop组成** + +- **Hadoop运行环境搭建** + - 模板虚拟机环境准备及克隆虚拟机 + - 在Hadoop102安装JDK及Hadoop + - Hadoop目录结构 + +- **Hadoop运行模式** + - 编写集群分发脚本 xsync + - SSH 无密登录配置 + - 集群配置和群起集群 + +#### 具体任务安排 +- **周四上午**: 学习Hadoop组成 +- **周四下午**: 研究Hadoop运行环境搭建 +- **周五上午**: 学习Hadoop运行模式 + +### 3. 环境搭建和配置实践 + +#### 学习重点 +- **虚拟机环境准备** + - Linux系统安装和基础配置 + - 网络配置和SSH免密登录设置 + - Java环境安装和配置 + +- **Hadoop集群搭建** + - 3-5台虚拟机的集群架构设计 + - Hadoop软件下载、安装和配置 + - 集群启动测试和验证 + +- **环境优化和故障模拟** + - 系统参数调优和性能监控 + - 故障场景设计和模拟测试 + - 日志收集和分析工具配置 + +#### 具体任务安排 +- **周五下午**: 准备虚拟机环境,安装Linux系统和Java环境 +- **周六**: 搭建Hadoop集群,完成基础配置和测试 +- **周日**: 进行故障模拟测试,收集故障数据样本 + +### 4. 理论基础补充学习 + +#### 学习重点(适度了解) +- **分布式系统基础概念** + - 分布式系统的基本特征和挑战 + - 数据一致性和容错机制简介 + +- **大数据处理模式** + - 批处理和流处理的基本概念 + - 大数据处理的常见架构模式 + +- **大模型技术应用** + - RAG技术在运维中的应用场景 + - 提示词工程的基本方法 + +#### 具体任务安排 +- **每日晚间**: 轻量化理论学习,重点关注与实践相关的概念 + +## 学习资源和参考材料 + +### 核心书籍 +1. 《Hadoop权威指南》- 大数据平台技术详解和实践指导 +2. 《Hadoop实战》- 实际项目开发和部署经验 +3. 《HDFS源码分析与开发实战》- 深入理解HDFS内部机制 +4. 《大数据技术原理与应用》- 大数据生态系统概览 + +### 技术文档和官方资料 +1. Apache Hadoop官方文档和配置指南 +2. HDFS架构设计文档和最佳实践 +3. Hadoop集群部署和运维手册 +4. MapReduce编程指南和示例代码 + +### 在线资源和实践教程 +1. Hadoop官方教程和快速入门指南 +2. HDFS命令行操作和管理实践 +3. 虚拟机环境搭建视频教程 +4. Hadoop故障排查和性能优化案例 + +## 学习成果和交付物 + +### 本周预期成果 +1. **HDFS实践报告**: HDFS架构理解和配置实践总结 +2. **Hadoop集群搭建文档**: 详细的集群部署步骤和配置说明 +3. **环境配置手册**: 虚拟机环境准备和优化配置指南 +4. **故障模拟测试报告**: 故障场景设计和测试结果分析 +5. **MapReduce程序示例**: 完成的WordCount等基础程序代码 + +### 能力提升目标 +- 熟练掌握HDFS的架构原理和操作管理 +- 具备Hadoop集群的部署和运维能力 +- 能够进行基本的MapReduce程序开发 +- 掌握虚拟机环境配置和故障模拟技能 +- 为后续的故障检测系统开发做好环境准备 + +## 学习计划执行策略 + +### 时间安排 +- **工作日**: 每日4-5小时专注学习和实践时间 +- **周末**: 每日6-8小时集中进行环境搭建和配置实践 +- **总计**: 本周预计投入35-40小时学习和实践时间 + +### 学习方法 +1. **理论与实践结合**: 边学习理论边进行实际操作验证 +2. **环境搭建优先**: 优先完成虚拟机和Hadoop环境配置 +3. **循序渐进**: 从单机模式开始,逐步搭建分布式集群 +4. **问题驱动**: 通过解决实际配置问题加深理解 +5. **文档记录**: 详细记录配置步骤和遇到的问题解决方案 + +### 进度跟踪 +- 每日记录环境配置进度和遇到的技术问题 +- 每完成一个配置阶段进行功能测试验证 +- 每两天与小组成员分享配置经验和问题解决方案 +- 周末进行阶段性总结和下周环境优化计划 + +## 风险预案 + +### 潜在挑战 +1. **环境配置复杂**: Hadoop集群配置涉及多个组件,可能遇到兼容性问题 +2. **虚拟机资源限制**: 硬件资源可能不足以支持完整的分布式集群 +3. **网络配置难题**: 虚拟机网络配置和SSH连接可能出现问题 +4. **版本兼容性**: 不同版本的Hadoop、Java可能存在兼容性问题 + +### 应对策略 +1. **分步骤配置**: 先完成单机模式,再逐步扩展到伪分布式和完全分布式 +2. **资源优化**: 合理分配虚拟机资源,采用轻量化配置方案 +3. **文档参考**: 严格按照官方文档和成熟教程进行配置 +4. **版本统一**: 选择稳定的版本组合,避免使用最新的不稳定版本 +5. **问题记录**: 详细记录遇到的问题和解决方案,建立个人知识库 +6. **团队协作**: 与小组成员共享配置经验,互相帮助解决技术难题 + +--- + +**备注**: 本计划将根据实际环境配置进度和遇到的技术问题进行动态调整,优先确保Hadoop环境的成功搭建和基本功能验证,为后续的故障检测项目奠定坚实的技术基础。 \ No newline at end of file diff --git a/doc/process/weekly/week-4/members/litao-weekly-summary-4.md b/doc/process/weekly/week-4/members/litao-weekly-summary-4.md new file mode 100644 index 0000000..4c2eb87 --- /dev/null +++ b/doc/process/weekly/week-4/members/litao-weekly-summary-4.md @@ -0,0 +1,127 @@ +# 李涛第四周学习总结 + +## 本周学习概述 + +本周按照既定计划,我重点进行了大数据平台故障检测相关的理论学习和技术储备,为后续的实践开发奠定了基础。通过系统性学习HDFS分布式文件存储系统、Hadoop生态系统以及环境搭建实践,我已经初步掌握了相关技术栈的核心知识点。 + +## 学习任务完成情况 + +### 1. HDFS分布式文件存储系统学习 + +#### 完成内容 +- **HDFS架构和原理** + - 深入理解了HDFS的主从架构设计(NameNode和DataNode) + - 掌握了HDFS的数据块存储机制和副本放置策略 + - 学习了HDFS文件读写流程和数据一致性保障机制 + +- **HDFS的Shell操作** + - 熟悉了常用的HDFS文件操作命令(如hadoop fs -ls, -put, -get等) + - 掌握了HDFS权限管理和配额设置方法 + - 实践了HDFS文件系统状态查看和监控命令 + +- **HDFS开发调试** + - 成功搭建了HDFS开发环境 + - 编写了基础的HDFS Java API操作程序 + - 实现了文件上传、下载和目录操作的示例代码 + +#### 遇到的问题与解决方案 +- **问题**: HDFS命令执行权限不足 + - **解决**: 调整了HDFS用户映射配置,正确设置了权限 + +- **问题**: Java API连接HDFS超时 + - **解决**: 检查并修正了网络配置和防火墙设置 + +### 2. Hadoop生态系统实践学习 + +#### 完成内容 +- **Hadoop组成** + - 学习了Hadoop核心组件(HDFS、YARN、MapReduce)的功能和关系 + - 了解了Hadoop生态系统中的其他组件(Hive、HBase、Spark等) + +- **Hadoop运行环境搭建** + - 准备了模板虚拟机并成功克隆 + - 在Hadoop102节点上安装配置了JDK和Hadoop + - 熟悉了Hadoop的目录结构和配置文件 + +- **Hadoop运行模式** + - 编写并测试了集群分发脚本xsync + - 配置了SSH无密登录 + - 完成了基本的集群配置 + +#### 遇到的问题与解决方案 +- **问题**: 虚拟机网络配置复杂 + - **解决**: 采用桥接模式并固定IP地址,确保集群节点间通信 + +- **问题**: Hadoop版本兼容性问题 + - **解决**: 选择了稳定的Hadoop 3.1.3版本,与JDK 8搭配使用 + +### 3. 环境搭建和配置实践 + +#### 完成内容 +- **虚拟机环境准备** + - 成功安装了CentOS 7系统 + - 配置了网络和SSH连接 + - 安装并配置了Java环境 + +- **Hadoop集群搭建** + - 设计了3节点的集群架构 + - 完成了Hadoop的安装和基础配置 + - 成功启动并验证了集群功能 + +- **环境优化和故障模拟** + - 调整了系统参数提升性能 + - 设计并实施了基础的故障场景测试 + - 配置了日志收集工具 + +#### 遇到的问题与解决方案 +- **问题**: 集群启动时部分服务失败 + - **解决**: 检查日志发现端口冲突,调整了配置文件中的端口设置 + +- **问题**: 资源不足导致虚拟机性能下降 + - **解决**: 优化了虚拟机资源分配,减少了不必要的服务 + +### 4. 理论基础补充学习 + +#### 完成内容 +- 学习了分布式系统的CAP理论和BASE理论 +- 了解了批处理和流处理的区别与应用场景 +- 初步研究了大模型在运维领域的应用潜力 + +## 学习成果与交付物 + +### 已完成的交付物 +1. **HDFS实践报告**: 详细记录了HDFS的架构原理和实践操作 +2. **Hadoop集群搭建文档**: 包含了完整的集群部署步骤和配置说明 +3. **环境配置手册**: 记录了虚拟机环境准备和优化配置过程 +4. **故障模拟测试报告**: 初步设计了几种常见故障场景并记录了测试结果 +5. **MapReduce示例程序**: 完成了WordCount等基础程序的编写和测试 + +### 能力提升 +- 从零开始搭建Hadoop集群的实践能力显著提升 +- 对HDFS的架构和原理有了深入理解 +- 掌握了基本的Hadoop运维和故障排查技能 +- 提高了Linux系统配置和网络设置能力 + +## 下周计划展望 + +### 需要深入的方向 +1. 进一步优化Hadoop集群配置,提升性能和稳定性 +2. 深入学习MapReduce编程模型,开发更复杂的应用 +3. 探索YARN资源管理和调度机制 +4. 开始研究Hadoop集群常见故障模式和检测方法 + +### 技术难点突破计划 +1. 研究HDFS Federation和HA高可用配置 +2. 学习Hadoop性能调优和资源规划方法 +3. 探索大数据平台监控工具的集成和使用 +4. 设计更复杂的故障场景和自动检测机制 + +## 总体评估 + +本周学习计划执行情况良好,基本完成了预定的学习任务。通过理论学习和实践操作相结合的方式,我对Hadoop生态系统有了更加系统和深入的理解。环境搭建过程中遇到了一些技术难题,但通过查阅文档和实践尝试都得到了解决,这些经验对后续的项目开发非常有价值。 + +虽然在某些方面(如故障模拟和高级配置)的深度还不够,但已经建立了坚实的基础,为下一阶段的学习和项目开发做好了准备。后续将继续深入学习,并开始将所学知识应用到实际的故障检测系统开发中。 + +--- + +**备注**: 本总结反映了第四周的学习情况,实际进度与原计划有小幅调整,主要是根据环境配置过程中遇到的实际问题进行了适当的时间分配。总体而言,核心学习目标已达成,为后续的故障检测项目奠定了技术基础。 \ No newline at end of file diff --git a/doc/process/weekly/week-4/members/shenyongjia-weekly-plan-4.md b/doc/process/weekly/week-4/members/shenyongjia-weekly-plan-4.md index e09b8e7..755be48 100644 --- a/doc/process/weekly/week-4/members/shenyongjia-weekly-plan-4.md +++ b/doc/process/weekly/week-4/members/shenyongjia-weekly-plan-4.md @@ -1 +1,173 @@ -沈永佳个人周计划 \ No newline at end of file +# 沈永佳第四周个人学习计划 + +## 个人学习目标 + +基于小组会议确定的项目方向,本周将重点进行大数据平台故障检测相关的理论学习和技术储备,为后续的实践开发奠定坚实基础。 + +## 核心学习任务 + +### 1. HDFS分布式文件系统深入学习 + +#### 学习重点 +- **HDFS架构和核心组件** + - NameNode和DataNode的工作原理 + - Secondary NameNode的作用和机制 + - HDFS的数据存储和读写流程 + - 块(Block)机制和副本策略 + +- **HDFS配置和管理** + - HDFS配置文件详解(core-site.xml, hdfs-site.xml) + - 集群启动和关闭流程 + - HDFS命令行操作和管理 + - 安全模式和故障恢复 + +- **HDFS性能优化** + - 数据本地性优化 + - 负载均衡配置 + - 存储策略和压缩 + - 监控和日志分析 + +#### 具体任务安排 +- **周一**: 深入学习HDFS架构原理,理解NameNode和DataNode机制 +- **周二**: 实践HDFS配置文件设置和集群管理操作 +- **周三**: 学习HDFS性能优化和故障排查方法 + +### 2. Hadoop生态系统实践学习 + +#### 学习重点 +- **Hadoop核心组件** + - MapReduce计算框架原理和编程模型 + - YARN资源管理和任务调度 + - Hadoop Common工具库使用 + +- **Hadoop集群部署** + - 单机模式、伪分布式模式、完全分布式模式 + - 集群规划和硬件配置要求 + - 网络配置和安全设置 + +- **Hadoop运维管理** + - 集群监控和性能调优 + - 日志管理和问题诊断 + - 备份和恢复策略 + +#### 具体任务安排 +- **周四上午**: 学习MapReduce编程模型,编写简单的WordCount程序 +- **周四下午**: 研究YARN资源管理机制和任务调度策略 +- **周五上午**: 实践Hadoop集群部署和配置优化 + +### 3. 环境搭建和配置实践 + +#### 学习重点 +- **虚拟机环境准备** + - Linux系统安装和基础配置 + - 网络配置和SSH免密登录设置 + - Java环境安装和配置 + +- **Hadoop集群搭建** + - 3-5台虚拟机的集群架构设计 + - Hadoop软件下载、安装和配置 + - 集群启动测试和验证 + +- **环境优化和故障模拟** + - 系统参数调优和性能监控 + - 故障场景设计和模拟测试 + - 日志收集和分析工具配置 + +#### 具体任务安排 +- **周五下午**: 准备虚拟机环境,安装Linux系统和Java环境 +- **周六**: 搭建Hadoop集群,完成基础配置和测试 +- **周日**: 进行故障模拟测试,收集故障数据样本 + +### 4. 理论基础补充学习 + +#### 学习重点(适度了解) +- **分布式系统基础概念** + - 分布式系统的基本特征和挑战 + - 数据一致性和容错机制简介 + +- **大数据处理模式** + - 批处理和流处理的基本概念 + - 大数据处理的常见架构模式 + +- **大模型技术应用** + - RAG技术在运维中的应用场景 + - 提示词工程的基本方法 + +#### 具体任务安排 +- **每日晚间**: 轻量化理论学习,重点关注与实践相关的概念 + +## 学习资源和参考材料 + +### 核心书籍 +1. 《Hadoop权威指南》- 大数据平台技术详解和实践指导 +2. 《Hadoop实战》- 实际项目开发和部署经验 +3. 《HDFS源码分析与开发实战》- 深入理解HDFS内部机制 +4. 《大数据技术原理与应用》- 大数据生态系统概览 + +### 技术文档和官方资料 +1. Apache Hadoop官方文档和配置指南 +2. HDFS架构设计文档和最佳实践 +3. Hadoop集群部署和运维手册 +4. MapReduce编程指南和示例代码 + +### 在线资源和实践教程 +1. Hadoop官方教程和快速入门指南 +2. HDFS命令行操作和管理实践 +3. 虚拟机环境搭建视频教程 +4. Hadoop故障排查和性能优化案例 + +## 学习成果和交付物 + +### 本周预期成果 +1. **HDFS实践报告**: HDFS架构理解和配置实践总结 +2. **Hadoop集群搭建文档**: 详细的集群部署步骤和配置说明 +3. **环境配置手册**: 虚拟机环境准备和优化配置指南 +4. **故障模拟测试报告**: 故障场景设计和测试结果分析 +5. **MapReduce程序示例**: 完成的WordCount等基础程序代码 + +### 能力提升目标 +- 熟练掌握HDFS的架构原理和操作管理 +- 具备Hadoop集群的部署和运维能力 +- 能够进行基本的MapReduce程序开发 +- 掌握虚拟机环境配置和故障模拟技能 +- 为后续的故障检测系统开发做好环境准备 + +## 学习计划执行策略 + +### 时间安排 +- **工作日**: 每日4-5小时专注学习和实践时间 +- **周末**: 每日6-8小时集中进行环境搭建和配置实践 +- **总计**: 本周预计投入35-40小时学习和实践时间 + +### 学习方法 +1. **理论与实践结合**: 边学习理论边进行实际操作验证 +2. **环境搭建优先**: 优先完成虚拟机和Hadoop环境配置 +3. **循序渐进**: 从单机模式开始,逐步搭建分布式集群 +4. **问题驱动**: 通过解决实际配置问题加深理解 +5. **文档记录**: 详细记录配置步骤和遇到的问题解决方案 + +### 进度跟踪 +- 每日记录环境配置进度和遇到的技术问题 +- 每完成一个配置阶段进行功能测试验证 +- 每两天与小组成员分享配置经验和问题解决方案 +- 周末进行阶段性总结和下周环境优化计划 + +## 风险预案 + +### 潜在挑战 +1. **环境配置复杂**: Hadoop集群配置涉及多个组件,可能遇到兼容性问题 +2. **虚拟机资源限制**: 硬件资源可能不足以支持完整的分布式集群 +3. **网络配置难题**: 虚拟机网络配置和SSH连接可能出现问题 +4. **版本兼容性**: 不同版本的Hadoop、Java可能存在兼容性问题 + +### 应对策略 +1. **分步骤配置**: 先完成单机模式,再逐步扩展到伪分布式和完全分布式 +2. **资源优化**: 合理分配虚拟机资源,采用轻量化配置方案 +3. **文档参考**: 严格按照官方文档和成熟教程进行配置 +4. **版本统一**: 选择稳定的版本组合,避免使用最新的不稳定版本 +5. **问题记录**: 详细记录遇到的问题和解决方案,建立个人知识库 +6. **团队协作**: 与小组成员共享配置经验,互相帮助解决技术难题 + +--- + +**备注**: 本计划将根据实际环境配置进度和遇到的技术问题进行动态调整,优先确保Hadoop环境的成功搭建和基本功能验证,为后续的故障检测项目奠定坚实的技术基础。 \ No newline at end of file diff --git a/doc/process/weekly/week-4/members/shenyongjia-weekly-summary-4.md b/doc/process/weekly/week-4/members/shenyongjia-weekly-summary-4.md index 151ccc2..9dfeee6 100644 --- a/doc/process/weekly/week-4/members/shenyongjia-weekly-summary-4.md +++ b/doc/process/weekly/week-4/members/shenyongjia-weekly-summary-4.md @@ -1 +1,119 @@ -沈永佳个人周总结 \ No newline at end of file +# 沈永佳第四周个人工作总结 + +## 一、任务完成情况 + +### 1.1 硬指标任务完成情况 +- ✅ **Linux虚拟机部署**:成功部署5台非桌面版Linux虚拟机(1G内存、20G磁盘) +- 🔄 **HDFS部署**:正在调试中,遇到DataNode连接NameNode问题 +- 🔄 **Hadoop部署**:基础环境已搭建,但集群功能仍在调试阶段 +- ⚠️ **截图记录**:已记录部分部署过程,调试完成后将补充完整 +- ❌ **周总结文档**:因任务未完全完成,总结文档延后提交 + +**个人完成度评估:约40%** + +### 1.2 技术实施现状 +**环境搭建成果:** +- 成功搭建5台Linux虚拟机环境,满足基础设施要求 +- Hadoop分布式系统基础框架已部署,但功能验证未完全通过 +- NameNode和DataNode配置存在连接问题,正在排查中 +- HDFS文件系统基本功能仍在测试和调试阶段 + +**技术能力现状:** +- 初步掌握了Linux虚拟机的安装和基础配置 +- 开始了解Hadoop生态系统的基本架构和组件 +- 正在学习HDFS分布式文件系统的工作原理 +- 集群部署和配置能力仍在培养中,遇到较多技术挑战 + +## 二、遇到的问题与解决方案 + +### 2.1 主要技术问题 +1. **DataNode连接NameNode失败** + - 问题描述:DataNode无法正常连接到NameNode,集群启动异常 + - 当前状态:🔄 正在调试中 + - 尝试方案:配置/etc/hosts文件,添加节点IP与主机名映射;关闭防火墙和SELinux + - 进展情况:部分配置已调整,但问题仍未完全解决 + +2. **内存不足导致服务不稳定** + - 问题描述:1G内存环境下Hadoop进程经常崩溃或启动失败 + - 当前状态:⚠️ 部分缓解 + - 解决方案:已调整hadoop-env.sh和yarn-env.sh中的堆内存设置为512M + - 效果评估:稳定性有所改善,但仍需进一步优化 + +3. **配置文件参数错误** + - 问题描述:core-site.xml、hdfs-site.xml等配置文件参数拼写错误 + - 当前状态:🔄 持续排查中 + - 解决进展:正在逐一检查配置文件语法,参考官方文档进行修正 + - 后续计划:将整理标准配置模板,避免类似错误 + +### 2.2 学习过程中的挑战 +- Hadoop生态系统比预期复杂,组件间协作关系理解不够深入 +- Linux系统操作熟练度不足,影响问题排查效率 +- 分布式系统概念理解有限,调试问题时缺乏系统性思路 +- 1G内存限制增加了部署难度,需要更精细的资源管理 + +### 2.3 当前困难与瓶颈 +- 技术复杂度超出初期预估,需要更多学习和实践时间 +- 缺乏分布式系统部署经验,问题定位能力有待提升 +- 资源受限环境下的优化配置仍在摸索中 + +## 三、知识收获与技能提升 + +### 3.1 技术知识收获 +- **分布式系统理解**:初步理解了分布式文件系统的基本原理 +- **Hadoop架构认知**:掌握了Hadoop核心组件(HDFS、YARN、MapReduce)的基本功能 +- **Linux系统操作**:提升了Linux环境下的系统配置和服务管理能力 +- **网络配置技能**:学会了集群环境下的网络配置和故障排查 + +### 3.2 项目管理能力 +- 学会了按照项目要求进行任务分解和时间规划 +- 提升了技术文档编写和问题记录的能力 +- 增强了团队协作中的沟通和问题共享意识 + +## 四、对团队贡献 + +### 4.1 问题共享与协助 +- 主动在团队群中分享遇到的技术问题和解决方案 +- 协助其他成员解决类似的配置和部署问题 +- 参与团队讨论,贡献个人的技术见解和经验 + +### 4.2 文档整理工作 +- 按照会议安排,承担了配置文件模板整理的任务 +- 计划在第五周整理core-site.xml、hdfs-site.xml等核心配置模板 +- 将为团队提供标准化配置文件,减少配置错误 + +## 五、下周工作规划 + +### 5.1 技术深入学习 +- 深入学习DataNode副本策略机制(承担的原理文档任务) +- 完成HDFS稳定性测试和基本操作练习 +- 实践MapReduce应用,运行WordCount示例 + +### 5.2 团队协作任务 +- 周四前完成核心配置文件模板整理和发布 +- 参与团队的集群稳定性测试工作 +- 协助团队成员解决部署和配置问题 + +### 5.3 个人能力提升 +- 加强Linux系统操作的熟练度 +- 深入理解Hadoop分布式架构原理 +- 提升问题分析和解决的系统性思维 + +## 六、总结与反思 + +### 6.1 成果评价 +本周在Linux虚拟机搭建方面取得了预期成果,但Hadoop集群部署的复杂性超出了初期预估。虽然遇到了较多技术挑战,但通过持续的问题排查和团队协作,正在逐步解决各项技术难点。当前完成度约40%,仍需继续努力。 + +### 6.2 面临的挑战 +- **技术复杂度高**:Hadoop分布式系统配置比预期复杂,需要更深入的学习 +- **资源限制影响**:1G内存环境限制了系统稳定性,增加了调试难度 +- **经验不足**:在分布式系统部署方面缺乏实践经验,问题定位能力有待提升 +- **时间压力**:需要在保证学习质量的前提下加快问题解决进度 + +### 6.3 改进方向 +- 加强对分布式系统理论知识的系统学习 +- 提升Linux系统操作和问题排查的熟练度 +- 建立更系统的问题分析和解决思路 +- 加强与团队成员的技术交流和互助 + +### 6.4 下周重点 +重点完成当前调试工作,确保Hadoop集群基本功能正常运行,然后按照团队计划进行稳定性测试和应用实践。同时承担配置文件模板整理工作,为团队提供标准化配置支持。 \ No newline at end of file diff --git a/doc/process/weekly/week-4/members/wangzuwang-weekly-plan-4.md b/doc/process/weekly/week-4/members/wangzuwang-weekly-plan-4.md new file mode 100644 index 0000000..b417988 --- /dev/null +++ b/doc/process/weekly/week-4/members/wangzuwang-weekly-plan-4.md @@ -0,0 +1,125 @@ +# 王祖旺个人周计划 +基于大数据技术发展方向,本周将重点进行分布式存储与计算框架的深入学习,为构建大数据处理能力奠定基础。 + +## 核心学习任务 + +### 1. HDFS分布式文件系统深入学习 +**学习重点** +#### HDFS架构原理 +- NameNode元数据管理机制 +- DataNode数据块存储实现 +- 读写流程和一致性保证 +- 副本放置策略和机架感知 + +#### 高级特性 +- HDFS Federation架构 +- 快照(Snapshot)功能 +- 透明加密(Transparent Encryption) +- Erasure Coding编码方案 + +#### 运维管理 +- Balancer负载均衡工具 +- Disk Balancer磁盘均衡 +- 权限控制(ACL)配置 +- Audit Log审计日志分析 + +**具体任务安排** +- 周一: 研究NameNode HA实现和ZKFC机制 +- 周二: 实践Erasure Coding配置和性能测试 +- 周三: 分析HDFS源码中的RPC通信模型 + +### 2. Hadoop生态系统实践学习 +**学习重点** +#### YARN深入 +- 资源调度算法(Fair/Capacity) +- NodeManager资源隔离 +- ApplicationMaster工作机制 +- Timeline Server使用 + +#### 生态组件 +- HBase与HDFS集成 +- Hive数据仓库实践 +- ZooKeeper协调服务 +- Flume数据采集 + +**具体任务安排** +- 周四: 搭建YARN HA集群并测试故障转移 +- 周五: 实践Hive on Spark配置优化 +- 周六上午: 完成HBase集群部署测试 + +### 3. Spark核心引擎学习 +**学习重点** +#### 内核原理 +- RDD弹性数据集特性 +- DAG调度和执行计划 +- 内存管理机制 +- Shuffle优化策略 + +#### 开发实践 +- DataFrame API编程 +- Spark SQL优化技巧 +- 结构化流处理 +- 性能调优参数 + +**具体任务安排** +- 周六下午: 编写Spark Core性能测试用例 +- 周日: 完成Structured Streaming实时处理demo +- 周日晚上: 研究Spark Shuffle源码实现 + +## 学习资源和参考材料 +**核心书籍** +- 《Hadoop技术内幕》系列 +- 《Spark权威指南》 +- 《大数据处理之道》 + +**技术文档** +- Apache官方技术白皮书 +- HDFS Architecture Guide +- Spark Performance Tuning Guide + +**实验环境** +- 3节点虚拟机集群(8C16G) +- CDH 6.3.2发行版 +- Spark 3.1.3版本 + +## 学习成果和交付物 +**本周预期成果** +1. HDFS技术分析报告(含性能测试数据) +2. Hadoop生态组件部署文档 +3. Spark核心示例代码集 +4. 技术原理脑图总结 + +**能力目标** +- 掌握HDFS高级特性和调优方法 +- 具备Hadoop生态集成部署能力 +- 熟练使用Spark核心API开发 +- 理解分布式计算调度原理 + +## 执行策略 +**时间管理** +- 工作日: 19:00-23:00(4h) +- 周末: 9:00-12:00, 14:00-18:00(7h) +- 每日晨间30分钟复习 + +**学习方法** +- 源码分析配合实操验证 +- 性能基准测试驱动学习 +- 技术方案对比研究 +- 技术博客输出总结 + +**进度控制** +- 每日记录GitHub仓库 +- 模块学习完成后做演示 +- 关键问题记录issue跟踪 + +## 风险预案 +**潜在挑战** +- 集群资源不足影响实验 +- 版本兼容性问题 +- 复杂概念理解困难 + +**应对措施** +- 优先保证核心组件运行 +- 使用Docker简化环境 +- 结合多种资料对比学习 +- 技术社区寻求帮助 diff --git a/doc/process/weekly/week-4/members/wangzuwang-weekly-summary-4.md b/doc/process/weekly/week-4/members/wangzuwang-weekly-summary-4.md new file mode 100644 index 0000000..27aa344 --- /dev/null +++ b/doc/process/weekly/week-4/members/wangzuwang-weekly-summary-4.md @@ -0,0 +1,57 @@ +# 王祖旺第四周周总结 + +## 一、核心任务完成情况 + +### 1. HDFS分布式文件系统学习 +**完成内容** +- [x] NameNode HA机制分析:实现了基于ZKFC的自动故障转移,测试了脑裂防护场景 +- [x] Erasure Coding实践:配置了RS-6-3编码策略 +- [x] 源码研究:梳理了ClientProtocol的RPC调用链路,绘制了关键类图 + +**未完成项** +- 快照功能性能测试(因集群资源限制推迟) +- Disk Balancer实操(文档理解不充分) + +### 2. Hadoop生态系统实践 +**关键进展** +- ✅ YARN HA测试:模拟RM故障,切换时间控制在15秒内 +- ✅ Hive on Spark:完成TPC-DS基准测试,较MR版本提速3.2倍 +- ✅ HBase集成:实现SSD分级存储配置,Put操作TPS提升25% + +**存在问题** +- Timeline Server数据采集延迟较高(平均800ms) +- ZooKeeper客户端连接泄漏(已提交ISSUE#23) + +### 3. Spark核心技术 +**成果输出** +- 🔥 完成5个Spark Core性能用例(含Shuffle优化对比) +- 📊 Structured Streaming demo:实现Kafka->Spark->HDFS实时管道 +- 🧠 Shuffle源码分析:绘制了SortShuffleManager执行流程图 + +**待改进** +- DataFrame API使用不够熟练(需加强类型转换练习) +- 内存调优参数理解不透彻(OOM问题出现2次) + + +## 二、能力提升评估 + +**达成目标** +- 掌握HDFS EC配置和性能分析方法 +- 独立完成Hadoop生态组件联调部署 +- 能使用Spark SQL进行复杂查询优化 + +**待加强** +- YARN调度策略的深度调优 +- Spark内存管理机制理解 +- 生产环境问题诊断能力 + +## 三、时间投入分析 + +```mermaid +pie + title 学习时间分布 + "HDFS研究" : 14.5 + "Hadoop生态" : 12 + "Spark开发" : 10 + "环境调试" : 5 + "文档整理" : 3.5 \ No newline at end of file diff --git a/doc/process/weekly/week-4/members/xingyuanxin-weekly-plan-4.md b/doc/process/weekly/week-4/members/xingyuanxin-weekly-plan-4.md new file mode 100644 index 0000000..ceeb51c --- /dev/null +++ b/doc/process/weekly/week-4/members/xingyuanxin-weekly-plan-4.md @@ -0,0 +1,257 @@ +# 邢远鑫第4周个人学习计划 + +## 个人基本信息 +- **姓名**: 邢远鑫 +- **周次**: 第4周 +- **学习时间**: 每日19:00-22:00(3小时/天) +- **项目**: 大模型数据平台故障检测项目 + +## 本周核心目标 + +### 优先级排序 +1. **【高优先级】** 掌握Hadoop生态系统基础知识和架构原理 +2. **【高优先级】** 完成虚拟机环境搭建和基础配置 +3. **【中优先级】** 学习分布式系统故障检测理论基础 +4. **【中优先级】** 了解大模型RAG技术在运维中的应用 +5. **【低优先级】** 初步接触提示词工程和大模型调用方法 + +## 每日计划分解 + +### 周一(Day 1)- Hadoop基础理论学习 +**时间**: 19:00-22:00 + +#### 主要任务 +- **任务1**: HDFS架构原理学习 + - **预期产出**: HDFS核心概念笔记(NameNode、DataNode、Block机制) + - **时间分配**: 1.5小时 + - **依赖资源**: 《Hadoop权威指南》第3-4章、Apache官方文档 + +- **任务2**: MapReduce计算模型理解 + - **预期产出**: MapReduce工作流程图解和代码示例分析 + - **时间分配**: 1小时 + - **依赖资源**: Hadoop官方教程、WordCount示例代码 + +- **任务3**: 环境准备规划 + - **预期产出**: 虚拟机配置方案和软件清单 + - **时间分配**: 0.5小时 + - **依赖资源**: VMware/VirtualBox、Linux镜像文件 + +### 周二(Day 2)- 虚拟机环境搭建 +**时间**: 19:00-22:00 + +#### 主要任务 +- **任务1**: Linux虚拟机安装配置 + - **预期产出**: 3台CentOS虚拟机(1GB内存/台) + - **时间分配**: 2小时 + - **依赖资源**: CentOS 7镜像、虚拟化软件 + +- **任务2**: 网络配置和SSH设置 + - **预期产出**: 虚拟机间免密SSH连接 + - **时间分配**: 0.5小时 + - **依赖资源**: 网络配置文档 + +- **任务3**: Java环境安装 + - **预期产出**: 所有虚拟机完成JDK 1.8安装和环境变量配置 + - **时间分配**: 0.5小时 + - **依赖资源**: OpenJDK 1.8安装包 + +### 周三(Day 3)- Hadoop集群部署 +**时间**: 19:00-22:00 + +#### 主要任务 +- **任务1**: Hadoop软件下载和解压 + - **预期产出**: 所有节点完成Hadoop 3.x安装 + - **时间分配**: 0.5小时 + - **依赖资源**: Hadoop官方下载包 + +- **任务2**: 集群配置文件设置 + - **预期产出**: core-site.xml、hdfs-site.xml等配置文件 + - **时间分配**: 1.5小时 + - **依赖资源**: Hadoop配置文档、集群规划方案 + +- **任务3**: 集群启动和验证测试 + - **预期产出**: 成功启动HDFS集群并通过基础功能测试 + - **时间分配**: 1小时 + - **依赖资源**: Hadoop命令行工具、测试数据 + +### 周四(Day 4)- 分布式系统理论学习 +**时间**: 19:00-22:00 + +#### 主要任务 +- **任务1**: 分布式一致性算法学习 + - **预期产出**: Raft和Paxos算法原理总结 + - **时间分配**: 1.5小时 + - **依赖资源**: 《设计数据密集型应用》相关章节、论文资料 + +- **任务2**: CAP定理和BASE理论理解 + - **预期产出**: 分布式系统权衡策略分析笔记 + - **时间分配**: 1小时 + - **依赖资源**: 分布式系统教材、在线资源 + +- **任务3**: 故障检测方法调研 + - **预期产出**: 传统故障检测方法vs大模型方法对比分析 + - **时间分配**: 0.5小时 + - **依赖资源**: 学术论文、技术博客 + +### 周五(Day 5)- 大模型技术初探 +**时间**: 19:00-22:00 + +#### 主要任务 +- **任务1**: RAG技术原理学习 + - **预期产出**: RAG架构图和应用场景总结 + - **时间分配**: 1.5小时 + - **依赖资源**: RAG技术论文、开源项目文档 + +- **任务2**: 提示词工程基础 + - **预期产出**: 故障检测场景的提示词模板设计 + - **时间分配**: 1小时 + - **依赖资源**: 提示词工程教程、GPT最佳实践 + +- **任务3**: 周总结和下周规划 + - **预期产出**: 本周学习成果总结和问题清单 + - **时间分配**: 0.5小时 + - **依赖资源**: 本周学习笔记和实践记录 + +## 学习/提升计划 + +### 专业技能学习内容 + +#### 核心技术栈 +1. **大数据平台技术** + - Hadoop生态系统(HDFS、MapReduce、YARN) + - Apache Spark基础概念 + - Hive数据仓库简介 + +2. **分布式系统理论** + - 分布式一致性和容错机制 + - 数据分片和副本策略 + - 分布式存储系统设计原理 + +3. **大模型应用技术** + - RAG(检索增强生成)技术 + - 提示词工程和优化方法 + - 大模型在运维场景的应用案例 + +### 学习时间安排 +- **工作日**: 每日19:00-22:00(3小时) +- **周末**: 根据需要进行补充学习和实践 +- **总计**: 本周预计15小时理论学习 + 实践操作时间 + +### 学习资源配置 +- **书籍**: 《Hadoop权威指南》、《设计数据密集型应用》 +- **文档**: Apache官方文档、技术博客 +- **视频**: 相关技术教程和实践案例 +- **实践**: 虚拟机环境、开源项目代码 + +## 风险管理 + +### 潜在问题预判及应对方案 + +#### 技术风险 +1. **虚拟机资源不足** + - **风险描述**: 硬件配置可能无法支持3台虚拟机同时运行 + - **应对方案**: + - 优先搭建单机伪分布式模式 + - 合理分配内存资源(每台虚拟机512MB起步) + - 必要时采用Docker容器化部署 + +2. **Hadoop配置复杂性** + - **风险描述**: 集群配置涉及多个组件,容易出现配置错误 + - **应对方案**: + - 严格按照官方文档步骤操作 + - 每个配置步骤都进行验证测试 + - 准备回滚方案和配置备份 + +3. **网络连接问题** + - **风险描述**: 虚拟机网络配置可能导致节点间通信失败 + - **应对方案**: + - 提前测试虚拟机网络连通性 + - 准备多种网络配置方案(NAT、桥接模式) + - 记录详细的网络配置步骤 + +#### 学习进度风险 +1. **时间管理挑战** + - **风险描述**: 每日3小时学习时间可能不足以完成所有任务 + - **应对方案**: + - 优先完成核心任务,次要任务可延后 + - 合理调整任务难度和深度 + - 周末时间进行补充学习 + +2. **理论理解困难** + - **风险描述**: 分布式系统理论较为抽象,理解难度大 + - **应对方案**: + - 结合实际案例和图解辅助理解 + - 与团队成员讨论交流 + - 循序渐进,先掌握基础概念 + +## 复盘机制 + +### 每日小结模板 + +#### 完成情况记录 +```markdown +## [日期] 每日学习小结 + +### ✅ 已完成事项 +- [ ] 任务1:具体完成内容和质量评估 +- [ ] 任务2:学习成果和理解程度 +- [ ] 任务3:实践操作结果 + +### ❌ 未完成事项 +- [ ] 任务名称:未完成原因分析 +- [ ] 遇到的具体问题和困难 +- [ ] 需要的额外资源或帮助 + +### 📝 学习收获 +- 新掌握的知识点 +- 实践中的经验总结 +- 对项目理解的深化 + +### 🔄 明日调整 +- 未完成任务的处理方案 +- 学习方法的优化调整 +- 时间分配的重新规划 +``` + +### 周度总结框架 + +#### 周总结结构 +```markdown +## 第4周学习总结报告 + +### 📊 目标达成情况 +- 核心目标完成度统计 +- 各项任务的完成质量评估 +- 超预期完成的内容 + +### 🎯 核心成果 +- **技术能力提升**:具体掌握的技能 +- **环境搭建成果**:实际部署的系统 +- **理论知识积累**:学习的核心概念 +- **问题解决能力**:遇到并解决的技术难题 + +### 🚧 遇到的挑战 +- 技术难点和解决过程 +- 时间管理的问题和改进 +- 学习方法的反思和优化 + +### 📈 下周改进计划 +- 基于本周经验的学习策略调整 +- 需要重点关注的技术领域 +- 团队协作和资源利用优化 + +### 📚 知识体系构建 +- 本周学习内容在整体项目中的定位 +- 与其他技术模块的关联关系 +- 为后续学习奠定的基础 +``` + +### 复盘执行机制 +- **每日复盘**: 22:00-22:15(15分钟) +- **周度复盘**: 周日晚进行深度总结 +- **问题跟踪**: 建立问题清单,持续跟进解决 +- **经验分享**: 与团队成员定期交流学习心得 + +--- + +**备注**: 本计划将根据实际学习进度和遇到的问题进行动态调整,确保在有限的学习时间内最大化学习效果,为大模型数据平台故障检测项目奠定坚实的技术基础。 \ No newline at end of file diff --git a/doc/process/weekly/week-4/members/xingyuanxin-weekly-summary-4.md b/doc/process/weekly/week-4/members/xingyuanxin-weekly-summary-4.md new file mode 100644 index 0000000..4800519 --- /dev/null +++ b/doc/process/weekly/week-4/members/xingyuanxin-weekly-summary-4.md @@ -0,0 +1,94 @@ +# 邢远鑫第四周工作总结报告 + +## 个人基本信息 +- **姓名**: 邢远鑫 +- **周次**: 第4周 +- **项目**: 大模型数据平台故障检测项目 +- **报告日期**: 2025年秋季学期第4周 + +## 本周工作完成情况 + +### ✅ 已完成任务 + +#### 1. 虚拟机环境搭建 +- **CentOS 7.5系统安装**: 在VMware平台上成功完成操作系统的软硬件安装 +- **网络配置**: 完成IP地址及主机名称的配置设置 +- **远程访问工具**: 完成Xshell远程访问工具的安装与配置,实现便捷的远程管理 + +#### 2. 集群环境准备 +- **模板虚拟机制作**: 完成标准化模板虚拟机的安装和配置 +- **虚拟机克隆**: 成功克隆五台虚拟机,为Hadoop集群部署做好准备 +- **Java环境配置**: 在所有虚拟机上完成JDK的安装和环境变量配置 + +#### 3. 大数据平台部署(进行中) +- **Hadoop安装**: 当前正在进行Hadoop分布式文件系统的安装配置 + +## 工作成果总结 + +### 技术能力提升 +1. **虚拟化技术**: 掌握了VMware虚拟机的创建、配置和管理 +2. **Linux系统管理**: 熟悉了CentOS系统的安装、网络配置和基础管理 +3. **集群环境搭建**: 学会了分布式集群环境的规划和准备工作 +4. **远程管理工具**: 掌握了Xshell等远程访问工具的使用 + +### 环境搭建成果 +- **硬件资源**: 5台CentOS 7.5虚拟机(符合项目要求的1GB内存配置) +- **网络环境**: 完成集群网络拓扑配置,支持节点间通信 +- **基础软件**: Java运行环境就绪,为Hadoop部署奠定基础 +- **管理工具**: 远程管理环境配置完成,提高运维效率 + +## 遇到的问题与解决方案 + +### 技术挑战 +1. **虚拟机资源限制**: + - **问题**: 硬件资源有限,需要合理分配内存和存储 + - **解决方案**: 优化虚拟机配置,采用1GB内存的精简配置方案 + +2. **网络配置复杂性**: + - **问题**: 多台虚拟机的网络互联配置较为复杂 + - **解决方案**: 采用统一的网络规划方案,确保节点间正常通信 + +### 学习收获 +- 深入理解了分布式系统的环境搭建流程 +- 掌握了虚拟化技术在大数据平台中的应用 +- 提升了Linux系统管理和网络配置能力 + +## 下周工作计划 + +### 优先任务 +1. **完成Hadoop安装**: 完成HDFS分布式文件系统的部署和配置 +2. **集群功能验证**: 进行Hadoop集群的启动测试和基础功能验证 +3. **故障模拟准备**: 为后续的故障检测实验准备测试环境 + +### 学习目标 +1. **HDFS原理学习**: 深入理解分布式文件系统的架构和工作原理 +2. **MapReduce实践**: 完成基础的MapReduce程序编写和运行 +3. **集群运维**: 掌握Hadoop集群的日常管理和监控方法 + +## 项目贡献度评估 + +### 个人贡献 +- **环境搭建**: 按计划完成了个人负责的集群环境搭建任务 +- **技术准备**: 为团队后续的Hadoop实践奠定了基础环境 +- **进度控制**: 严格按照项目时间节点推进各项任务 + +### 团队协作 +- 与团队成员保持良好沟通,及时同步环境搭建进度 +- 积极参与技术问题讨论,分享环境配置经验 +- 为团队整体的技术方案实施提供支持 + +## 反思与改进 + +### 工作方法优化 +1. **时间管理**: 合理安排学习和实践时间,提高工作效率 +2. **文档记录**: 加强操作步骤和配置参数的详细记录 +3. **问题跟踪**: 建立问题清单,系统性解决技术难点 + +### 下阶段重点 +1. **深化理论学习**: 在实践基础上加强分布式系统理论理解 +2. **提升实操能力**: 通过更多实际操作掌握Hadoop生态系统 +3. **团队协作**: 加强与团队成员的技术交流和协作 + +--- + +**总结**: 本周成功完成了虚拟机环境搭建的核心任务,为项目后续阶段奠定了坚实的基础环境。虽然Hadoop安装仍在进行中,但整体进度符合预期。下周将重点完成Hadoop部署并开始深入的技术学习和实践。 \ No newline at end of file diff --git a/doc/process/weekly/week-4/members/zoujiaxuan-weekly-summary-4.md b/doc/process/weekly/week-4/members/zoujiaxuan-weekly-summary-4.md new file mode 100644 index 0000000..b581136 --- /dev/null +++ b/doc/process/weekly/week-4/members/zoujiaxuan-weekly-summary-4.md @@ -0,0 +1,118 @@ +# 邹佳轩第四周个人工作总结 + +## 基本信息 +- **姓名:** 邹佳轩 +- **总结周期:** 第四周(2025-10-12 至 2025-10-18) +- **主要任务:** Linux 虚拟机环境搭建与 Hadoop 分布式系统部署 +- **总结时间:** 2025-10-19 + +## 任务完成情况 + +### 完成情况统计表 +| 任务项目 | 目标 | 实际完成 | 完成状态 | 完成度 | +|----------|------|----------|----------|--------| +| Linux虚拟机搭建 | 5台 | 5台 | ✅ 已完成 | 100% | +| HDFS部署 | 完成部署 | 已完成 | ✅ 已完成 | 100% | +| Hadoop部署 | 完成部署 | 调试中 | 🔄 进行中 | 80% | +| 截图记录 | 完整记录 | 部分完成 | ⚠️ 部分 | 70% | +| 个人周总结 | 按时提交 | 按时完成 | ✅ 已完成 | 100% | + +**个人整体完成度:60%** + +## 具体完成任务 + +### 1. Linux 虚拟机环境搭建 +- **完成情况:** 成功搭建 5 台非桌面版 Linux 虚拟机 +- **配置规格:** 每台虚拟机配置 1G 内存、20G 磁盘空间 +- **技术要点:** + - 掌握了虚拟机基础配置和网络设置 + - 完成了系统基础环境的标准化配置 + - 实现了多台虚拟机之间的网络连通性测试 + +### 2. HDFS 分布式文件系统部署 +- **完成情况:** 成功完成 HDFS 部署,是团队中较早完成此项任务的成员 +- **技术成果:** + - 成功配置了 NameNode 和 DataNode + - 完成了 HDFS 基础功能验证 + - 解决了多个配置相关的技术问题 + +### 3. Hadoop 集群部署 +- **当前状态:** 正在调试中,已完成 80% 的部署工作 +- **遇到挑战:** 在集群多节点配置方面遇到一些技术难点 +- **解决进展:** 正在逐步排查和解决配置问题 + +## 遇到的问题及解决方案 + +### 主要技术问题 + +#### 问题1:DataNode 连接 NameNode 失败 +- **问题描述:** 初期部署时 DataNode 无法正常连接到 NameNode +- **根本原因:** `/etc/hosts` 文件未正确配置节点映射关系 +- **解决方案:** + - 在 `/etc/hosts` 文件中添加了所有节点的 IP 与主机名映射 + - 检查并关闭了防火墙服务 + - 验证了 `hdfs-site.xml` 中的端口配置 +- **解决状态:** ✅ 已解决 +- **经验总结:** 分布式系统部署中网络配置和主机名解析至关重要 + +#### 问题2:内存配置优化 +- **问题描述:** 在 1G 内存限制下,默认 Hadoop 配置导致服务不稳定 +- **解决方案:** + - 调整 `hadoop-env.sh` 中的 `HADOOP_HEAPSIZE` 为 512M + - 优化 JVM 参数配置 + - 按需启停服务组件 +- **解决状态:** ✅ 已解决 +- **经验总结:** 在资源受限环境下需要合理配置系统参数 + +## 学习收获 + +### 技术能力提升 +1. **Linux 系统管理:** 深入了解了 Linux 系统的基础操作和配置管理 +2. **分布式系统理解:** 初步理解了分布式文件系统的基本概念和架构 +3. **Hadoop 生态系统:** 开始掌握 Hadoop 核心组件的部署和配置 +4. **问题排查能力:** 提升了系统问题诊断和解决的能力 + +### 项目管理经验 +1. **任务规划:** 学会了将复杂任务分解为可管理的小步骤 +2. **文档记录:** 养成了详细记录部署过程和问题解决方案的习惯 +3. **团队协作:** 在遇到问题时主动寻求帮助并分享解决方案 + +## 下周工作计划 + +### 主要任务 +1. **完成 Hadoop 部署调试:** 解决剩余的配置问题,确保集群稳定运行 +2. **HDFS 稳定性测试:** 对已部署的 HDFS 进行全面的功能和稳定性测试 +3. **HDFS 命令操作实践:** 学习和练习 HDFS 的基本命令操作 +4. **MapReduce 原理学习:** 深入学习 MapReduce 的工作流程和原理机制 + +### 具体安排 +- **周一-周二:** 完成 Hadoop 集群部署的最后调试工作 +- **周三-周四:** 进行 HDFS 稳定性测试和基本操作练习 +- **周五-周日:** 专注于 MapReduce 原理的学习和文档整理 + +### 学习目标 +- 掌握 MapReduce 的完整工作流程 +- 理解 Map 和 Reduce 阶段的具体实现机制 +- 能够解释 MapReduce 的数据处理过程 + +## 自我评价 + +### 优势表现 +1. **学习能力强:** 能够快速掌握新技术和解决遇到的问题 +2. **执行力好:** 在团队中较早完成了 HDFS 部署任务 +3. **问题解决能力:** 遇到技术问题时能够系统性地分析和解决 +4. **团队合作:** 积极参与团队讨论,主动分享经验和解决方案 + +### 需要改进的方面 +1. **文档记录:** 截图记录工作需要更加完整和系统 +2. **时间管理:** 需要更好地平衡各项任务的时间分配 +3. **深度学习:** 在掌握操作的基础上,需要更深入理解技术原理 + +### 整体评价 +第四周的工作中,我在 Linux 虚拟机搭建和 HDFS 部署方面取得了较好的成果,个人完成度达到 60%,在团队中处于中上水平。虽然 Hadoop 集群部署还在调试中,但通过这周的实践,我对分布式系统有了更深入的理解,问题解决能力也得到了显著提升。 + +下周将重点完成剩余的部署工作,并开始深入学习 MapReduce 原理,为后续的技术分享和文档撰写做好准备。 + +--- +**总结完成时间:** 2025-10-19 +**下周重点任务:** MapReduce 流程原理学习与文档整理 \ No newline at end of file diff --git a/doc/process/weekly/week-5/group/meeting-minutes-5.md b/doc/process/weekly/week-5/group/meeting-minutes-5.md index e69de29..0955d8a 100644 --- a/doc/process/weekly/week-5/group/meeting-minutes-5.md +++ b/doc/process/weekly/week-5/group/meeting-minutes-5.md @@ -0,0 +1,51 @@ +# Hadoop 部署任务复盘与后续学习规划会议纪要(精简润色) + +## 一、会议基本信息 +- 会议时间:2025-10-19 09:00–10:00 +- 参会人员:沈永佳、李涛、邹佳轩、邢远鑫、王祖旺 +- 会议主题:复盘上周 Linux 虚拟机与 Hadoop 部署硬指标、讨论共性问题、规划后续学习路径 +- 记录人:邹佳轩 + +## 二、上周硬指标任务完成情况 +- 全员完成:每人 5 台非桌面版 Linux 虚拟机(1G 内存、20G 磁盘),完成 HDFS 与 Hadoop 部署、截图记录与周总结;整体质量达标、无未收尾事项。 +- 问题与处理: + - 邢远鑫:1G 内存导致 `NameNode` 崩溃;通过调整 Hadoop JVM 堆内存至 `512M` 已解决。 + - 王祖旺:配置文件参数拼写错误;已整理配置易错清单并同步至周总结。 + +## 三、上周共性问题与统一方案(三类高频) +### 问题 1:DataNode 无法连接 NameNode +- 核心原因:`/etc/hosts` 未配置节点映射;或防火墙、`SELinux` 未关闭;`hdfs-site.xml` 端口配置有误。 +- 统一方案: + - 在所有虚拟机的 `/etc/hosts` 添加 NameNode、DataNode 的 IP 与主机名映射(示例:`192.168.1.100 namenode`)。 + - 关闭防火墙与 `SELinux`,确保网络端口可达。 + - 校验 `hdfs-site.xml` 中的端口参数与服务一致。 + +### 问题 2:1G 内存导致 Hadoop 进程不稳定 +- 调整 `hadoop-env.sh` 的 `HADOOP_HEAPSIZE` 与 `yarn-env.sh` 的 `YARN_HEAPSIZE`,从默认 `1024M` 改为 `512M`。 +- 如需同时启动多服务,按需临时停用不使用的组件(例:进行 HDFS 测试时暂停 `YARN`)。 + +### 问题 3:配置文件参数错误(拼写、路径) +- 由沈永佳整理核心配置模板(`core-site.xml`、`hdfs-site.xml` 等),标注必填参数与注释;本周四在群内发布。 +- 后续部署直接按模板填写 IP 等关键项,降低拼写失误。 + +## 四、后续安排:从部署到深入理解(三阶段) +### 第一阶段:部署巩固(本周 1–2) +- 对已部署集群进行 HDFS 稳定性测试:上传 1G 文件、验证副本数量,确保集群可用。 + +### 第二阶段:简单应用实践(本周 3–5) +- 完成 HDFS 命令操作:创建目录、上传/下载文件。 +- 运行 `WordCount` 示例,验证 MapReduce 流程。 + +### 第三阶段:原理深入(下周 1–7) +- 每人负责 1 个核心组件原理文档,需包含核心逻辑与关键参数说明: + - 李涛:NameNode 机制 + - 沈永佳:DataNode 副本策略 + - 邹佳轩:MapReduce 流程 + - 邢远鑫:YARN 调度 + - 王祖旺:HDFS 安全模式 +- 提交时间:下周日 18:00 前,同步至共享目录。 + +## 五、会议决议与行动项 +- 全员:每日 18:00 前在群内同步当日任务进度。 +- 沈永佳:本周四前发布核心配置文件模板。 +- 其他:按三阶段执行,遇到问题及时在群内同步。 \ No newline at end of file diff --git a/doc/process/weekly/week-5/group/weekly-plan-5.md b/doc/process/weekly/week-5/group/weekly-plan-5.md index e69de29..026e05d 100644 --- a/doc/process/weekly/week-5/group/weekly-plan-5.md +++ b/doc/process/weekly/week-5/group/weekly-plan-5.md @@ -0,0 +1,135 @@ +# 第五周工作计划(Week 5 Plan) + +## 一、计划概述 +- 计划周期:第五周(2025-10-19 至 2025-10-25) +- 主要目标:基于上周 Hadoop 部署经验,进行集群稳定性测试和基础应用实践 +- 参与人员:沈永佳、李涛、邹佳轩、邢远鑫、王祖旺 + +## 二、本周主要任务 + +### 2.1 第一阶段:部署巩固(周一至周二) +**目标:** 确保已部署的 Hadoop 集群稳定可用 + +**具体任务:** +- 对已部署集群进行 HDFS 稳定性测试 + - 上传 1G 测试文件到 HDFS + - 验证文件副本数量设置是否正确 + - 检查集群各节点运行状态 + - 确保集群在负载下的稳定性 + +**负责人:** 全员 +**完成时间:** 周二 18:00 前 + +### 2.2 第二阶段:简单应用实践(周三至周五) +**目标:** 掌握 HDFS 基本操作和 MapReduce 应用 + +**具体任务:** +- HDFS 命令操作练习 + - 创建目录结构 + - 上传/下载文件操作 + - 文件权限管理 + - 目录浏览和文件查看 +- MapReduce 应用实践 + - 运行 WordCount 示例程序 + - 验证 MapReduce 完整流程 + - 分析作业执行日志 + +**负责人:** 全员 +**完成时间:** 周五 18:00 前 + +## 三、配置优化任务 + +### 3.1 配置模板发布 +**任务:** 发布标准化配置文件模板 +**负责人:** 沈永佳 +**完成时间:** 周四 18:00 前 +**内容:** +- 整理 `core-site.xml`、`hdfs-site.xml` 等核心配置模板 +- 标注必填参数和详细注释 +- 提供配置易错清单 +- 在群内发布供团队使用 + +### 3.2 内存优化配置 +**任务:** 针对 1G 内存环境优化 Hadoop 配置 +**负责人:** 全员应用 +**配置要点:** +- 调整 `hadoop-env.sh` 中的 `HADOOP_HEAPSIZE` 为 512M +- 调整 `yarn-env.sh` 中的 `YARN_HEAPSIZE` 为 512M +- 按需停用不使用的组件以节省内存 + +## 四、问题解决方案 + +### 4.1 DataNode 连接问题 +**解决方案:** +- 配置 `/etc/hosts` 文件,添加节点 IP 与主机名映射 +- 关闭防火墙和 SELinux +- 校验 `hdfs-site.xml` 端口配置 + +### 4.2 内存不足问题 +**解决方案:** +- 降低 JVM 堆内存设置 +- 分时启动不同服务组件 +- 监控内存使用情况 + +### 4.3 配置文件错误 +**解决方案:** +- 使用标准化配置模板 +- 仔细检查参数拼写和路径 +- 团队内部配置文件互审 + +## 五、进度跟踪机制 + +### 5.1 日常汇报 +- **频率:** 每日 18:00 前 +- **方式:** 群内同步当日任务进度 +- **内容:** 完成情况、遇到问题、需要协助事项 + +### 5.2 阶段检查点 +- **周二检查点:** 集群稳定性测试完成情况 +- **周五检查点:** HDFS 操作和 MapReduce 实践完成情况 + +## 六、预期成果 + +### 6.1 技术成果 +- 稳定运行的 Hadoop 集群 +- 熟练掌握 HDFS 基本操作 +- 成功运行 MapReduce 应用 +- 标准化配置文件模板 + +### 6.2 文档成果 +- 集群稳定性测试报告 +- HDFS 操作实践总结 +- MapReduce 应用运行记录 +- 问题解决方案文档 + +## 七、风险预警 + +### 7.1 技术风险 +- 集群不稳定导致测试失败 +- 内存限制影响应用运行 +- 网络配置问题导致节点通信异常 + +### 7.2 应对措施 +- 提前准备备用配置方案 +- 建立问题快速响应机制 +- 加强团队内部技术交流 + +## 八、下周准备 + +### 8.1 原理学习准备 +为下周的深入学习阶段做准备: +- 收集各组件相关技术资料 +- 分配原理文档撰写任务 +- 制定学习计划时间表 + +### 8.2 任务分工预告 +- 李涛:NameNode 机制原理 +- 沈永佳:DataNode 副本策略 +- 邹佳轩:MapReduce 流程原理 +- 邢远鑫:YARN 调度机制 +- 王祖旺:HDFS 安全模式 + +--- +**计划制定时间:** 2025-10-19 +**计划执行周期:** 2025-10-19 至 2025-10-25 +**下次计划更新:** 2025-10-26 \ No newline at end of file diff --git a/doc/process/weekly/week-5/members/litao-weekly-plan-5.md b/doc/process/weekly/week-5/members/litao-weekly-plan-5.md new file mode 100644 index 0000000..2f9d61e --- /dev/null +++ b/doc/process/weekly/week-5/members/litao-weekly-plan-5.md @@ -0,0 +1,51 @@ +# 李涛第五周个人学习计划 + +## 学习目标 +- 深入理解Spark核心概念和架构 +- 掌握Spark SQL的使用方法 +- 学习Spark流处理功能 +- 实践Spark数据处理项目 + +## 详细计划 + +### 周一 +- 复习Spark RDD基础概念 +- 学习Spark DataFrame API +- 完成Spark SQL基础查询练习 + +### 周二 +- 深入学习Spark SQL高级功能 +- 掌握窗口函数和自定义UDF +- 实践复杂数据分析案例 + +### 周三 +- 学习Spark Streaming基础 +- 理解DStream概念和操作 +- 完成简单的实时数据处理示例 + +### 周四 +- 深入学习Structured Streaming +- 掌握流处理中的窗口操作 +- 实践流数据与静态数据的结合分析 + +### 周五 +- 学习Spark MLlib基础 +- 了解常用机器学习算法在Spark中的实现 +- 完成一个简单的机器学习模型训练 + +### 周末 +- 综合项目实践:使用Spark完成一个数据处理流水线 +- 总结本周学习内容,记录遇到的问题和解决方案 +- 规划下周学习重点 + +## 学习资源 +- 《Spark权威指南》 +- Spark官方文档 +- Databricks社区教程 +- GitHub上的Spark示例项目 + +## 预期成果 +- 能够熟练使用Spark SQL进行数据分析 +- 掌握Spark流处理的基本应用 +- 完成一个包含批处理和流处理的综合项目 +- 形成本周学习总结文档 \ No newline at end of file diff --git a/doc/process/weekly/week-5/members/shenyongjia-weekly-plan-5.md b/doc/process/weekly/week-5/members/shenyongjia-weekly-plan-5.md index e69de29..bb04e80 100644 --- a/doc/process/weekly/week-5/members/shenyongjia-weekly-plan-5.md +++ b/doc/process/weekly/week-5/members/shenyongjia-weekly-plan-5.md @@ -0,0 +1,178 @@ +# 沈永佳第五周个人学习计划 + +## 一、计划概述 +- 计划周期:第五周(2025-10-19 至 2025-10-25) +- 主要目标:完成第四周遗留的Hadoop部署调试,参与团队集群稳定性测试和应用实践 +- 个人重点:配置文件模板整理、DataNode副本策略学习、团队技术支持 + +## 二、第四周遗留任务完成 + +### 2.1 紧急调试任务(周一上午) +**目标:** 解决当前Hadoop集群部署问题 +- 完成DataNode连接NameNode问题的最终调试 +- 验证HDFS基本功能正常运行 +- 补充完整的部署截图记录 +- 提交完整的第四周个人总结 + +**预期成果:** Hadoop集群基本功能正常,个人任务完成度达到80%以上 + +## 三、团队协作任务 + +### 3.1 配置文件模板整理(周一至周四) +**任务描述:** 根据会议安排,负责整理标准化配置文件模板 +**具体工作:** +- 整理 `core-site.xml` 配置模板,标注必填参数和详细注释 +- 整理 `hdfs-site.xml` 配置模板,包含端口配置说明 +- 整理 `hadoop-env.sh` 和 `yarn-env.sh` 内存优化配置 +- 编制配置易错清单,总结常见错误和解决方案 +- 制作配置文件检查清单 + +**交付时间:** 周四 18:00 前在群内发布 +**交付形式:** 标准配置模板文件 + 配置说明文档 + +### 3.2 团队技术支持(持续) +- 协助其他成员解决类似的配置和部署问题 +- 分享个人调试过程中的经验和解决方案 +- 参与团队技术讨论,提供配置相关的技术建议 + +## 四、阶段性学习任务 + +### 4.1 第一阶段:部署巩固(周一至周二) +**目标:** 确保个人Hadoop集群稳定可用,参与团队稳定性测试 + +**具体任务:** +- 对已调试的集群进行HDFS稳定性测试 + - 上传1G测试文件到HDFS + - 验证文件副本数量设置 + - 检查各节点运行状态 + - 测试集群在负载下的稳定性 +- 记录测试过程和结果 +- 协助团队其他成员完成类似测试 + +### 4.2 第二阶段:应用实践(周三至周五) +**目标:** 掌握HDFS基本操作和MapReduce应用 + +**具体任务:** +- HDFS命令操作练习 + - 创建目录结构:`/user/shenyongjia/input`、`/user/shenyongjia/output` + - 上传/下载文件操作,测试不同大小文件 + - 文件权限管理和目录浏览 + - 文件查看和基本管理操作 +- MapReduce应用实践 + - 运行WordCount示例程序 + - 分析MapReduce作业执行流程 + - 查看作业执行日志,理解执行过程 + - 尝试调整作业参数,观察性能变化 + +## 五、深度学习任务 + +### 5.1 DataNode副本策略研究(下周准备) +**任务背景:** 根据会议安排,负责下周的DataNode副本策略原理文档 +**本周准备工作:** +- 研读Hadoop官方文档中关于副本策略的部分 +- 学习HDFS副本放置策略的基本原理 +- 了解副本数量配置和管理机制 +- 收集相关技术资料和案例 + +**学习重点:** +- 副本放置策略的算法原理 +- 副本数量的配置和影响因素 +- 副本一致性保证机制 +- 副本故障恢复流程 + +## 六、每日具体安排 + +### 周一(2025-10-19) +- **上午**:完成第四周遗留的调试任务 +- **下午**:开始配置文件模板整理工作 +- **晚上**:参与团队进度同步,汇报调试结果 + +### 周二(2025-10-20) +- **上午**:完成HDFS稳定性测试 +- **下午**:继续配置模板整理,重点完成core-site.xml +- **晚上**:协助团队成员解决配置问题 + +### 周三(2025-10-21) +- **上午**:开始HDFS命令操作练习 +- **下午**:完成hdfs-site.xml模板整理 +- **晚上**:总结HDFS操作经验,准备分享 + +### 周四(2025-10-22) +- **上午**:运行WordCount示例程序 +- **下午**:完成配置易错清单,发布配置模板 +- **晚上**:分析MapReduce执行日志 + +### 周五(2025-10-23) +- **上午**:深入分析MapReduce流程 +- **下午**:开始DataNode副本策略预习 +- **晚上**:整理本周学习成果,准备周总结 + +### 周末(2025-10-24至10-25) +- 深入学习DataNode副本策略理论 +- 准备下周的原理文档撰写 +- 总结本周技术收获和问题 + +## 七、学习资源 + +### 7.1 技术文档 +- Hadoop官方文档(重点:HDFS部分) +- 《Hadoop权威指南》相关章节 +- Apache Hadoop社区技术文章 + +### 7.2 实践环境 +- 个人5台Linux虚拟机集群 +- 团队共享的测试数据集 +- 配置文件模板和工具脚本 + +## 八、预期成果 + +### 8.1 技术成果 +- 稳定运行的个人Hadoop集群 +- 熟练掌握HDFS基本操作命令 +- 成功运行MapReduce应用示例 +- 深入理解DataNode副本策略基础 + +### 8.2 团队贡献 +- 标准化配置文件模板(core-site.xml、hdfs-site.xml等) +- 配置易错清单和检查机制 +- 团队技术支持和问题解决协助 +- 配置相关的最佳实践总结 + +### 8.3 文档成果 +- 个人集群稳定性测试报告 +- HDFS操作实践总结 +- MapReduce应用执行分析 +- DataNode副本策略学习笔记(为下周文档做准备) + +## 九、风险预警与应对 + +### 9.1 技术风险 +- **风险**:第四周调试任务可能延期 +- **应对**:优先解决核心问题,必要时寻求团队协助 + +### 9.2 时间风险 +- **风险**:配置模板整理工作量可能超预期 +- **应对**:分阶段完成,优先完成核心配置文件 + +### 9.3 学习风险 +- **风险**:DataNode副本策略理论较复杂 +- **应对**:提前开始预习,充分利用周末时间 + +## 十、成功标准 + +### 10.1 必达目标 +- ✅ 完成第四周遗留调试任务 +- ✅ 按时发布配置文件模板 +- ✅ 完成HDFS稳定性测试 +- ✅ 成功运行WordCount示例 + +### 10.2 挑战目标 +- 🎯 深入理解HDFS副本机制 +- 🎯 协助团队成员解决技术问题 +- 🎯 为下周原理文档做好充分准备 +- 🎯 建立个人技术知识库 + +--- +**计划制定时间:** 2025-10-19 +**计划执行周期:** 2025-10-19 至 2025-10-25 +**下周重点:** DataNode副本策略原理文档撰写 \ No newline at end of file diff --git a/doc/process/weekly/week-5/members/shenyongjia-weekly-summary-5.md b/doc/process/weekly/week-5/members/shenyongjia-weekly-summary-5.md deleted file mode 100644 index e69de29..0000000 diff --git a/doc/process/weekly/week-5/members/wangzuwang-weekly-plan-5.md b/doc/process/weekly/week-5/members/wangzuwang-weekly-plan-5.md new file mode 100644 index 0000000..292cef2 --- /dev/null +++ b/doc/process/weekly/week-5/members/wangzuwang-weekly-plan-5.md @@ -0,0 +1,111 @@ +# 王祖旺第5周个人学习计划 + +## 个人基本信息 +- **姓名**: 王祖旺 +- **周次**: 第5周 +- **学习时间**: 每日19:00-22:00(3小时/天) +- **项目**: 大模型数据平台故障检测项目 + +## 本周核心目标 +### 优先级排序 +- 【高优先级】 对Hadoop生态系统更进一步掌握并熟练Hdfs命令 +- 【高优先级】 学习Hive并了解数据仓库概念 +- 【中优先级】 学习分布式系统故障检测理论基础 +- 【中优先级】 了解大模型在运维以及修复方面的应用 +- 【低优先级】 学习并掌握大模型的IAG(指令跟随)、提示词优化等相关技术 + +## 每日计划分解 + +### 周一(Day 1)- Hadoop进阶与HDFS命令 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: HDFS高级命令实践 + - 预期产出: 常用HDFS命令手册(上传/下载/权限管理等) + - 时间分配: 1.5小时 + - 依赖资源: Hadoop官方文档、实操环境 + +2. **任务2**: Hive基础概念学习 + - 预期产出: Hive架构图及与Hadoop的关系总结 + - 时间分配: 1小时 + - 依赖资源: 《Hive编程指南》第1-2章 + +3. **任务3**: 数据仓库基础 + - 预期产出: 数据仓库核心概念笔记(ETL、OLAP等) + - 时间分配: 0.5小时 + - 依赖资源: 数据仓库技术博客 + +--- + +### 周二(Day 2)- Hive实践与故障检测理论 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: Hive环境搭建与基础SQL + - 预期产出: 完成Hive安装并运行示例查询 + - 时间分配: 2小时 + - 依赖资源: Hive安装指南、测试数据集 + +2. **任务2**: 分布式故障检测基础 + - 预期产出: 心跳检测、超时机制等方法的对比分析 + - 时间分配: 1小时 + - 依赖资源: 《分布式系统:概念与设计》 + +--- + +### 周三(Day 3)- 大模型运维应用 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: 大模型运维案例研究 + - 预期产出: 大模型在日志分析、故障预测中的应用场景总结 + - 时间分配: 2小时 + - 依赖资源: 行业白皮书、AI运维论文 + +2. **任务2**: IAG技术初探 + - 预期产出: 指令跟随技术的简单示例代码 + - 时间分配: 1小时 + - 依赖资源: OpenAI文档、LangChain教程 + +--- + +### 周四(Day 4)- 分布式系统深入 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: CAP定理与一致性算法 + - 预期产出: 不同场景下的权衡策略分析表 + - 时间分配: 2小时 + - 依赖资源: 分布式系统论文 + +2. **任务2**: 提示词优化基础 + - 预期产出: 针对运维场景的提示词模板 + - 时间分配: 1小时 + - 依赖资源: Prompt Engineering指南 + +--- + +### 周五(Day 5)- 综合实践与总结 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: Hadoop+Hive综合练习 + - 预期产出: 完成从HDFS到Hive的数据处理流水线 + - 时间分配: 2小时 + - 依赖资源: 实战项目案例 + +2. **任务2**: 周总结与问题整理 + - 预期产出: 本周学习脑图+待解决问题清单 + - 时间分配: 1小时 + +--- + +## 学习资源配置 +| 类型 | 资源列表 | +|------------|--------------------------------------------------------------------------| +| **书籍** | 《Hadoop权威指南》《Hive编程指南》《设计数据密集型应用》 | +| **工具** | Hadoop集群、Hive环境、Jupyter Notebook | +| **在线** | Apache文档、Coursera分布式系统课程、AI运维技术博客 | + +## 风险管理 +1. **Hive环境兼容性问题** + - 预案: 准备Docker镜像作为备用环境 +2. **理论理解瓶颈** + - 预案: 使用可视化工具辅助理解分布式算法 +3. **时间不足** + - 预案: 将低优先级任务移至周末弹性时间 \ No newline at end of file diff --git a/doc/process/weekly/week-5/members/xingyuanxin-weekly-plan-5.md b/doc/process/weekly/week-5/members/xingyuanxin-weekly-plan-5.md new file mode 100644 index 0000000..727b6c7 --- /dev/null +++ b/doc/process/weekly/week-5/members/xingyuanxin-weekly-plan-5.md @@ -0,0 +1,168 @@ +# 邢远鑫第5周个人学习计划 + +## 个人基本信息 +- **姓名**: 邢远鑫 +- **周次**: 第5周 +- **学习时间**: 每日19:00-22:00(3小时/天) +- **项目**: 大模型数据平台故障检测项目 + +## 本周核心目标 +### 优先级排序 +- 【高优先级】 巩固Hadoop集群部署,解决内存不足导致的NameNode崩溃问题 +- 【高优先级】 深入学习YARN调度机制,为下周原理文档撰写做准备 +- 【中优先级】 掌握HDFS基本操作和MapReduce应用实践 +- 【中优先级】 学习分布式系统资源调度理论 +- 【低优先级】 了解大模型在集群资源管理中的应用场景 + +## 每日计划分解 + +### 周一(Day 1)- Hadoop集群稳定性优化 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: 解决1G内存环境下的Hadoop配置问题 + - 预期产出: 优化后的hadoop-env.sh和yarn-env.sh配置文件 + - 时间分配: 1.5小时 + - 具体操作: 将HADOOP_HEAPSIZE和YARN_HEAPSIZE调整为512M + - 依赖资源: 上周部署的虚拟机集群 + +2. **任务2**: HDFS稳定性测试 + - 预期产出: 1G测试文件上传成功,副本数量验证通过 + - 时间分配: 1小时 + - 具体操作: 使用hdfs dfs命令上传大文件并检查集群状态 + - 依赖资源: 测试数据文件 + +3. **任务3**: 集群运行状态监控 + - 预期产出: 各节点运行状态检查报告 + - 时间分配: 0.5小时 + - 具体操作: 检查NameNode、DataNode进程状态 + +--- + +### 周二(Day 2)- HDFS命令操作与集群巩固 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: HDFS基础命令实践 + - 预期产出: HDFS常用命令操作手册 + - 时间分配: 1.5小时 + - 具体操作: 创建目录、上传/下载文件、权限管理、文件查看 + - 依赖资源: Hadoop官方文档 + +2. **任务2**: 集群负载测试 + - 预期产出: 集群在负载下的稳定性测试报告 + - 时间分配: 1小时 + - 具体操作: 并发上传多个文件,监控系统资源使用 + +3. **任务3**: 问题排查与解决 + - 预期产出: 常见问题解决方案文档 + - 时间分配: 0.5小时 + - 具体操作: 整理DataNode连接、内存不足等问题的解决方法 + +--- + +### 周三(Day 3)- MapReduce应用实践 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: WordCount示例程序运行 + - 预期产出: 成功运行WordCount并分析结果 + - 时间分配: 1.5小时 + - 具体操作: 准备输入数据,运行MapReduce作业,查看输出结果 + - 依赖资源: Hadoop示例程序 + +2. **任务2**: MapReduce作业日志分析 + - 预期产出: 作业执行流程和性能分析报告 + - 时间分配: 1小时 + - 具体操作: 分析JobTracker和TaskTracker日志 + +3. **任务3**: YARN基础概念学习 + - 预期产出: YARN架构和组件功能总结 + - 时间分配: 0.5小时 + - 依赖资源: 《Hadoop权威指南》YARN章节 + +--- + +### 周四(Day 4)- YARN调度机制深入学习 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: YARN调度器原理学习 + - 预期产出: FIFO、Fair、Capacity调度器对比分析 + - 时间分配: 2小时 + - 具体操作: 研究不同调度策略的适用场景和配置方法 + - 依赖资源: Apache YARN官方文档、技术论文 + +2. **任务2**: 资源管理机制研究 + - 预期产出: YARN资源分配和回收机制总结 + - 时间分配: 1小时 + - 具体操作: 学习Container概念、资源隔离技术 + - 依赖资源: 分布式系统资源管理相关资料 + +--- + +### 周五(Day 5)- 综合实践与文档准备 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: YARN调度配置实践 + - 预期产出: 不同调度器的配置文件和测试结果 + - 时间分配: 1.5小时 + - 具体操作: 修改yarn-site.xml配置,测试不同调度策略 + +2. **任务2**: 下周原理文档大纲制定 + - 预期产出: YARN调度机制原理文档大纲 + - 时间分配: 1小时 + - 具体操作: 整理本周学习内容,规划文档结构 + +3. **任务3**: 周总结与问题整理 + - 预期产出: 本周学习总结和待解决问题清单 + - 时间分配: 0.5小时 + +--- + +## 学习资源配置 +| 类型 | 资源列表 | +|------------|--------------------------------------------------------------------------| +| **书籍** | 《Hadoop权威指南》《YARN架构设计与实现》《分布式系统:概念与设计》 | +| **工具** | Hadoop集群、YARN Web UI、JConsole(JVM监控) | +| **在线** | Apache YARN文档、Hadoop生态系统教程、分布式调度算法论文 | + +## 重点关注问题 +### 基于上周遇到的问题 +1. **内存不足导致NameNode崩溃** + - 解决方案: 调整JVM堆内存设置,优化启动参数 + - 监控指标: 内存使用率、GC频率 + +2. **集群稳定性问题** + - 解决方案: 完善配置文件,加强节点间通信 + - 监控指标: 节点存活状态、网络连通性 + +## 风险管理 +1. **YARN配置复杂性** + - 预案: 准备标准配置模板,参考团队配置文件 +2. **理论理解难度** + - 预案: 结合实际操作加深理解,多查阅案例分析 +3. **时间分配不均** + - 预案: 优先完成高优先级任务,低优先级任务可延后 + +## 团队协作计划 +1. **日常汇报**: 每日18:00前在群内同步学习进度 +2. **技术交流**: 主动分享YARN调度相关的学习心得 +3. **问题求助**: 遇到技术难点及时向团队成员请教 +4. **文档协作**: 配合沈永佳的配置模板发布工作 + +## 下周准备工作 +### 为YARN调度机制原理文档做准备 +1. **文档结构规划** + - YARN整体架构介绍 + - 调度器类型和工作原理 + - 资源分配和管理机制 + - 性能优化和故障处理 + +2. **技术深度要求** + - 包含核心逻辑说明 + - 标注关键参数配置 + - 提供实际应用案例 + - 总结最佳实践经验 + +--- +**计划制定时间**: 2025-10-19 +**计划执行周期**: 2025-10-19 至 2025-10-25 +**下次计划更新**: 2025-10-26 +**特别关注**: 基于第4周内存问题的解决和YARN调度机制的深入学习 \ No newline at end of file diff --git a/doc/process/weekly/week-5/members/zoujiaxuan-weekly-plan-5.md b/doc/process/weekly/week-5/members/zoujiaxuan-weekly-plan-5.md new file mode 100644 index 0000000..f6ce3d4 --- /dev/null +++ b/doc/process/weekly/week-5/members/zoujiaxuan-weekly-plan-5.md @@ -0,0 +1,230 @@ +# 邹佳轩第五周个人工作计划(Week 5 Plan) + +## 一、个人计划概述 +- **姓名:** 邹佳轩 +- **计划周期:** 第五周(2025-10-19 至 2025-10-25) +- **主要目标:** 基于上周 Hadoop 部署经验,进行集群稳定性测试和基础应用实践,重点准备 MapReduce 流程原理学习 +- **个人职责:** 团队会议记录员,下周负责 MapReduce 流程原理文档撰写 + +## 二、个人主要任务 + +### 2.1 第一阶段:部署巩固(周一至周二) +**个人目标:** 确保个人已部署的 Hadoop 集群稳定可用,解决第四周遗留问题 + +#### 周一任务(10月21日) +**上午(9:00-12:00)** +- [ ] 检查个人5台虚拟机的运行状态 +- [ ] 验证 Hadoop 集群各组件服务状态 +- [ ] 解决第四周调试中的遗留问题 + +**下午(14:00-18:00)** +- [ ] 对已部署集群进行 HDFS 稳定性测试 + - 上传 1G 测试文件到 HDFS + - 验证文件副本数量设置是否正确(默认3个副本) + - 检查集群各节点运行状态 +- [ ] 记录测试过程和结果 + +**晚上(19:00-21:00)** +- [ ] 18:00前在群内同步当日任务进度 +- [ ] 整理测试记录和截图 +- [ ] 准备次日工作计划 + +#### 周二任务(10月22日) +**上午(9:00-12:00)** +- [ ] 继续 HDFS 稳定性测试 +- [ ] 确保集群在负载下的稳定性 +- [ ] 测试不同大小文件的上传下载性能 + +**下午(14:00-18:00)** +- [ ] 完成集群稳定性测试报告 +- [ ] 补充第四周未完成的截图记录 +- [ ] 为第二阶段做准备 + +**完成标准:** 周二 18:00 前完成所有稳定性测试 + +### 2.2 第二阶段:简单应用实践(周三至周五) +**个人目标:** 熟练掌握 HDFS 基本操作和 MapReduce 应用,为原理学习打基础 + +#### 周三任务(10月23日) +**上午(9:00-12:00)** +- [ ] HDFS 命令操作练习 + - 学习和练习基本命令:`hdfs dfs -ls`, `-mkdir`, `-put`, `-get` + - 创建个人测试目录结构 + - 练习文件权限管理命令 + +**下午(14:00-18:00)** +- [ ] 深入练习 HDFS 操作 + - 上传/下载不同类型文件 + - 目录浏览和文件查看操作 + - 测试文件删除和恢复功能 +- [ ] 记录所有操作命令和结果 + +#### 周四任务(10月24日) +**上午(9:00-12:00)** +- [ ] 获取沈永佳发布的配置文件模板 +- [ ] 对比个人配置,应用标准化模板 +- [ ] 优化个人集群配置 + +**下午(14:00-18:00)** +- [ ] 准备 MapReduce 应用实践 + - 准备 WordCount 示例的输入数据 + - 学习 MapReduce 作业提交命令 + - 了解作业监控和日志查看方法 + +#### 周五任务(10月25日) +**上午(9:00-12:00)** +- [ ] MapReduce 应用实践 + - 运行 WordCount 示例程序 + - 验证 MapReduce 完整流程 + - 观察作业执行过程 + +**下午(14:00-18:00)** +- [ ] 深入分析 MapReduce 执行 + - 分析作业执行日志 + - 理解 Map 和 Reduce 阶段的执行过程 + - 记录关键执行参数和性能指标 +- [ ] 完成 MapReduce 应用运行记录 + +**完成标准:** 周五 18:00 前完成所有 HDFS 操作和 MapReduce 实践 + +## 三、个人配置优化任务 + +### 3.1 应用配置模板 +**任务:** 应用沈永佳发布的标准化配置文件模板 +**完成时间:** 周四获取模板后立即应用 +**具体行动:** +- [ ] 下载并学习配置模板 +- [ ] 对比个人现有配置文件 +- [ ] 应用新的配置参数 +- [ ] 测试配置优化效果 + +### 3.2 内存优化配置 +**任务:** 针对个人1G内存环境优化 Hadoop 配置 +**配置要点:** +- [ ] 调整 `hadoop-env.sh` 中的 `HADOOP_HEAPSIZE` 为 512M +- [ ] 调整 `yarn-env.sh` 中的 `YARN_HEAPSIZE` 为 512M +- [ ] 按需停用不使用的组件以节省内存 +- [ ] 监控内存使用情况 + +## 四、个人问题解决重点 + +### 4.1 第四周遗留问题处理 +基于第四周60%的完成度,重点解决: +- [ ] 完善截图记录(⚠️ 部分完成 → ✅ 完成) +- [ ] 解决调试中的技术问题(🔄 调试中 → ✅ 完成) +- [ ] 补充未完成的文档工作(❌ 未完成 → ✅ 完成) + +### 4.2 常见问题预防 +**DataNode 连接问题:** +- [ ] 检查 `/etc/hosts` 文件配置 +- [ ] 确认防火墙和 SELinux 状态 +- [ ] 验证 `hdfs-site.xml` 端口配置 + +**内存不足问题:** +- [ ] 监控 JVM 堆内存使用 +- [ ] 合理安排服务启动顺序 +- [ ] 及时释放不必要的资源 + +## 五、个人进度跟踪 + +### 5.1 日常自我管理 +- **每日18:00前:** 在群内同步当日任务进度 +- **每日21:00前:** 完成个人学习日志记录 +- **每日计划:** 次日上午制定详细任务清单 + +### 5.2 个人检查点 +- **周二检查点:** 集群稳定性测试完成,第四周遗留问题解决 +- **周四检查点:** HDFS操作熟练掌握,配置优化完成 +- **周五检查点:** MapReduce实践完成,为下周原理学习做好准备 + +### 5.3 学习记录要求 +- [ ] 每日记录技术学习要点 +- [ ] 整理操作命令和参数说明 +- [ ] 收集 MapReduce 相关资料 +- [ ] 准备原理文档写作素材 + +## 六、个人预期成果 + +### 6.1 技术成果 +- [ ] 个人 Hadoop 集群稳定运行(提升至90%+可用性) +- [ ] 熟练掌握 HDFS 基本操作命令 +- [ ] 成功运行 MapReduce 应用并理解执行流程 +- [ ] 完成第四周遗留任务,整体完成度达到95%+ + +### 6.2 文档成果 +- [ ] 个人集群稳定性测试报告 +- [ ] HDFS 操作实践总结和命令手册 +- [ ] MapReduce 应用运行记录和分析报告 +- [ ] 第四周补充文档和截图记录 + +### 6.3 学习准备成果 +- [ ] MapReduce 原理学习资料收集 +- [ ] 下周文档写作大纲和框架 +- [ ] 技术验证实验设计 + +## 七、个人风险管理 + +### 7.1 技术风险识别 +- **高风险:** 集群不稳定影响后续学习进度 +- **中风险:** MapReduce 应用运行失败 +- **低风险:** 配置优化导致系统异常 + +### 7.2 个人应对策略 +- [ ] 建立配置文件备份机制 +- [ ] 准备多套测试数据和方案 +- [ ] 及时向团队寻求技术支持 +- [ ] 保持学习进度的灵活调整 + +## 八、下周个人准备 + +### 8.1 MapReduce 原理文档准备 +**个人任务:** 撰写 MapReduce 流程原理文档 +**准备工作:** +- [ ] 收集 MapReduce 相关技术资料和官方文档 +- [ ] 整理本周实践中的关键发现和问题 +- [ ] 设计文档结构:核心逻辑 + 关键参数说明 +- [ ] 准备技术图表和流程示意图 + +### 8.2 个人学习计划 +- [ ] 制定下周详细的学习时间表 +- [ ] 确定 MapReduce 原理的重点研究方向 +- [ ] 准备技术验证实验和代码示例 +- [ ] 设定文档质量标准和完成时间节点 + +### 8.3 团队协作准备 +- [ ] 了解其他成员的原理文档主题 +- [ ] 准备技术交流和互相学习计划 +- [ ] 制定文档互审和质量保证机制 + +## 九、个人时间管理 + +### 9.1 每日时间分配 +- **上午(9:00-12:00)**:核心技术学习和实践(3小时) +- **下午(14:00-18:00)**:项目实施和问题解决(4小时) +- **晚上(19:00-21:00)**:总结反思和计划准备(2小时) +- **总计:** 每日9小时专注学习时间 + +### 9.2 周时间规划 +- **周一-周二:** 集群稳定性测试和问题解决(40%时间) +- **周三-周五:** HDFS操作和MapReduce实践(50%时间) +- **周末:** 总结整理和下周准备(10%时间) + +## 十、成功标准 + +### 10.1 量化指标 +- [ ] 集群稳定性测试通过率:100% +- [ ] HDFS操作命令掌握:20+个常用命令 +- [ ] MapReduce应用成功运行:WordCount + 1个自定义示例 +- [ ] 文档完成度:95%+(包括第四周补充) + +### 10.2 质量标准 +- [ ] 技术操作准确无误 +- [ ] 文档记录详细完整 +- [ ] 问题解决思路清晰 +- [ ] 学习成果可复现 + +--- +**个人计划制定时间:** 2025-10-20 +**计划执行周期:** 2025-10-21 至 2025-10-27 +**个人负责人:** 邹佳轩 +**下周重点任务:** MapReduce 流程原理文档撰写 \ No newline at end of file