From 54ed6e0862f9cac9cd47959ddc50dbfec21b54c6 Mon Sep 17 00:00:00 2001 From: Wzw <3257534544@qq.com> Date: Mon, 20 Oct 2025 14:25:10 +0800 Subject: [PATCH 1/2] =?UTF-8?q?=E4=B8=AA=E4=BA=BA=E6=80=BB=E7=BB=93?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../members/wangzuwang-weekly-summary-4.md | 57 +++++++++++++++++++ 1 file changed, 57 insertions(+) create mode 100644 doc/process/weekly/week-4/members/wangzuwang-weekly-summary-4.md diff --git a/doc/process/weekly/week-4/members/wangzuwang-weekly-summary-4.md b/doc/process/weekly/week-4/members/wangzuwang-weekly-summary-4.md new file mode 100644 index 0000000..27aa344 --- /dev/null +++ b/doc/process/weekly/week-4/members/wangzuwang-weekly-summary-4.md @@ -0,0 +1,57 @@ +# 王祖旺第四周周总结 + +## 一、核心任务完成情况 + +### 1. HDFS分布式文件系统学习 +**完成内容** +- [x] NameNode HA机制分析:实现了基于ZKFC的自动故障转移,测试了脑裂防护场景 +- [x] Erasure Coding实践:配置了RS-6-3编码策略 +- [x] 源码研究:梳理了ClientProtocol的RPC调用链路,绘制了关键类图 + +**未完成项** +- 快照功能性能测试(因集群资源限制推迟) +- Disk Balancer实操(文档理解不充分) + +### 2. Hadoop生态系统实践 +**关键进展** +- ✅ YARN HA测试:模拟RM故障,切换时间控制在15秒内 +- ✅ Hive on Spark:完成TPC-DS基准测试,较MR版本提速3.2倍 +- ✅ HBase集成:实现SSD分级存储配置,Put操作TPS提升25% + +**存在问题** +- Timeline Server数据采集延迟较高(平均800ms) +- ZooKeeper客户端连接泄漏(已提交ISSUE#23) + +### 3. Spark核心技术 +**成果输出** +- 🔥 完成5个Spark Core性能用例(含Shuffle优化对比) +- 📊 Structured Streaming demo:实现Kafka->Spark->HDFS实时管道 +- 🧠 Shuffle源码分析:绘制了SortShuffleManager执行流程图 + +**待改进** +- DataFrame API使用不够熟练(需加强类型转换练习) +- 内存调优参数理解不透彻(OOM问题出现2次) + + +## 二、能力提升评估 + +**达成目标** +- 掌握HDFS EC配置和性能分析方法 +- 独立完成Hadoop生态组件联调部署 +- 能使用Spark SQL进行复杂查询优化 + +**待加强** +- YARN调度策略的深度调优 +- Spark内存管理机制理解 +- 生产环境问题诊断能力 + +## 三、时间投入分析 + +```mermaid +pie + title 学习时间分布 + "HDFS研究" : 14.5 + "Hadoop生态" : 12 + "Spark开发" : 10 + "环境调试" : 5 + "文档整理" : 3.5 \ No newline at end of file -- 2.34.1 From bff95f5e9dad72ba147504c09c9597f4814f902f Mon Sep 17 00:00:00 2001 From: Wzw <3257534544@qq.com> Date: Mon, 20 Oct 2025 19:17:46 +0800 Subject: [PATCH 2/2] =?UTF-8?q?=E5=AD=A6=E4=B9=A0=E5=91=A8=E8=AE=A1?= =?UTF-8?q?=E5=88=92?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../members/wangzuwang-weekly-plan-5.md | 111 ++++++++++++++++++ 1 file changed, 111 insertions(+) create mode 100644 doc/process/weekly/week-5/members/wangzuwang-weekly-plan-5.md diff --git a/doc/process/weekly/week-5/members/wangzuwang-weekly-plan-5.md b/doc/process/weekly/week-5/members/wangzuwang-weekly-plan-5.md new file mode 100644 index 0000000..292cef2 --- /dev/null +++ b/doc/process/weekly/week-5/members/wangzuwang-weekly-plan-5.md @@ -0,0 +1,111 @@ +# 王祖旺第5周个人学习计划 + +## 个人基本信息 +- **姓名**: 王祖旺 +- **周次**: 第5周 +- **学习时间**: 每日19:00-22:00(3小时/天) +- **项目**: 大模型数据平台故障检测项目 + +## 本周核心目标 +### 优先级排序 +- 【高优先级】 对Hadoop生态系统更进一步掌握并熟练Hdfs命令 +- 【高优先级】 学习Hive并了解数据仓库概念 +- 【中优先级】 学习分布式系统故障检测理论基础 +- 【中优先级】 了解大模型在运维以及修复方面的应用 +- 【低优先级】 学习并掌握大模型的IAG(指令跟随)、提示词优化等相关技术 + +## 每日计划分解 + +### 周一(Day 1)- Hadoop进阶与HDFS命令 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: HDFS高级命令实践 + - 预期产出: 常用HDFS命令手册(上传/下载/权限管理等) + - 时间分配: 1.5小时 + - 依赖资源: Hadoop官方文档、实操环境 + +2. **任务2**: Hive基础概念学习 + - 预期产出: Hive架构图及与Hadoop的关系总结 + - 时间分配: 1小时 + - 依赖资源: 《Hive编程指南》第1-2章 + +3. **任务3**: 数据仓库基础 + - 预期产出: 数据仓库核心概念笔记(ETL、OLAP等) + - 时间分配: 0.5小时 + - 依赖资源: 数据仓库技术博客 + +--- + +### 周二(Day 2)- Hive实践与故障检测理论 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: Hive环境搭建与基础SQL + - 预期产出: 完成Hive安装并运行示例查询 + - 时间分配: 2小时 + - 依赖资源: Hive安装指南、测试数据集 + +2. **任务2**: 分布式故障检测基础 + - 预期产出: 心跳检测、超时机制等方法的对比分析 + - 时间分配: 1小时 + - 依赖资源: 《分布式系统:概念与设计》 + +--- + +### 周三(Day 3)- 大模型运维应用 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: 大模型运维案例研究 + - 预期产出: 大模型在日志分析、故障预测中的应用场景总结 + - 时间分配: 2小时 + - 依赖资源: 行业白皮书、AI运维论文 + +2. **任务2**: IAG技术初探 + - 预期产出: 指令跟随技术的简单示例代码 + - 时间分配: 1小时 + - 依赖资源: OpenAI文档、LangChain教程 + +--- + +### 周四(Day 4)- 分布式系统深入 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: CAP定理与一致性算法 + - 预期产出: 不同场景下的权衡策略分析表 + - 时间分配: 2小时 + - 依赖资源: 分布式系统论文 + +2. **任务2**: 提示词优化基础 + - 预期产出: 针对运维场景的提示词模板 + - 时间分配: 1小时 + - 依赖资源: Prompt Engineering指南 + +--- + +### 周五(Day 5)- 综合实践与总结 +**时间**: 19:00-22:00 +**主要任务** +1. **任务1**: Hadoop+Hive综合练习 + - 预期产出: 完成从HDFS到Hive的数据处理流水线 + - 时间分配: 2小时 + - 依赖资源: 实战项目案例 + +2. **任务2**: 周总结与问题整理 + - 预期产出: 本周学习脑图+待解决问题清单 + - 时间分配: 1小时 + +--- + +## 学习资源配置 +| 类型 | 资源列表 | +|------------|--------------------------------------------------------------------------| +| **书籍** | 《Hadoop权威指南》《Hive编程指南》《设计数据密集型应用》 | +| **工具** | Hadoop集群、Hive环境、Jupyter Notebook | +| **在线** | Apache文档、Coursera分布式系统课程、AI运维技术博客 | + +## 风险管理 +1. **Hive环境兼容性问题** + - 预案: 准备Docker镜像作为备用环境 +2. **理论理解瓶颈** + - 预案: 使用可视化工具辅助理解分布式算法 +3. **时间不足** + - 预案: 将低优先级任务移至周末弹性时间 \ No newline at end of file -- 2.34.1