|
|
|
|
@ -0,0 +1,57 @@
|
|
|
|
|
# 王祖旺第四周周总结
|
|
|
|
|
|
|
|
|
|
## 一、核心任务完成情况
|
|
|
|
|
|
|
|
|
|
### 1. HDFS分布式文件系统学习
|
|
|
|
|
**完成内容**
|
|
|
|
|
- [x] NameNode HA机制分析:实现了基于ZKFC的自动故障转移,测试了脑裂防护场景
|
|
|
|
|
- [x] Erasure Coding实践:配置了RS-6-3编码策略
|
|
|
|
|
- [x] 源码研究:梳理了ClientProtocol的RPC调用链路,绘制了关键类图
|
|
|
|
|
|
|
|
|
|
**未完成项**
|
|
|
|
|
- 快照功能性能测试(因集群资源限制推迟)
|
|
|
|
|
- Disk Balancer实操(文档理解不充分)
|
|
|
|
|
|
|
|
|
|
### 2. Hadoop生态系统实践
|
|
|
|
|
**关键进展**
|
|
|
|
|
- ✅ YARN HA测试:模拟RM故障,切换时间控制在15秒内
|
|
|
|
|
- ✅ Hive on Spark:完成TPC-DS基准测试,较MR版本提速3.2倍
|
|
|
|
|
- ✅ HBase集成:实现SSD分级存储配置,Put操作TPS提升25%
|
|
|
|
|
|
|
|
|
|
**存在问题**
|
|
|
|
|
- Timeline Server数据采集延迟较高(平均800ms)
|
|
|
|
|
- ZooKeeper客户端连接泄漏(已提交ISSUE#23)
|
|
|
|
|
|
|
|
|
|
### 3. Spark核心技术
|
|
|
|
|
**成果输出**
|
|
|
|
|
- 🔥 完成5个Spark Core性能用例(含Shuffle优化对比)
|
|
|
|
|
- 📊 Structured Streaming demo:实现Kafka->Spark->HDFS实时管道
|
|
|
|
|
- 🧠 Shuffle源码分析:绘制了SortShuffleManager执行流程图
|
|
|
|
|
|
|
|
|
|
**待改进**
|
|
|
|
|
- DataFrame API使用不够熟练(需加强类型转换练习)
|
|
|
|
|
- 内存调优参数理解不透彻(OOM问题出现2次)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
## 二、能力提升评估
|
|
|
|
|
|
|
|
|
|
**达成目标**
|
|
|
|
|
- 掌握HDFS EC配置和性能分析方法
|
|
|
|
|
- 独立完成Hadoop生态组件联调部署
|
|
|
|
|
- 能使用Spark SQL进行复杂查询优化
|
|
|
|
|
|
|
|
|
|
**待加强**
|
|
|
|
|
- YARN调度策略的深度调优
|
|
|
|
|
- Spark内存管理机制理解
|
|
|
|
|
- 生产环境问题诊断能力
|
|
|
|
|
|
|
|
|
|
## 三、时间投入分析
|
|
|
|
|
|
|
|
|
|
```mermaid
|
|
|
|
|
pie
|
|
|
|
|
title 学习时间分布
|
|
|
|
|
"HDFS研究" : 14.5
|
|
|
|
|
"Hadoop生态" : 12
|
|
|
|
|
"Spark开发" : 10
|
|
|
|
|
"环境调试" : 5
|
|
|
|
|
"文档整理" : 3.5
|