沈永佳提交第四周团队计划,会议纪要和个人计划

6 months ago · 9630d77c1a
parent 19e3efab2e
commit 9630d77c1a
3 changed files with 435 additions and 3 deletions
--- a/doc/process/weekly/week-4/group/meeting-minutes-4.md
+++ b/doc/process/weekly/week-4/group/meeting-minutes-4.md
@ -1 +1,93 @@
-小组会议纪要
+# 第四周小组会议纪要
+
+## 会议基本信息
+- **会议时间**: 第四周
+- **会议主题**: 大模型数据平台故障检测项目启动会议
+- **参会人员**: 项目指导老师:李友焕、项目小组全体成员:沈永佳,邢远鑫,邹佳轩,王祖旺,李涛
+
+## 会议内容
+
+### 1. 项目背景介绍
+
+本次会议正式启动了利用大模型进行数据平台故障检测的研究课题，明确了项目的核心目标和应用价值。
+
+### 2. 核心项目背景与需求
+
+#### 项目目标
+利用大模型技术对复杂的大数据平台进行故障检测与自动修复，提升运维效率和自动化水平。
+
+#### 应用场景
+- **目标平台**: Hadoop、Spark等复杂分布式系统
+- **故障类型**: 
+  - 磁盘损坏
+  - 内存泄漏
+  - 进程崩溃
+  - 其他系统级故障
+
+#### 核心价值
+通过大模型技术替代传统的"老师傅"式经验排查模式，实现：
+- 更快速的问题发现
+- 自动化的故障诊断
+- 智能化的修复建议
+- 提高整体运维效率
+
+### 3. 项目实现路径
+
+#### 前期任务
+1. **技术储备**: 深入学习和实践Hadoop、Spark、Hive等大数据组件
+2. **环境搭建**: 自行部署测试环境
+3. **故障模拟**: 在环境中主动引发各类故障，积累真实案例作为训练样本
+
+#### 模拟测试策略
+- 预设各类错误场景（如定时杀死进程、填满磁盘空间等）
+- 验证大模型的监控能力
+- 测试故障分析和工具调用的有效性
+- 评估自动修复功能的可靠性
+
+#### 前期准备工作
+- 学习大模型的IAG（指令跟随）技术
+- 掌握提示词优化相关技能
+- 熟悉RAG（检索增强生成）技术
+
+## 行动计划
+
+### 1. 大数据平台知识储备
+- 查阅项目文档中的相关资料链接
+- 自主学习HDFS、Hadoop等核心大数据组件
+- 深入理解分布式系统架构和常见故障模式
+
+### 2. 实践环境搭建与故障演练
+- **硬件配置**: 准备3-5台虚拟机，每台配置1GB内存
+- **软件部署**: 搭建Hadoop/HDFS集群环境
+- **故障演练**: 手动制造或触发各类运行错误
+- **数据收集**: 为后续模型测试准备充足的故障案例
+
+### 3. 技术学习重点
+- HDFS分布式文件系统
+- Hadoop生态系统
+- Spark计算引擎
+- Hive数据仓库
+- **分布式存储系统理论**
+  - 分布式一致性算法（Raft、Paxos）
+  - 数据分片和副本策略
+  - 存储系统容错机制
+- **计算模式理论**
+  - 批处理计算模式（MapReduce）
+  - 流式计算模式（Storm、Flink）
+  - 内存计算模式（Spark）
+  - 混合计算模式和Lambda架构
+- **图数据库理论**
+  - 图数据模型和查询语言
+  - 图算法和图计算框架
+  - Neo4j、Apache Giraph等图数据库技术
+  - 图数据在故障关联分析中的应用
+- 大模型RAG技术
+- 提示词工程优化
+
+## 下周工作安排
+
+第四周将根据既定学习计划进行自主学习，重点完成以上待办事项，为项目后续阶段奠定坚实基础。
+
+## 会议总结
+
+本次会议成功明确了项目方向和技术路线，为团队成员指明了学习重点和实践方向。通过系统性的准备工作，我们将为大模型在故障检测领域的应用探索奠定良好基础。
--- a/doc/process/weekly/week-4/group/weekly-plan-4.md
+++ b/doc/process/weekly/week-4/group/weekly-plan-4.md
@ -1 +1,169 @@
-小组周计划
+# 第四周小组周计划
+
+## 计划概述
+
+本周是大模型数据平台故障检测项目的启动周，主要任务是进行前期知识储备和技术准备，为后续的实践开发奠定坚实基础。
+
+## 学习目标
+
+### 主要目标
+1. **掌握大数据平台核心技术**: 深入理解Hadoop、Spark、Hive等关键组件
+2. **了解故障检测需求**: 明确分布式系统常见故障类型和检测方法
+3. **学习大模型相关技术**: 掌握RAG、提示词优化等核心技能
+4. **制定实践方案**: 为环境搭建和故障演练做好准备
+
+### 具体学习内容
+
+#### 1. 大数据平台技术栈
+- **HDFS (Hadoop分布式文件系统)**
+  - 架构原理和核心组件
+  - 数据存储和副本机制
+  - 常见故障模式分析
+  
+- **Hadoop生态系统**
+  - MapReduce计算框架
+  - YARN资源管理
+  - 集群部署和配置
+  
+- **Apache Spark**
+  - 内存计算原理
+  - RDD和DataFrame操作
+  - 性能优化策略
+  
+- **Apache Hive**
+  - 数据仓库架构
+  - SQL查询引擎
+  - 元数据管理
+
+- **分布式存储系统理论**
+  - 分布式一致性算法（Raft、Paxos、PBFT）
+  - CAP定理和BASE理论
+  - 数据分片策略（Range、Hash、Directory）
+  - 副本管理和数据同步机制
+  - 存储系统容错和恢复机制
+  - 分布式锁和事务处理
+
+- **计算模式理论**
+  - 批处理计算模式（MapReduce、Hadoop）
+  - 流式计算模式（Storm、Flink、Kafka Streams）
+  - 内存计算模式（Spark、Hazelcast）
+  - 混合计算模式和Lambda架构
+  - 边缘计算和雾计算模式
+  - 无服务器计算（Serverless）模式
+
+- **图数据库理论**
+  - 图数据模型和图论基础
+  - 图查询语言（Cypher、Gremlin、SPARQL）
+  - 图算法（最短路径、社区发现、中心性分析）
+  - 图计算框架（Apache Giraph、GraphX、Pregel）
+  - 图数据库技术（Neo4j、ArangoDB、JanusGraph）
+  - 图数据在故障关联分析和根因分析中的应用
+
+#### 2. 大模型技术学习
+- **RAG (检索增强生成)**
+  - 技术原理和应用场景
+  - 向量数据库使用
+  - 知识库构建方法
+  
+- **提示词工程**
+  - 提示词设计原则
+  - 上下文优化技巧
+  - 指令跟随(IAG)技术
+  
+- **模型调用和集成**
+  - API接口使用
+  - 工具链集成方案
+  - 自动化流程设计
+
+## 本周具体任务
+
+### 第一阶段：理论学习 (周一-周三)
+
+#### 任务1: 大数据平台基础学习
+- [ ] 阅读Hadoop官方文档，理解HDFS架构
+- [ ] 学习Spark核心概念和编程模型
+- [ ] 研究Hive数据仓库解决方案
+- [ ] 学习分布式存储系统理论（一致性算法、CAP定理、数据分片策略）
+- [ ] 掌握各种计算模式（批处理、流式、内存计算、Lambda架构）
+- [ ] 研究图数据库理论和图算法基础
+- [ ] 整理常见故障类型和解决方案
+
+#### 任务2: 大模型技术研究
+- [ ] 学习RAG技术原理和实现方法
+- [ ] 研究提示词优化最佳实践
+- [ ] 了解大模型在运维领域的应用案例
+- [ ] 探索自动化故障诊断的可能性
+- [ ] 研究图数据库在故障关联分析中的应用
+- [ ] 学习分布式系统故障检测的理论基础
+
+### 第二阶段：方案设计 (周四-周五)
+
+#### 任务3: 环境规划
+- [ ] 设计虚拟机集群架构（3-5台，每台1GB内存）
+- [ ] 制定Hadoop/HDFS部署方案
+- [ ] 规划故障模拟测试场景
+- [ ] 准备环境搭建所需资源
+
+#### 任务4: 项目方案制定
+- [ ] 设计故障检测系统架构
+- [ ] 制定数据收集和标注策略
+- [ ] 规划模型训练和测试流程
+- [ ] 确定技术选型和工具链
+
+## 学习资源
+
+### 官方文档
+- [Apache Hadoop官方文档](https://hadoop.apache.org/docs/)
+- [Apache Spark官方指南](https://spark.apache.org/docs/latest/)
+- [Apache Hive用户手册](https://hive.apache.org/docs/)
+
+### 推荐学习材料
+- 《Hadoop权威指南》
+- 《Spark快速大数据分析》
+- 《分布式系统概念与设计》
+- 《图数据库》（Ian Robinson著）
+- 《设计数据密集型应用》（Martin Kleppmann著）
+- 大模型RAG技术博客和论文
+- 提示词工程实践案例
+- Neo4j官方文档和图算法指南
+- 分布式一致性算法论文（Raft、Paxos）
+
+### 实践环境
+- 虚拟化平台（VMware/VirtualBox）
+- Linux操作系统（CentOS/Ubuntu）
+- Java开发环境
+- Python数据科学工具栈
+
+## 预期成果
+
+### 本周交付物
+1. **学习笔记**: 大数据平台和大模型技术要点总结
+2. **环境方案**: 详细的集群搭建和配置方案
+3. **故障清单**: 常见故障类型和检测方法汇总
+4. **项目规划**: 下阶段实践任务的详细计划
+
+### 能力提升目标
+- 具备大数据平台基础运维能力
+- 理解分布式系统故障检测原理
+- 掌握大模型应用开发基础
+- 能够设计故障检测解决方案
+
+## 风险与应对
+
+### 潜在风险
+1. **学习内容过多**: 大数据技术栈庞大，可能无法在一周内全面掌握
+2. **资源限制**: 虚拟机性能可能影响实践效果
+3. **技术难度**: 大模型集成可能存在技术挑战
+
+### 应对策略
+1. **重点突破**: 优先学习核心组件，逐步扩展知识面
+2. **资源优化**: 合理配置虚拟机资源，采用轻量化部署
+3. **团队协作**: 分工合作，发挥各成员技术优势
+
+## 下周展望
+
+基于本周的学习成果，下周将开始实际的环境搭建和故障演练工作，为大模型训练准备充足的数据样本。
+
+---
+
+**备注**: 本计划将根据实际学习进度和遇到的问题进行动态调整，确保学习效果和项目进度的平衡。
--- a/doc/process/weekly/week-4/members/shenyongjia-weekly-plan-4.md
+++ b/doc/process/weekly/week-4/members/shenyongjia-weekly-plan-4.md
@ -1 +1,173 @@
-沈永佳个人周计划
+# 沈永佳第四周个人学习计划
+
+## 个人学习目标
+
+基于小组会议确定的项目方向，本周将重点进行大数据平台故障检测相关的理论学习和技术储备，为后续的实践开发奠定坚实基础。
+
+## 核心学习任务
+
+### 1. HDFS分布式文件系统深入学习
+
+#### 学习重点
+- **HDFS架构和核心组件**
+  - NameNode和DataNode的工作原理
+  - Secondary NameNode的作用和机制
+  - HDFS的数据存储和读写流程
+  - 块(Block)机制和副本策略
+
+- **HDFS配置和管理**
+  - HDFS配置文件详解(core-site.xml, hdfs-site.xml)
+  - 集群启动和关闭流程
+  - HDFS命令行操作和管理
+  - 安全模式和故障恢复
+
+- **HDFS性能优化**
+  - 数据本地性优化
+  - 负载均衡配置
+  - 存储策略和压缩
+  - 监控和日志分析
+
+#### 具体任务安排
+- **周一**: 深入学习HDFS架构原理，理解NameNode和DataNode机制
+- **周二**: 实践HDFS配置文件设置和集群管理操作
+- **周三**: 学习HDFS性能优化和故障排查方法
+
+### 2. Hadoop生态系统实践学习
+
+#### 学习重点
+- **Hadoop核心组件**
+  - MapReduce计算框架原理和编程模型
+  - YARN资源管理和任务调度
+  - Hadoop Common工具库使用
+
+- **Hadoop集群部署**
+  - 单机模式、伪分布式模式、完全分布式模式
+  - 集群规划和硬件配置要求
+  - 网络配置和安全设置
+
+- **Hadoop运维管理**
+  - 集群监控和性能调优
+  - 日志管理和问题诊断
+  - 备份和恢复策略
+
+#### 具体任务安排
+- **周四上午**: 学习MapReduce编程模型，编写简单的WordCount程序
+- **周四下午**: 研究YARN资源管理机制和任务调度策略
+- **周五上午**: 实践Hadoop集群部署和配置优化
+
+### 3. 环境搭建和配置实践
+
+#### 学习重点
+- **虚拟机环境准备**
+  - Linux系统安装和基础配置
+  - 网络配置和SSH免密登录设置
+  - Java环境安装和配置
+
+- **Hadoop集群搭建**
+  - 3-5台虚拟机的集群架构设计
+  - Hadoop软件下载、安装和配置
+  - 集群启动测试和验证
+
+- **环境优化和故障模拟**
+  - 系统参数调优和性能监控
+  - 故障场景设计和模拟测试
+  - 日志收集和分析工具配置
+
+#### 具体任务安排
+- **周五下午**: 准备虚拟机环境，安装Linux系统和Java环境
+- **周六**: 搭建Hadoop集群，完成基础配置和测试
+- **周日**: 进行故障模拟测试，收集故障数据样本
+
+### 4. 理论基础补充学习
+
+#### 学习重点（适度了解）
+- **分布式系统基础概念**
+  - 分布式系统的基本特征和挑战
+  - 数据一致性和容错机制简介
+  
+- **大数据处理模式**
+  - 批处理和流处理的基本概念
+  - 大数据处理的常见架构模式
+
+- **大模型技术应用**
+  - RAG技术在运维中的应用场景
+  - 提示词工程的基本方法
+
+#### 具体任务安排
+- **每日晚间**: 轻量化理论学习，重点关注与实践相关的概念
+
+## 学习资源和参考材料
+
+### 核心书籍
+1. 《Hadoop权威指南》- 大数据平台技术详解和实践指导
+2. 《Hadoop实战》- 实际项目开发和部署经验
+3. 《HDFS源码分析与开发实战》- 深入理解HDFS内部机制
+4. 《大数据技术原理与应用》- 大数据生态系统概览
+
+### 技术文档和官方资料
+1. Apache Hadoop官方文档和配置指南
+2. HDFS架构设计文档和最佳实践
+3. Hadoop集群部署和运维手册
+4. MapReduce编程指南和示例代码
+
+### 在线资源和实践教程
+1. Hadoop官方教程和快速入门指南
+2. HDFS命令行操作和管理实践
+3. 虚拟机环境搭建视频教程
+4. Hadoop故障排查和性能优化案例
+
+## 学习成果和交付物
+
+### 本周预期成果
+1. **HDFS实践报告**: HDFS架构理解和配置实践总结
+2. **Hadoop集群搭建文档**: 详细的集群部署步骤和配置说明
+3. **环境配置手册**: 虚拟机环境准备和优化配置指南
+4. **故障模拟测试报告**: 故障场景设计和测试结果分析
+5. **MapReduce程序示例**: 完成的WordCount等基础程序代码
+
+### 能力提升目标
+- 熟练掌握HDFS的架构原理和操作管理
+- 具备Hadoop集群的部署和运维能力
+- 能够进行基本的MapReduce程序开发
+- 掌握虚拟机环境配置和故障模拟技能
+- 为后续的故障检测系统开发做好环境准备
+
+## 学习计划执行策略
+
+### 时间安排
+- **工作日**: 每日4-5小时专注学习和实践时间
+- **周末**: 每日6-8小时集中进行环境搭建和配置实践
+- **总计**: 本周预计投入35-40小时学习和实践时间
+
+### 学习方法
+1. **理论与实践结合**: 边学习理论边进行实际操作验证
+2. **环境搭建优先**: 优先完成虚拟机和Hadoop环境配置
+3. **循序渐进**: 从单机模式开始，逐步搭建分布式集群
+4. **问题驱动**: 通过解决实际配置问题加深理解
+5. **文档记录**: 详细记录配置步骤和遇到的问题解决方案
+
+### 进度跟踪
+- 每日记录环境配置进度和遇到的技术问题
+- 每完成一个配置阶段进行功能测试验证
+- 每两天与小组成员分享配置经验和问题解决方案
+- 周末进行阶段性总结和下周环境优化计划
+
+## 风险预案
+
+### 潜在挑战
+1. **环境配置复杂**: Hadoop集群配置涉及多个组件，可能遇到兼容性问题
+2. **虚拟机资源限制**: 硬件资源可能不足以支持完整的分布式集群
+3. **网络配置难题**: 虚拟机网络配置和SSH连接可能出现问题
+4. **版本兼容性**: 不同版本的Hadoop、Java可能存在兼容性问题
+
+### 应对策略
+1. **分步骤配置**: 先完成单机模式，再逐步扩展到伪分布式和完全分布式
+2. **资源优化**: 合理分配虚拟机资源，采用轻量化配置方案
+3. **文档参考**: 严格按照官方文档和成熟教程进行配置
+4. **版本统一**: 选择稳定的版本组合，避免使用最新的不稳定版本
+5. **问题记录**: 详细记录遇到的问题和解决方案，建立个人知识库
+6. **团队协作**: 与小组成员共享配置经验，互相帮助解决技术难题
+
+---
+
+**备注**: 本计划将根据实际环境配置进度和遇到的技术问题进行动态调整，优先确保Hadoop环境的成功搭建和基本功能验证，为后续的故障检测项目奠定坚实的技术基础。