邢远鑫2025年秋季学期第四周周计划 #3

Closed
hnu202326010131 wants to merge 2 commits from xingyuanxin_branch into develop

@ -0,0 +1,49 @@
会议记录
会议基本信息
会议主题:利用大模型进行故障检测的新项目启动会
参会人员:李友焕、沈永佳、邢远鑫、邹佳轩、王祖旺、李涛
记录方式AI会议助手实时记录
会议助手(00:00): hi我是你的会议助手我正在帮你实时记录会议纪要请安心开会
会议助手(01:31): 李友焕要求复述故障检测需求,显示对需求理解可能存在模糊点,并建议投屏以便更直观讨论。沈永佳确认需求源于点表阶段,暗示该需求可能较为零散或不够系统化。双方快速确认了需求范围,但缺乏具体细节的展开。
会议助手(03:48): 李友焕在强调项目难度和现实意义,显然希望激发团队动力,提到大模型方向可行且能带来锻炼。
沈永佳在确认文档位置时有些混乱,可能对材料熟悉度不足。
双方在投屏细节上反复沟通,显示协作初期存在技术磨合问题。
李友焕提到腾讯项目经验时,隐含对当前资源条件的担忧。
会议助手(05:53): 李友焕提到与军方的合作因系统敏感性受阻转而进行预先研究。这显示项目面临合规性挑战需要迂回推进。他详细剖析了大数据平台的复杂性从分布式存储到各类组件如Spark、Hadoop、Elasticsearch强调大公司通过集中化技术中台管理数据流。其举例腾讯的实践暗示当前项目需要类似的系统性支撑但现有资源可能不足。
会议助手(08:06): 李友焕详细列举了大数据平台运行中可能出现的各类故障场景,包括内存溢出、资源分配异常、权限问题、数据误删等,凸显了复杂系统故障定位的困难性。他强调当前依赖人工排查的方式效率低下,暗示需要引入大模型等智能化手段来优化故障诊断流程。
会议助手(10:14): 李友焕提出了利用大模型进行实时监控和自动修复的需求强调需要精准诊断和工具调用能力。他提到当前依赖人工排查效率低而大模型可以提前发现问题并解决。但团队对大数据组件经验不足沈永佳表示仅了解spring boot暗示技术储备与需求存在差距。
会议助手(12:28): 李友焕发现团队成员对大数据组件缺乏经验这反而被视为学习机会他建议从HDFS和Hadoop入手逐步学习Spark和Hive强调这些技能在工业界仍有广泛应用。他计划分享学习资料并指导实践但显然意识到学习曲线可能较陡。
从之前的讨论来看,团队似乎正在探索如何利用大模型进行系统监控和问题修复,但当前的技术储备明显不足。
会议助手(14:41): 李友焕强调大数据工程师必须掌握HDFS、Hadoop等分布式系统技能建议通过虚拟机搭建环境进行实战演练并推荐了林子雨的线上课程作为学习资源。
他提出通过人为制造错误来测试大模型的监控和修复能力,认为这是展示项目能力的有效方式。
沈永佳全程以简短回应表示认同,显示讨论呈现单向指导性质。
会议助手(17:01): 李友焕强调学习大模型和提示词优化的重要性认为这是未来工作中无法绕开的技能建议用3-4天集中学习。他提到之前学生因代码量不足被质疑但大模型项目的核心难点早已解决。
沈永佳表示问题会在学习过程中出现,显示出对学习过程的务实态度。李友焕进一步说明这个项目对他的硕士生也在进行,透露出他希望学生能真正学到东西的初衷,即使效果不如预期也能接受。
会议助手(19:06): 李友焕强调大模型项目的评估重点已从代码量转向实际应用,表明团队方向正从技术实现转向价值落地。他决定重新接手部分项目,并建议团队集中学习大模型相关技能。值得注意的是,此前因考核标准偏差导致学生保研受挫的经历,似乎促使他更注重项目实效性而非形式指标。
后续对话显示学生正在处理会议录制和纪要等技术问题,但讨论较为零散,可能侧面反映团队在协作流程上仍需磨合。
记录时间:会议全程
记录状态:完整

@ -1 +1,97 @@
小组会议纪要
<<<<<<< HEAD
小组会议纪要
=======
# 第四周小组会议纪要
## 会议基本信息
- **会议时间**: 第四周
- **会议主题**: 大模型数据平台故障检测项目启动会议
- **参会人员**: 项目指导老师:李友焕、项目小组全体成员:沈永佳,邢远鑫,邹佳轩,王祖旺,李涛
## 会议内容
### 1. 项目背景介绍
本次会议正式启动了利用大模型进行数据平台故障检测的研究课题,明确了项目的核心目标和应用价值。
### 2. 核心项目背景与需求
#### 项目目标
利用大模型技术对复杂的大数据平台进行故障检测与自动修复,提升运维效率和自动化水平。
#### 应用场景
- **目标平台**: Hadoop、Spark等复杂分布式系统
- **故障类型**:
- 磁盘损坏
- 内存泄漏
- 进程崩溃
- 其他系统级故障
#### 核心价值
通过大模型技术替代传统的"老师傅"式经验排查模式,实现:
- 更快速的问题发现
- 自动化的故障诊断
- 智能化的修复建议
- 提高整体运维效率
### 3. 项目实现路径
#### 前期任务
1. **技术储备**: 深入学习和实践Hadoop、Spark、Hive等大数据组件
2. **环境搭建**: 自行部署测试环境
3. **故障模拟**: 在环境中主动引发各类故障,积累真实案例作为训练样本
#### 模拟测试策略
- 预设各类错误场景(如定时杀死进程、填满磁盘空间等)
- 验证大模型的监控能力
- 测试故障分析和工具调用的有效性
- 评估自动修复功能的可靠性
#### 前期准备工作
- 学习大模型的IAG指令跟随技术
- 掌握提示词优化相关技能
- 熟悉RAG检索增强生成技术
## 行动计划
### 1. 大数据平台知识储备
- 查阅项目文档中的相关资料链接
- 自主学习HDFS、Hadoop等核心大数据组件
- 深入理解分布式系统架构和常见故障模式
### 2. 实践环境搭建与故障演练
- **硬件配置**: 准备3-5台虚拟机每台配置1GB内存
- **软件部署**: 搭建Hadoop/HDFS集群环境
- **故障演练**: 手动制造或触发各类运行错误
- **数据收集**: 为后续模型测试准备充足的故障案例
### 3. 技术学习重点
- HDFS分布式文件系统
- Hadoop生态系统
- Spark计算引擎
- Hive数据仓库
- **分布式存储系统理论**
- 分布式一致性算法Raft、Paxos
- 数据分片和副本策略
- 存储系统容错机制
- **计算模式理论**
- 批处理计算模式MapReduce
- 流式计算模式Storm、Flink
- 内存计算模式Spark
- 混合计算模式和Lambda架构
- **图数据库理论**
- 图数据模型和查询语言
- 图算法和图计算框架
- Neo4j、Apache Giraph等图数据库技术
- 图数据在故障关联分析中的应用
- 大模型RAG技术
- 提示词工程优化
## 下周工作安排
第四周将根据既定学习计划进行自主学习,重点完成以上待办事项,为项目后续阶段奠定坚实基础。
## 会议总结
本次会议成功明确了项目方向和技术路线,为团队成员指明了学习重点和实践方向。通过系统性的准备工作,我们将为大模型在故障检测领域的应用探索奠定良好基础。
>>>>>>> master

@ -0,0 +1,257 @@
# 邢远鑫第4周个人学习计划
## 个人基本信息
- **姓名**: 邢远鑫
- **周次**: 第4周
- **学习时间**: 每日19:00-22:003小时/天)
- **项目**: 大模型数据平台故障检测项目
## 本周核心目标
### 优先级排序
1. **【高优先级】** 掌握Hadoop生态系统基础知识和架构原理
2. **【高优先级】** 完成虚拟机环境搭建和基础配置
3. **【中优先级】** 学习分布式系统故障检测理论基础
4. **【中优先级】** 了解大模型RAG技术在运维中的应用
5. **【低优先级】** 初步接触提示词工程和大模型调用方法
## 每日计划分解
### 周一Day 1- Hadoop基础理论学习
**时间**: 19:00-22:00
#### 主要任务
- **任务1**: HDFS架构原理学习
- **预期产出**: HDFS核心概念笔记NameNode、DataNode、Block机制
- **时间分配**: 1.5小时
- **依赖资源**: 《Hadoop权威指南》第3-4章、Apache官方文档
- **任务2**: MapReduce计算模型理解
- **预期产出**: MapReduce工作流程图解和代码示例分析
- **时间分配**: 1小时
- **依赖资源**: Hadoop官方教程、WordCount示例代码
- **任务3**: 环境准备规划
- **预期产出**: 虚拟机配置方案和软件清单
- **时间分配**: 0.5小时
- **依赖资源**: VMware/VirtualBox、Linux镜像文件
### 周二Day 2- 虚拟机环境搭建
**时间**: 19:00-22:00
#### 主要任务
- **任务1**: Linux虚拟机安装配置
- **预期产出**: 3台CentOS虚拟机1GB内存/台)
- **时间分配**: 2小时
- **依赖资源**: CentOS 7镜像、虚拟化软件
- **任务2**: 网络配置和SSH设置
- **预期产出**: 虚拟机间免密SSH连接
- **时间分配**: 0.5小时
- **依赖资源**: 网络配置文档
- **任务3**: Java环境安装
- **预期产出**: 所有虚拟机完成JDK 1.8安装和环境变量配置
- **时间分配**: 0.5小时
- **依赖资源**: OpenJDK 1.8安装包
### 周三Day 3- Hadoop集群部署
**时间**: 19:00-22:00
#### 主要任务
- **任务1**: Hadoop软件下载和解压
- **预期产出**: 所有节点完成Hadoop 3.x安装
- **时间分配**: 0.5小时
- **依赖资源**: Hadoop官方下载包
- **任务2**: 集群配置文件设置
- **预期产出**: core-site.xml、hdfs-site.xml等配置文件
- **时间分配**: 1.5小时
- **依赖资源**: Hadoop配置文档、集群规划方案
- **任务3**: 集群启动和验证测试
- **预期产出**: 成功启动HDFS集群并通过基础功能测试
- **时间分配**: 1小时
- **依赖资源**: Hadoop命令行工具、测试数据
### 周四Day 4- 分布式系统理论学习
**时间**: 19:00-22:00
#### 主要任务
- **任务1**: 分布式一致性算法学习
- **预期产出**: Raft和Paxos算法原理总结
- **时间分配**: 1.5小时
- **依赖资源**: 《设计数据密集型应用》相关章节、论文资料
- **任务2**: CAP定理和BASE理论理解
- **预期产出**: 分布式系统权衡策略分析笔记
- **时间分配**: 1小时
- **依赖资源**: 分布式系统教材、在线资源
- **任务3**: 故障检测方法调研
- **预期产出**: 传统故障检测方法vs大模型方法对比分析
- **时间分配**: 0.5小时
- **依赖资源**: 学术论文、技术博客
### 周五Day 5- 大模型技术初探
**时间**: 19:00-22:00
#### 主要任务
- **任务1**: RAG技术原理学习
- **预期产出**: RAG架构图和应用场景总结
- **时间分配**: 1.5小时
- **依赖资源**: RAG技术论文、开源项目文档
- **任务2**: 提示词工程基础
- **预期产出**: 故障检测场景的提示词模板设计
- **时间分配**: 1小时
- **依赖资源**: 提示词工程教程、GPT最佳实践
- **任务3**: 周总结和下周规划
- **预期产出**: 本周学习成果总结和问题清单
- **时间分配**: 0.5小时
- **依赖资源**: 本周学习笔记和实践记录
## 学习/提升计划
### 专业技能学习内容
#### 核心技术栈
1. **大数据平台技术**
- Hadoop生态系统HDFS、MapReduce、YARN
- Apache Spark基础概念
- Hive数据仓库简介
2. **分布式系统理论**
- 分布式一致性和容错机制
- 数据分片和副本策略
- 分布式存储系统设计原理
3. **大模型应用技术**
- RAG检索增强生成技术
- 提示词工程和优化方法
- 大模型在运维场景的应用案例
### 学习时间安排
- **工作日**: 每日19:00-22:003小时
- **周末**: 根据需要进行补充学习和实践
- **总计**: 本周预计15小时理论学习 + 实践操作时间
### 学习资源配置
- **书籍**: 《Hadoop权威指南》、《设计数据密集型应用》
- **文档**: Apache官方文档、技术博客
- **视频**: 相关技术教程和实践案例
- **实践**: 虚拟机环境、开源项目代码
## 风险管理
### 潜在问题预判及应对方案
#### 技术风险
1. **虚拟机资源不足**
- **风险描述**: 硬件配置可能无法支持3台虚拟机同时运行
- **应对方案**:
- 优先搭建单机伪分布式模式
- 合理分配内存资源每台虚拟机512MB起步
- 必要时采用Docker容器化部署
2. **Hadoop配置复杂性**
- **风险描述**: 集群配置涉及多个组件,容易出现配置错误
- **应对方案**:
- 严格按照官方文档步骤操作
- 每个配置步骤都进行验证测试
- 准备回滚方案和配置备份
3. **网络连接问题**
- **风险描述**: 虚拟机网络配置可能导致节点间通信失败
- **应对方案**:
- 提前测试虚拟机网络连通性
- 准备多种网络配置方案NAT、桥接模式
- 记录详细的网络配置步骤
#### 学习进度风险
1. **时间管理挑战**
- **风险描述**: 每日3小时学习时间可能不足以完成所有任务
- **应对方案**:
- 优先完成核心任务,次要任务可延后
- 合理调整任务难度和深度
- 周末时间进行补充学习
2. **理论理解困难**
- **风险描述**: 分布式系统理论较为抽象,理解难度大
- **应对方案**:
- 结合实际案例和图解辅助理解
- 与团队成员讨论交流
- 循序渐进,先掌握基础概念
## 复盘机制
### 每日小结模板
#### 完成情况记录
```markdown
## [日期] 每日学习小结
### ✅ 已完成事项
- [ ] 任务1具体完成内容和质量评估
- [ ] 任务2学习成果和理解程度
- [ ] 任务3实践操作结果
### ❌ 未完成事项
- [ ] 任务名称:未完成原因分析
- [ ] 遇到的具体问题和困难
- [ ] 需要的额外资源或帮助
### 📝 学习收获
- 新掌握的知识点
- 实践中的经验总结
- 对项目理解的深化
### 🔄 明日调整
- 未完成任务的处理方案
- 学习方法的优化调整
- 时间分配的重新规划
```
### 周度总结框架
#### 周总结结构
```markdown
## 第4周学习总结报告
### 📊 目标达成情况
- 核心目标完成度统计
- 各项任务的完成质量评估
- 超预期完成的内容
### 🎯 核心成果
- **技术能力提升**:具体掌握的技能
- **环境搭建成果**:实际部署的系统
- **理论知识积累**:学习的核心概念
- **问题解决能力**:遇到并解决的技术难题
### 🚧 遇到的挑战
- 技术难点和解决过程
- 时间管理的问题和改进
- 学习方法的反思和优化
### 📈 下周改进计划
- 基于本周经验的学习策略调整
- 需要重点关注的技术领域
- 团队协作和资源利用优化
### 📚 知识体系构建
- 本周学习内容在整体项目中的定位
- 与其他技术模块的关联关系
- 为后续学习奠定的基础
```
### 复盘执行机制
- **每日复盘**: 22:00-22:1515分钟
- **周度复盘**: 周日晚进行深度总结
- **问题跟踪**: 建立问题清单,持续跟进解决
- **经验分享**: 与团队成员定期交流学习心得
---
**备注**: 本计划将根据实际学习进度和遇到的问题进行动态调整,确保在有限的学习时间内最大化学习效果,为大模型数据平台故障检测项目奠定坚实的技术基础。
Loading…
Cancel
Save