init #2

Merged
hnu202326010101 merged 4 commits from shenyongjia_branch into develop 3 months ago

@ -0,0 +1,49 @@
会议记录
会议基本信息
会议主题:利用大模型进行故障检测的新项目启动会
参会人员:李友焕、沈永佳、邢远鑫、邹佳轩、王祖旺、李涛
记录方式AI会议助手实时记录
会议助手(00:00): hi我是你的会议助手我正在帮你实时记录会议纪要请安心开会
会议助手(01:31): 李友焕要求复述故障检测需求,显示对需求理解可能存在模糊点,并建议投屏以便更直观讨论。沈永佳确认需求源于点表阶段,暗示该需求可能较为零散或不够系统化。双方快速确认了需求范围,但缺乏具体细节的展开。
会议助手(03:48): 李友焕在强调项目难度和现实意义,显然希望激发团队动力,提到大模型方向可行且能带来锻炼。
沈永佳在确认文档位置时有些混乱,可能对材料熟悉度不足。
双方在投屏细节上反复沟通,显示协作初期存在技术磨合问题。
李友焕提到腾讯项目经验时,隐含对当前资源条件的担忧。
会议助手(05:53): 李友焕提到与军方的合作因系统敏感性受阻转而进行预先研究。这显示项目面临合规性挑战需要迂回推进。他详细剖析了大数据平台的复杂性从分布式存储到各类组件如Spark、Hadoop、Elasticsearch强调大公司通过集中化技术中台管理数据流。其举例腾讯的实践暗示当前项目需要类似的系统性支撑但现有资源可能不足。
会议助手(08:06): 李友焕详细列举了大数据平台运行中可能出现的各类故障场景,包括内存溢出、资源分配异常、权限问题、数据误删等,凸显了复杂系统故障定位的困难性。他强调当前依赖人工排查的方式效率低下,暗示需要引入大模型等智能化手段来优化故障诊断流程。
会议助手(10:14): 李友焕提出了利用大模型进行实时监控和自动修复的需求强调需要精准诊断和工具调用能力。他提到当前依赖人工排查效率低而大模型可以提前发现问题并解决。但团队对大数据组件经验不足沈永佳表示仅了解spring boot暗示技术储备与需求存在差距。
会议助手(12:28): 李友焕发现团队成员对大数据组件缺乏经验这反而被视为学习机会他建议从HDFS和Hadoop入手逐步学习Spark和Hive强调这些技能在工业界仍有广泛应用。他计划分享学习资料并指导实践但显然意识到学习曲线可能较陡。
从之前的讨论来看,团队似乎正在探索如何利用大模型进行系统监控和问题修复,但当前的技术储备明显不足。
会议助手(14:41): 李友焕强调大数据工程师必须掌握HDFS、Hadoop等分布式系统技能建议通过虚拟机搭建环境进行实战演练并推荐了林子雨的线上课程作为学习资源。
他提出通过人为制造错误来测试大模型的监控和修复能力,认为这是展示项目能力的有效方式。
沈永佳全程以简短回应表示认同,显示讨论呈现单向指导性质。
会议助手(17:01): 李友焕强调学习大模型和提示词优化的重要性认为这是未来工作中无法绕开的技能建议用3-4天集中学习。他提到之前学生因代码量不足被质疑但大模型项目的核心难点早已解决。
沈永佳表示问题会在学习过程中出现,显示出对学习过程的务实态度。李友焕进一步说明这个项目对他的硕士生也在进行,透露出他希望学生能真正学到东西的初衷,即使效果不如预期也能接受。
会议助手(19:06): 李友焕强调大模型项目的评估重点已从代码量转向实际应用,表明团队方向正从技术实现转向价值落地。他决定重新接手部分项目,并建议团队集中学习大模型相关技能。值得注意的是,此前因考核标准偏差导致学生保研受挫的经历,似乎促使他更注重项目实效性而非形式指标。
后续对话显示学生正在处理会议录制和纪要等技术问题,但讨论较为零散,可能侧面反映团队在协作流程上仍需磨合。
记录时间:会议全程
记录状态:完整

@ -1 +1,93 @@
小组会议纪要
# 第四周小组会议纪要
## 会议基本信息
- **会议时间**: 第四周
- **会议主题**: 大模型数据平台故障检测项目启动会议
- **参会人员**: 项目指导老师:李友焕、项目小组全体成员:沈永佳,邢远鑫,邹佳轩,王祖旺,李涛
## 会议内容
### 1. 项目背景介绍
本次会议正式启动了利用大模型进行数据平台故障检测的研究课题,明确了项目的核心目标和应用价值。
### 2. 核心项目背景与需求
#### 项目目标
利用大模型技术对复杂的大数据平台进行故障检测与自动修复,提升运维效率和自动化水平。
#### 应用场景
- **目标平台**: Hadoop、Spark等复杂分布式系统
- **故障类型**:
- 磁盘损坏
- 内存泄漏
- 进程崩溃
- 其他系统级故障
#### 核心价值
通过大模型技术替代传统的"老师傅"式经验排查模式,实现:
- 更快速的问题发现
- 自动化的故障诊断
- 智能化的修复建议
- 提高整体运维效率
### 3. 项目实现路径
#### 前期任务
1. **技术储备**: 深入学习和实践Hadoop、Spark、Hive等大数据组件
2. **环境搭建**: 自行部署测试环境
3. **故障模拟**: 在环境中主动引发各类故障,积累真实案例作为训练样本
#### 模拟测试策略
- 预设各类错误场景(如定时杀死进程、填满磁盘空间等)
- 验证大模型的监控能力
- 测试故障分析和工具调用的有效性
- 评估自动修复功能的可靠性
#### 前期准备工作
- 学习大模型的IAG指令跟随技术
- 掌握提示词优化相关技能
- 熟悉RAG检索增强生成技术
## 行动计划
### 1. 大数据平台知识储备
- 查阅项目文档中的相关资料链接
- 自主学习HDFS、Hadoop等核心大数据组件
- 深入理解分布式系统架构和常见故障模式
### 2. 实践环境搭建与故障演练
- **硬件配置**: 准备3-5台虚拟机每台配置1GB内存
- **软件部署**: 搭建Hadoop/HDFS集群环境
- **故障演练**: 手动制造或触发各类运行错误
- **数据收集**: 为后续模型测试准备充足的故障案例
### 3. 技术学习重点
- HDFS分布式文件系统
- Hadoop生态系统
- Spark计算引擎
- Hive数据仓库
- **分布式存储系统理论**
- 分布式一致性算法Raft、Paxos
- 数据分片和副本策略
- 存储系统容错机制
- **计算模式理论**
- 批处理计算模式MapReduce
- 流式计算模式Storm、Flink
- 内存计算模式Spark
- 混合计算模式和Lambda架构
- **图数据库理论**
- 图数据模型和查询语言
- 图算法和图计算框架
- Neo4j、Apache Giraph等图数据库技术
- 图数据在故障关联分析中的应用
- 大模型RAG技术
- 提示词工程优化
## 下周工作安排
第四周将根据既定学习计划进行自主学习,重点完成以上待办事项,为项目后续阶段奠定坚实基础。
## 会议总结
本次会议成功明确了项目方向和技术路线,为团队成员指明了学习重点和实践方向。通过系统性的准备工作,我们将为大模型在故障检测领域的应用探索奠定良好基础。

@ -1 +1,169 @@
小组周计划
# 第四周小组周计划
## 计划概述
本周是大模型数据平台故障检测项目的启动周,主要任务是进行前期知识储备和技术准备,为后续的实践开发奠定坚实基础。
## 学习目标
### 主要目标
1. **掌握大数据平台核心技术**: 深入理解Hadoop、Spark、Hive等关键组件
2. **了解故障检测需求**: 明确分布式系统常见故障类型和检测方法
3. **学习大模型相关技术**: 掌握RAG、提示词优化等核心技能
4. **制定实践方案**: 为环境搭建和故障演练做好准备
### 具体学习内容
#### 1. 大数据平台技术栈
- **HDFS (Hadoop分布式文件系统)**
- 架构原理和核心组件
- 数据存储和副本机制
- 常见故障模式分析
- **Hadoop生态系统**
- MapReduce计算框架
- YARN资源管理
- 集群部署和配置
- **Apache Spark**
- 内存计算原理
- RDD和DataFrame操作
- 性能优化策略
- **Apache Hive**
- 数据仓库架构
- SQL查询引擎
- 元数据管理
- **分布式存储系统理论**
- 分布式一致性算法Raft、Paxos、PBFT
- CAP定理和BASE理论
- 数据分片策略Range、Hash、Directory
- 副本管理和数据同步机制
- 存储系统容错和恢复机制
- 分布式锁和事务处理
- **计算模式理论**
- 批处理计算模式MapReduce、Hadoop
- 流式计算模式Storm、Flink、Kafka Streams
- 内存计算模式Spark、Hazelcast
- 混合计算模式和Lambda架构
- 边缘计算和雾计算模式
- 无服务器计算Serverless模式
- **图数据库理论**
- 图数据模型和图论基础
- 图查询语言Cypher、Gremlin、SPARQL
- 图算法(最短路径、社区发现、中心性分析)
- 图计算框架Apache Giraph、GraphX、Pregel
- 图数据库技术Neo4j、ArangoDB、JanusGraph
- 图数据在故障关联分析和根因分析中的应用
#### 2. 大模型技术学习
- **RAG (检索增强生成)**
- 技术原理和应用场景
- 向量数据库使用
- 知识库构建方法
- **提示词工程**
- 提示词设计原则
- 上下文优化技巧
- 指令跟随(IAG)技术
- **模型调用和集成**
- API接口使用
- 工具链集成方案
- 自动化流程设计
## 本周具体任务
### 第一阶段:理论学习 (周一-周三)
#### 任务1: 大数据平台基础学习
- [ ] 阅读Hadoop官方文档理解HDFS架构
- [ ] 学习Spark核心概念和编程模型
- [ ] 研究Hive数据仓库解决方案
- [ ] 学习分布式存储系统理论一致性算法、CAP定理、数据分片策略
- [ ] 掌握各种计算模式批处理、流式、内存计算、Lambda架构
- [ ] 研究图数据库理论和图算法基础
- [ ] 整理常见故障类型和解决方案
#### 任务2: 大模型技术研究
- [ ] 学习RAG技术原理和实现方法
- [ ] 研究提示词优化最佳实践
- [ ] 了解大模型在运维领域的应用案例
- [ ] 探索自动化故障诊断的可能性
- [ ] 研究图数据库在故障关联分析中的应用
- [ ] 学习分布式系统故障检测的理论基础
### 第二阶段:方案设计 (周四-周五)
#### 任务3: 环境规划
- [ ] 设计虚拟机集群架构3-5台每台1GB内存
- [ ] 制定Hadoop/HDFS部署方案
- [ ] 规划故障模拟测试场景
- [ ] 准备环境搭建所需资源
#### 任务4: 项目方案制定
- [ ] 设计故障检测系统架构
- [ ] 制定数据收集和标注策略
- [ ] 规划模型训练和测试流程
- [ ] 确定技术选型和工具链
## 学习资源
### 官方文档
- [Apache Hadoop官方文档](https://hadoop.apache.org/docs/)
- [Apache Spark官方指南](https://spark.apache.org/docs/latest/)
- [Apache Hive用户手册](https://hive.apache.org/docs/)
### 推荐学习材料
- 《Hadoop权威指南》
- 《Spark快速大数据分析》
- 《分布式系统概念与设计》
- 《图数据库》Ian Robinson著
- 《设计数据密集型应用》Martin Kleppmann著
- 大模型RAG技术博客和论文
- 提示词工程实践案例
- Neo4j官方文档和图算法指南
- 分布式一致性算法论文Raft、Paxos
### 实践环境
- 虚拟化平台VMware/VirtualBox
- Linux操作系统CentOS/Ubuntu
- Java开发环境
- Python数据科学工具栈
## 预期成果
### 本周交付物
1. **学习笔记**: 大数据平台和大模型技术要点总结
2. **环境方案**: 详细的集群搭建和配置方案
3. **故障清单**: 常见故障类型和检测方法汇总
4. **项目规划**: 下阶段实践任务的详细计划
### 能力提升目标
- 具备大数据平台基础运维能力
- 理解分布式系统故障检测原理
- 掌握大模型应用开发基础
- 能够设计故障检测解决方案
## 风险与应对
### 潜在风险
1. **学习内容过多**: 大数据技术栈庞大,可能无法在一周内全面掌握
2. **资源限制**: 虚拟机性能可能影响实践效果
3. **技术难度**: 大模型集成可能存在技术挑战
### 应对策略
1. **重点突破**: 优先学习核心组件,逐步扩展知识面
2. **资源优化**: 合理配置虚拟机资源,采用轻量化部署
3. **团队协作**: 分工合作,发挥各成员技术优势
## 下周展望
基于本周的学习成果,下周将开始实际的环境搭建和故障演练工作,为大模型训练准备充足的数据样本。
---
**备注**: 本计划将根据实际学习进度和遇到的问题进行动态调整,确保学习效果和项目进度的平衡。

@ -1 +1,173 @@
沈永佳个人周计划
# 沈永佳第四周个人学习计划
## 个人学习目标
基于小组会议确定的项目方向,本周将重点进行大数据平台故障检测相关的理论学习和技术储备,为后续的实践开发奠定坚实基础。
## 核心学习任务
### 1. HDFS分布式文件系统深入学习
#### 学习重点
- **HDFS架构和核心组件**
- NameNode和DataNode的工作原理
- Secondary NameNode的作用和机制
- HDFS的数据存储和读写流程
- 块(Block)机制和副本策略
- **HDFS配置和管理**
- HDFS配置文件详解(core-site.xml, hdfs-site.xml)
- 集群启动和关闭流程
- HDFS命令行操作和管理
- 安全模式和故障恢复
- **HDFS性能优化**
- 数据本地性优化
- 负载均衡配置
- 存储策略和压缩
- 监控和日志分析
#### 具体任务安排
- **周一**: 深入学习HDFS架构原理理解NameNode和DataNode机制
- **周二**: 实践HDFS配置文件设置和集群管理操作
- **周三**: 学习HDFS性能优化和故障排查方法
### 2. Hadoop生态系统实践学习
#### 学习重点
- **Hadoop核心组件**
- MapReduce计算框架原理和编程模型
- YARN资源管理和任务调度
- Hadoop Common工具库使用
- **Hadoop集群部署**
- 单机模式、伪分布式模式、完全分布式模式
- 集群规划和硬件配置要求
- 网络配置和安全设置
- **Hadoop运维管理**
- 集群监控和性能调优
- 日志管理和问题诊断
- 备份和恢复策略
#### 具体任务安排
- **周四上午**: 学习MapReduce编程模型编写简单的WordCount程序
- **周四下午**: 研究YARN资源管理机制和任务调度策略
- **周五上午**: 实践Hadoop集群部署和配置优化
### 3. 环境搭建和配置实践
#### 学习重点
- **虚拟机环境准备**
- Linux系统安装和基础配置
- 网络配置和SSH免密登录设置
- Java环境安装和配置
- **Hadoop集群搭建**
- 3-5台虚拟机的集群架构设计
- Hadoop软件下载、安装和配置
- 集群启动测试和验证
- **环境优化和故障模拟**
- 系统参数调优和性能监控
- 故障场景设计和模拟测试
- 日志收集和分析工具配置
#### 具体任务安排
- **周五下午**: 准备虚拟机环境安装Linux系统和Java环境
- **周六**: 搭建Hadoop集群完成基础配置和测试
- **周日**: 进行故障模拟测试,收集故障数据样本
### 4. 理论基础补充学习
#### 学习重点(适度了解)
- **分布式系统基础概念**
- 分布式系统的基本特征和挑战
- 数据一致性和容错机制简介
- **大数据处理模式**
- 批处理和流处理的基本概念
- 大数据处理的常见架构模式
- **大模型技术应用**
- RAG技术在运维中的应用场景
- 提示词工程的基本方法
#### 具体任务安排
- **每日晚间**: 轻量化理论学习,重点关注与实践相关的概念
## 学习资源和参考材料
### 核心书籍
1. 《Hadoop权威指南》- 大数据平台技术详解和实践指导
2. 《Hadoop实战》- 实际项目开发和部署经验
3. 《HDFS源码分析与开发实战》- 深入理解HDFS内部机制
4. 《大数据技术原理与应用》- 大数据生态系统概览
### 技术文档和官方资料
1. Apache Hadoop官方文档和配置指南
2. HDFS架构设计文档和最佳实践
3. Hadoop集群部署和运维手册
4. MapReduce编程指南和示例代码
### 在线资源和实践教程
1. Hadoop官方教程和快速入门指南
2. HDFS命令行操作和管理实践
3. 虚拟机环境搭建视频教程
4. Hadoop故障排查和性能优化案例
## 学习成果和交付物
### 本周预期成果
1. **HDFS实践报告**: HDFS架构理解和配置实践总结
2. **Hadoop集群搭建文档**: 详细的集群部署步骤和配置说明
3. **环境配置手册**: 虚拟机环境准备和优化配置指南
4. **故障模拟测试报告**: 故障场景设计和测试结果分析
5. **MapReduce程序示例**: 完成的WordCount等基础程序代码
### 能力提升目标
- 熟练掌握HDFS的架构原理和操作管理
- 具备Hadoop集群的部署和运维能力
- 能够进行基本的MapReduce程序开发
- 掌握虚拟机环境配置和故障模拟技能
- 为后续的故障检测系统开发做好环境准备
## 学习计划执行策略
### 时间安排
- **工作日**: 每日4-5小时专注学习和实践时间
- **周末**: 每日6-8小时集中进行环境搭建和配置实践
- **总计**: 本周预计投入35-40小时学习和实践时间
### 学习方法
1. **理论与实践结合**: 边学习理论边进行实际操作验证
2. **环境搭建优先**: 优先完成虚拟机和Hadoop环境配置
3. **循序渐进**: 从单机模式开始,逐步搭建分布式集群
4. **问题驱动**: 通过解决实际配置问题加深理解
5. **文档记录**: 详细记录配置步骤和遇到的问题解决方案
### 进度跟踪
- 每日记录环境配置进度和遇到的技术问题
- 每完成一个配置阶段进行功能测试验证
- 每两天与小组成员分享配置经验和问题解决方案
- 周末进行阶段性总结和下周环境优化计划
## 风险预案
### 潜在挑战
1. **环境配置复杂**: Hadoop集群配置涉及多个组件可能遇到兼容性问题
2. **虚拟机资源限制**: 硬件资源可能不足以支持完整的分布式集群
3. **网络配置难题**: 虚拟机网络配置和SSH连接可能出现问题
4. **版本兼容性**: 不同版本的Hadoop、Java可能存在兼容性问题
### 应对策略
1. **分步骤配置**: 先完成单机模式,再逐步扩展到伪分布式和完全分布式
2. **资源优化**: 合理分配虚拟机资源,采用轻量化配置方案
3. **文档参考**: 严格按照官方文档和成熟教程进行配置
4. **版本统一**: 选择稳定的版本组合,避免使用最新的不稳定版本
5. **问题记录**: 详细记录遇到的问题和解决方案,建立个人知识库
6. **团队协作**: 与小组成员共享配置经验,互相帮助解决技术难题
---
**备注**: 本计划将根据实际环境配置进度和遇到的技术问题进行动态调整优先确保Hadoop环境的成功搭建和基本功能验证为后续的故障检测项目奠定坚实的技术基础。
Loading…
Cancel
Save