docs: 李涛提交第十二周个人周总结

pull/48/head
litao 4 months ago
parent bc65fec621
commit 9fb78440a1

@ -0,0 +1,42 @@
# 第十二周个人周总结
**核心目标达成情况**基于FastAPI搭建了稳定的后端服务完成了日志从远程读取→解析→结构化存储的完整流程解决了Flume HTTPSink/ExecSink因第三方jar包下载问题导致的适配障碍通过Python实现远程日志采集并新增远程操控Hadoop集群节点功能为日志分析、集群管理奠定基础
## 周日:项目架构调整与远程日志采集方案设计
- 1. 项目架构优化调整模块结构新增remote_collector/远程日志采集模块、hadoop_remote_control/集群远程操控模块明确各模块职责原log/模块适配为接收远程远程采集日志的适配接口)
- 2. Flume适配问题处理尝试配置Flume HTTPSink与ExecSink时因第三方依赖jar包无法正常下载仓库连接超时、版本不兼容评估后决定采用Python远程读取方案替代
- 3. 远程读取方案设计设计基于paramiko的SSH远程服务器日志文件读取逻辑支持指定路径、实时监听新增日志编写基础连接与读取函数
- 4. 连通性测试通过Python脚本测试远程Hadoop节点NameNode、DataNode的日志文件读取权限与稳定性验证数据传输完整性
## 周一Hadoop日志格式分析与正则解析适配
- 1. 日志样本补充收集远程读取的HDFS/YARN/MapReduce实时日志样本因远程读取场景补充了不同节点的日志格式差异样本
- 2. 正则表达式优化:基于原计划正则格式((\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) (\w+) (\w+): (.*)针对远程读取的特殊格式含节点IP前缀、进程ID补充匹配规则
- 3. 正则调试与验证重点调试含节点标识、特殊符号的日志样本匹配准确率提升至98%记录2类未匹配场景非标准时间戳、组件名含特殊字符
- 4. 基础匹配函数封装完善正则匹配函数新增节点IP提取逻辑添加远程读取超时的异常捕获
## 周二preprocess_log函数优化与日志结构化
- 1. 核心函数优化升级preprocess_log函数集成远程日志的节点信息提取逻辑结构化字典新增node_ip字段确保日志溯源
- 2. 异常处理完善针对远程读取的空日志、格式错乱日志设置node_ip默认值unknown解析状态标识新增"remote_read_fail"类型
- 3. 单元测试编写新增远程日志样本测试用例覆盖多节点、异常网络场景pytest测试通过率100%
- 4. 性能优化:优化远程读取-解析流水线,采用多线程异步读取+批量解析模式处理效率提升40%
## 周三:日志接收接口升级与远程操控基础接口开发
- 1. 接口逻辑调整:将/api/log/receive接口改造为适配远程采集日志的接收接口实现"远程读取→结构化解析"端到端流程
- 2. 结构化数据校验扩展Pydantic的StructuredLog模型新增node_ip字段校验规则IP格式验证
- 3. 远程操控接口开发设计POST /api/hadoop/control基础接口支持传入节点IP、操作指令start/stop/status实现参数校验逻辑
- 4. 端到端测试:验证日志接收接口对远程日志的解析准确性,测试远程操控接口的指令格式校验功能
## 周四:结构化日志存储与远程操控执行逻辑开发
- 1. 数据库表调整在MySQL的hadoop_logs表中新增node_ip字段优化timestamp+component+node_ip联合索引
- 2. 存储函数优化完善save_structured_log_to_mysql函数支持含node_ip字段的批量写入写入效率提升30%
- 3. 远程操控执行逻辑基于paramiko实现Hadoop服务启停、状态查询的远程执行逻辑添加指令执行超时10s与结果解析
- 4. 可靠性保障添加远程操控的异常重试机制最多3次记录指令执行失败日志含节点IP、指令、错误信息
## 周五:远程采集与操控功能联调
- 1. 远程采集稳定测试持续运行远程日志采集程序8小时验证多节点日志读取的稳定性无丢包、无重复解析成功率97.5%
- 2. 远程操控功能测试对Hadoop集群3个节点进行启停、状态查询测试指令执行成功率100%,结果反馈延迟<2s
- 3. 接口兼容性优化:优化/api/log/receive接口支持单条/批量远程日志接收调整批量处理阈值默认100条/批)
- 4. 监控指标完善:新增远程连接成功率、操控指令执行成功率统计,输出每小时监控报告
## 周六:综合测试与优化
- 1. 性能压测模拟10节点同时远程日志采集2000+条/秒),接口吞吐量达标,数据库写入稳定,定位并优化远程读取线程锁竞争问题
- 2. 功能完善修复远程操控中个别节点指令执行超时的问题调整SSH连接超时参数优化正则对特殊格式日志的匹配逻辑
Loading…
Cancel
Save