|
|
|
|
@ -0,0 +1,41 @@
|
|
|
|
|
# 第十三周周计划(沈永佳)
|
|
|
|
|
|
|
|
|
|
## 目标与产出
|
|
|
|
|
- 完成模型 API 接入与联调,形成可复用的配置与调用封装(支持超时、重试、错误分类)。
|
|
|
|
|
- 扩展 AI 路由策略,基于任务类型与风险等级选择模型/工具,支持降级与熔断。
|
|
|
|
|
- 加强日志与基础命令工具度量,完善字段与采样策略,支持链路追踪与失败复盘。
|
|
|
|
|
- 提升 Cloudflare 本地隧道稳定性,加入健康探测与自动重连,验证跨网联调的可用性。
|
|
|
|
|
- 打通“注册集群”端到端流程,在可达网络环境下完成 UUID 采集与持久化,输出联调案例与文档。
|
|
|
|
|
|
|
|
|
|
## 任务拆分
|
|
|
|
|
- 模型 API
|
|
|
|
|
- 封装调用层:统一 `base_url/api_key/timeout/retry` 等配置;实现错误分类(网络、鉴权、配额、语义)。
|
|
|
|
|
- 接口适配:支持对话与函数调用(tools/functions),返回结构标准化。
|
|
|
|
|
- 联调与回归:编写最小用例集,覆盖成功、超时、速率限制与服务不可用。
|
|
|
|
|
- AI 路由
|
|
|
|
|
- 策略扩展:根据任务意图、复杂度、敏感级别路由到不同模型或工具。
|
|
|
|
|
- 降级方案:工具不可用/模型失败时回退到基础命令或手工提示,记录降级原因。
|
|
|
|
|
- 性能与配额:加入节流与并发控制,避免突发请求压垮外部服务。
|
|
|
|
|
- 日志与命令工具
|
|
|
|
|
- 字段统一:时间、级别、traceId、actor、action、args、result、duration、error。
|
|
|
|
|
- 指标采集:为命令执行增加耗时、成功率、重试次数与错误类型统计。
|
|
|
|
|
- 观测接入:整理聚合/查询方案,形成查询示例与故障排查手册。
|
|
|
|
|
- 隧道稳定性
|
|
|
|
|
- 健康检查:周期性心跳与重连;对中断/抖动场景进行基线测试。
|
|
|
|
|
- 安全与访问:整理访问控制与临时授权流程,避免泄露内部端点。
|
|
|
|
|
- 集群注册联调
|
|
|
|
|
- 网络打通:在可达网络环境验证 SSH 连接与 HDFS `VERSION` 读取。
|
|
|
|
|
- 接口脚本:提供 `curl/httpx` 脚本与演示数据,记录常见失败与处理建议。
|
|
|
|
|
- 文档与案例:更新 README 与联调用例,明确前置条件与错误码语义。
|
|
|
|
|
|
|
|
|
|
## 验收标准
|
|
|
|
|
- 模型 API:完成至少 6 个场景的联调(成功/超时/配额/鉴权/不可达/降级),全部用例通过。
|
|
|
|
|
- AI 路由:三类任务(信息检索、运维命令、数据加工)均可正确路由与降级,记录路由决策与耗时。
|
|
|
|
|
- 日志与工具:日志字段完整且有样例;命令工具导出基础指标并可检索。
|
|
|
|
|
- 隧道:连续运行 24 小时稳定,断线重连成功率 ≥ 95%,提供问题清单与改进建议。
|
|
|
|
|
- 集群注册:在可达环境下完成一次成功注册,含 UUID 采集与后续指标采集启动。
|
|
|
|
|
|
|
|
|
|
## 风险与应对
|
|
|
|
|
- 外部模型服务不稳定:增加重试与降级策略,关键路径旁路到基础命令。
|
|
|
|
|
- 网络不可达:准备本地可达环境或内网代理,避免联调阻塞;记录替代流程。
|
|
|
|
|
- 日志敏感信息:严格脱敏与分级,限制密钥与密码进入持久化存储。
|