diff --git a/AGENTS.md b/AGENTS.md index 2fdadc2cf..362bd19cc 100755 --- a/AGENTS.md +++ b/AGENTS.md @@ -679,3 +679,33 @@ AI Agent(我)在约束内执行编码 - 最大重试:3次失败后请求你介入 - 幂等性:每次重试不产生副作用 ``` + +## 失败原因分析(为什么 20% 需要你介入) + +根据 OpenAI 实验数据,Agent 无法独立完成的任务按原因分布: + +| 原因 | 占比 | 本项目的处理方式 | +|---|---|---| +| **架构设计决策** | 35% | 必须由你决策 — Agent 不可碰架构 | +| **业务逻辑理解** | 25% | 你提供领域知识 + 上下文,Agent 实现 | +| **创造性设计** | 20% | 你主导方案,Agent 执行验证 | +| **复杂调试** | 15% | 你定位根因,Agent 修复已知问题 | +| **其他** | 5% | 协作解决 | + +> 75% 的失败源于"理解"和"决策",而非"编码能力"。 +> 这正是你不可替代的价值所在。 + +## 本项目的度量体系 + +| 维度 | 指标 | 采集方式 | 目标 | +|---|---|---|---| +| **效率** | 编译通过率 | `mvn compile` 结果 | > 95% | +| | 修复迭代次数 | 从失败到通过的重试次数 | < 3 次 | +| | 任务完成时间 | 你感知的响应速度 | 合理 | +| **质量** | 数据流完整性 | 全链路检查通过率 | 100% | +| | 变更范围 | git diff --stat | 仅涉及目标文件 | +| | 规则覆盖度 | AGENTS.md 约束的适用度 | 持续完善 | +| **可靠性** | 断点续传成功率 | 失败后从断点恢复 | 每次 | +| | 幂等性 | 重复执行无副作用 | 保证 | +| **满意度** | 你的审查通过率 | 一次审查通过的比例 | > 80% | +| | 规则沉淀率 | 每次审查后补充 AGENTS.md | 持续 |