docs: 补充失败原因分布分析和本项目度量体系

2026-05-28 14:44:38 +08:00
parent 6038d61674
commit 2b915f3246
1 changed files with 30 additions and 0 deletions
--- a/AGENTS.md
+++ b/AGENTS.md
@@ -679,3 +679,33 @@ AI Agent（我）在约束内执行编码
  - 最大重试：3次失败后请求你介入
  - 幂等性：每次重试不产生副作用
 ```
+
+## 失败原因分析（为什么 20% 需要你介入）
+
+根据 OpenAI 实验数据，Agent 无法独立完成的任务按原因分布：
+
+| 原因 | 占比 | 本项目的处理方式 |
+|---|---|---|
+| **架构设计决策** | 35% | 必须由你决策 — Agent 不可碰架构 |
+| **业务逻辑理解** | 25% | 你提供领域知识 + 上下文，Agent 实现 |
+| **创造性设计** | 20% | 你主导方案，Agent 执行验证 |
+| **复杂调试** | 15% | 你定位根因，Agent 修复已知问题 |
+| **其他** | 5% | 协作解决 |
+
+> 75% 的失败源于"理解"和"决策"，而非"编码能力"。
+> 这正是你不可替代的价值所在。
+
+## 本项目的度量体系
+
+| 维度 | 指标 | 采集方式 | 目标 |
+|---|---|---|---|
+| **效率** | 编译通过率 | `mvn compile` 结果 | > 95% |
+|  | 修复迭代次数 | 从失败到通过的重试次数 | < 3 次 |
+|  | 任务完成时间 | 你感知的响应速度 | 合理 |
+| **质量** | 数据流完整性 | 全链路检查通过率 | 100% |
+|  | 变更范围 | git diff --stat | 仅涉及目标文件 |
+|  | 规则覆盖度 | AGENTS.md 约束的适用度 | 持续完善 |
+| **可靠性** | 断点续传成功率 | 失败后从断点恢复 | 每次 |
+|  | 幂等性 | 重复执行无副作用 | 保证 |
+| **满意度** | 你的审查通过率 | 一次审查通过的比例 | > 80% |
+|  | 规则沉淀率 | 每次审查后补充 AGENTS.md | 持续 |