前言
2026年1月,一个新词进入主流视野:Harness Engineering。
如果2025年是AI Agent证明自己能写代码的年份,那2026年就是开发者意识到Agent本身不是难点,Harness才是的年份。
Archon 4月的重构发布,把这个概念带入了开源社区。它的核心贡献不是又一个「让AI帮你写代码」的工具,而是一套将AI编程从玄学变工程的方法论。
理解这个,你才能理解Archon为什么值得跟踪。
核心问题:AI编程为什么不稳定
用AI编程,最烦的不是AI不会,是AI每次结果不一样。
让 Claude Code 或 Cursor 实现一个功能,下次运行可能跳过测试、改变文件组织方式、写出的PR描述违反团队规范。这种概率行为对个人探索有用,对生产环境是噩梦。
这不是模型的bug,是设计上的缺失——没有Harness的AI Agent,就像在生产环境里跑没有fixture的单元测试:不稳定、不可预测、高风险。
Archon的解法:YAML定义工作流
Archon的核心设计是用YAML配置文件替代编排代码,定义完整的工作流:规划→实现→测试→审查→审批→PR创建。
关键点:AI仍然写代码,但结构是确定性的。同样的工作流,每次执行顺序相同。
它的DAG由四种节点组成:
- AI节点:调用AI推理(分析需求、写代码、生成PR描述)
- 确定性节点:执行脚本或git操作(运行测试、lint代码、提交变更)
- 循环节点:迭代直到条件满足(持续运行测试直到通过)
- 交互节点:在关键检查点暂停,等人工审批
这个混合设计有深刻含义:AI生成代码,确定性节点强制质量门,循环节点保证最终成功,人工审批防止低级错误进入主线。
这不是限制AI创造力,是把创造力导入可靠的生产工作流。
为什么YAML,而不是代码?
这是Archon最有争议的设计决策。
LangGraph用代码定义图结构,CrewAI用Python定义Agent角色,Archon用YAML。YAML的优势:
- 配置文件即文档:非工程师也能读懂工作流在做什么
- 版本控制友好:workflow.yaml改动了什么,一目了然
- 执行即审计日志:配置文件和执行记录天然对应
- 快速调整:改参数不需要改代码,重跑即可
对于安全合规行业(金融、医疗、法律),最后一点可能是最大的卖点——工作流可以被独立审查,不需要理解代码逻辑。
Stripe的实践证明:这不是理论
Archon不是唯一走这条路的。Stripe在2026年公布的数字让整个行业震动:
- 每周合并 1,300个PR,含零人类手写代码
- 这些PR来自Stripe内部的「Minions」系统
- 系统基于开源的Goose改编,使用Harness架构
Stripe的设计原则:
| 原则 | 说明 |
|---|---|
| 混合编排 | 确定性 guardrail + Agentic 灵活性 |
| 精筛上下文 | 给Agent适量信息,不过载 |
| 快速反馈循环 | 迭代次数硬限制 |
| 人工审查 | 所有变更经过审查,非人工编写 |
每个Minion在隔离环境中运行,不能触碰生产系统,不能直接推送到main,在定义范围内运作。Agent完成后检查环境,提取diff,自动开PR。
这不是实验,是企业级的生产验证。
核心洞察:Harness质量比模型选择更重要
ByteByteGo在分析Stripe案例时给出了一个反直觉的数据:
两个团队用同样的Claude或GPT模型,任务完成率可以是60%对98%,差距完全来自Harness质量。
原因在于:模型之间的差距在缩小——Anthropic Claude、OpenAI GPT、Google Gemini在能力上正在收敛。真正拉开差距的是Harness质量。
OpenAI的Harness工程实验也印证了这一点:他们用结构化上下文和确定性工作流构建了一个超过100万行代码的生产应用,其中零行是人类手写的。秘诀不是更好的模型,是更好的Harness。
PR接受率数据:Harness决定你离目标多远
Harness质量还直接决定了PR接受率:
| 任务类型 | 良好Harness下的接受率 |
|---|---|
| 文档、CI配置、构建脚本 | 74-92% |
| 功能、bug修复、性能优化 | 35-65% |
差的Harness让你在35%附近,好的Harness让你在65%附近。对于需要频繁用AI辅助编程的团队,这个差距是几小时还是几天的工程时间。
Archon vs 现有方案
| 维度 | Archon | LangGraph | CrewAI | GitHub Actions |
|---|---|---|---|---|
| 定义方式 | YAML | 代码 | 代码 | YAML(但不支持AI节点) |
| AI+确定性混合 | ✅ | ❌ | ❌ | ❌ |
| 内置审批节点 | ✅ | 需手动 | ❌ | ❌ |
| 适用场景 | AI编码流水线 | 通用Agent | 多Agent协作 | CI/CD(非AI原生) |
| 学习门槛 | 低 | 高 | 中 | 中 |
Archon和GitHub Actions表面看起来都是YAML,但本质不同:GitHub Actions是给人类开发者用的CI工具,Archon是给AI Agent用的原生工作流引擎。
当前局限
Archon v0.1.0刚发布,有几个现实局限:
- v0.1意味着breaking changes风险高:生产使用需评估稳定性
- 工具生态还在建设:目前主要是Git/GitHub集成
- 文档相对简陋:部分用法需要读源码理解
建议持续关注GitHub Releases,按版本评估生产就绪度。
我的判断
Archon最有价值的地方不是YAML本身,是它把**「Harness Engineering」这个概念带入了开源社区的视野**。
2025年大家讨论的是「AI能做什么」,2026年开始讨论「如何让AI稳定地做」。Stripe用1,300 PRs/周证明了这套方法论的可行性,Archon把它开源给社区。
如果你在带队做AI编程相关的工程化工作,Archon值得认真看。如果是个人探索目的,现有的AI编程工具已经足够。
GitHub: https://github.com/coleam00/Archon
相关阅读: