前言

2026年1月,一个新词进入主流视野:Harness Engineering

如果2025年是AI Agent证明自己能写代码的年份,那2026年就是开发者意识到Agent本身不是难点,Harness才是的年份。

Archon 4月的重构发布,把这个概念带入了开源社区。它的核心贡献不是又一个「让AI帮你写代码」的工具,而是一套将AI编程从玄学变工程的方法论

理解这个,你才能理解Archon为什么值得跟踪。

核心问题:AI编程为什么不稳定

用AI编程,最烦的不是AI不会,是AI每次结果不一样

让 Claude Code 或 Cursor 实现一个功能,下次运行可能跳过测试、改变文件组织方式、写出的PR描述违反团队规范。这种概率行为对个人探索有用,对生产环境是噩梦。

这不是模型的bug,是设计上的缺失——没有Harness的AI Agent,就像在生产环境里跑没有fixture的单元测试:不稳定、不可预测、高风险。

Archon的解法:YAML定义工作流

Archon的核心设计是用YAML配置文件替代编排代码,定义完整的工作流:规划→实现→测试→审查→审批→PR创建。

关键点:AI仍然写代码,但结构是确定性的。同样的工作流,每次执行顺序相同。

它的DAG由四种节点组成:

  • AI节点:调用AI推理(分析需求、写代码、生成PR描述)
  • 确定性节点:执行脚本或git操作(运行测试、lint代码、提交变更)
  • 循环节点:迭代直到条件满足(持续运行测试直到通过)
  • 交互节点:在关键检查点暂停,等人工审批

这个混合设计有深刻含义:AI生成代码,确定性节点强制质量门,循环节点保证最终成功,人工审批防止低级错误进入主线。

这不是限制AI创造力,是把创造力导入可靠的生产工作流

为什么YAML,而不是代码?

这是Archon最有争议的设计决策。

LangGraph用代码定义图结构,CrewAI用Python定义Agent角色,Archon用YAML。YAML的优势:

  1. 配置文件即文档:非工程师也能读懂工作流在做什么
  2. 版本控制友好:workflow.yaml改动了什么,一目了然
  3. 执行即审计日志:配置文件和执行记录天然对应
  4. 快速调整:改参数不需要改代码,重跑即可

对于安全合规行业(金融、医疗、法律),最后一点可能是最大的卖点——工作流可以被独立审查,不需要理解代码逻辑。

Stripe的实践证明:这不是理论

Archon不是唯一走这条路的。Stripe在2026年公布的数字让整个行业震动:

  • 每周合并 1,300个PR,含零人类手写代码
  • 这些PR来自Stripe内部的「Minions」系统
  • 系统基于开源的Goose改编,使用Harness架构

Stripe的设计原则:

原则说明
混合编排确定性 guardrail + Agentic 灵活性
精筛上下文给Agent适量信息,不过载
快速反馈循环迭代次数硬限制
人工审查所有变更经过审查,非人工编写

每个Minion在隔离环境中运行,不能触碰生产系统,不能直接推送到main,在定义范围内运作。Agent完成后检查环境,提取diff,自动开PR。

这不是实验,是企业级的生产验证。

核心洞察:Harness质量比模型选择更重要

ByteByteGo在分析Stripe案例时给出了一个反直觉的数据:

两个团队用同样的Claude或GPT模型,任务完成率可以是60%对98%,差距完全来自Harness质量。

原因在于:模型之间的差距在缩小——Anthropic Claude、OpenAI GPT、Google Gemini在能力上正在收敛。真正拉开差距的是Harness质量。

OpenAI的Harness工程实验也印证了这一点:他们用结构化上下文和确定性工作流构建了一个超过100万行代码的生产应用,其中零行是人类手写的。秘诀不是更好的模型,是更好的Harness。

PR接受率数据:Harness决定你离目标多远

Harness质量还直接决定了PR接受率:

任务类型良好Harness下的接受率
文档、CI配置、构建脚本74-92%
功能、bug修复、性能优化35-65%

差的Harness让你在35%附近,好的Harness让你在65%附近。对于需要频繁用AI辅助编程的团队,这个差距是几小时还是几天的工程时间。

Archon vs 现有方案

维度ArchonLangGraphCrewAIGitHub Actions
定义方式YAML代码代码YAML(但不支持AI节点)
AI+确定性混合
内置审批节点需手动
适用场景AI编码流水线通用Agent多Agent协作CI/CD(非AI原生)
学习门槛

Archon和GitHub Actions表面看起来都是YAML,但本质不同:GitHub Actions是给人类开发者用的CI工具,Archon是给AI Agent用的原生工作流引擎

当前局限

Archon v0.1.0刚发布,有几个现实局限:

  • v0.1意味着breaking changes风险高:生产使用需评估稳定性
  • 工具生态还在建设:目前主要是Git/GitHub集成
  • 文档相对简陋:部分用法需要读源码理解

建议持续关注GitHub Releases,按版本评估生产就绪度。

我的判断

Archon最有价值的地方不是YAML本身,是它把**「Harness Engineering」这个概念带入了开源社区的视野**。

2025年大家讨论的是「AI能做什么」,2026年开始讨论「如何让AI稳定地做」。Stripe用1,300 PRs/周证明了这套方法论的可行性,Archon把它开源给社区。

如果你在带队做AI编程相关的工程化工作,Archon值得认真看。如果是个人探索目的,现有的AI编程工具已经足够。

GitHub: https://github.com/coleam00/Archon


相关阅读