分享
一文带你弄懂 AI 圈爆火的新概念:Harness Engineering
输入“/”快速插入内容
一文带你弄懂 AI 圈爆火的新概念:Harness Engineering
用户925
用户925
4月8日修改
年初的时候,一个朋友跟我吐槽:他们团队花了几个月调 Agent,换上了最好的旗舰模型,提示词改了上百版。
结果到了真实场景还是不稳定 — 时灵时不灵,效果差强人意。
后来,他们请我来帮忙做调优,我没动模型,也没改提示词。
而是重新设计了任务拆解、状态管理、校验机制和失败恢复的流程。
新版上线后,同样的模型、同样的提示词,任务成功率从不到 70% 涨到了 95% 以上。
朋友问我:"你改的到底是啥?"
说实话,我当时也没有一个现成的词来概括。
直到最近,Harness Engineering 这个概念突然火了起来,我才意识到 — 我改的那些东西,就是 Harness。
今天这篇教程,我会从三个角度把 Harness 这个新概念跟大家讲清楚:
•
Harness 的演进
:从 Prompt Engineering
()
到 Context Engineering 再到 Harness Engineering,AI 工程的重心经历的三次迁移。
•
Harness 的构成
:拆开来看,一个成熟的 Harness 到底包含哪些部分,每一层分别在解决什么问题。
•
Harness 的实践
:OpenAI、Anthropic
()
等头部公司,是怎么在真实产品中落地 Harness 的,以及它们的做法为什么有效。
一、Harness 的演进
过去两年,AI 工程领域经历了三次重心迁移。
表面上看只是术语在更新 —
Prompt Engineering
、
Context Engineering
、
Harness Engineering
。
但把时间线拉长,你会发现它们对应着三个越来越本质的问题:
•
模型是否听得懂你在说什么?
•
模型是否拿到了足够且正确的信息?
•
模型是否能在真实执行中持续做对?
理解这三次迁移,不只是理解几个新名词,而是在理解 AI 系统是如何一步步从 "会聊天" 走向 "可交付" 的。
1.1 Prompt Engineering
大模型刚爆发的时候,很多人第一次感受到一种近乎魔法的体验:
同一个模型,换一种说法,结果可能天差地别。你对它说:
“帮我总结一下这篇文章。”
它可能给你一段平平无奇的概述。但如果你换成:
“请以资深技术编辑的身份,用三段结构总结这篇文章,先讲核心观点,再讲论证方式,最后讲局限性,每段不超过 150 字。”
结果通常会明显好很多。这就是 Prompt Engineering 最早的魅力所在。
它的核心思想很朴素:
模型不是不会,而是你没有把问题讲清楚。既然模型对输入形式敏感,那工程优化的第一步,自然就是优化指令本身。
于是,一整套方法迅速流行起来:
•
角色设定
:先告诉模型 “你是谁”。目的不是 cosplay,而是先限定它该站在哪个专业视角上说话。
•
风格约束
:告诉模型 “怎么说”。解决的不是对不对,而是像不像你要的表达。
•
Few-shot
示例:少讲原则,多给样例。很多时候,模型不是听不懂规则,而是更擅长模仿范式。
•
分步引导
:别让它直接跳答案,先拆再想再答。作用是减少拍脑袋式结论。
•
格式约束
:提前规定输出长什么样。它提升的不是智商,而是可用性。
•
拒答边界
:先划红线,再让它回答。核心是降低 “明明不知道还特别自信” 的风险。
那时候,Prompt 像一把万能钥匙。
很多团队都曾真诚地相信,只要提示词打磨得足够精细,模型就能越来越稳定、越来越好用。
这种判断并不荒谬。
因为在那个阶段,Prompt Engineering 确实解决了一个最直接的问题:
如何把人类意图更准确地映射成模型行为。