七脉神剑的秘密

七脉神剑-日常学习笔记
日常学习的笔记稿与记录稿
  1. 首页
  2. 好好学习
  3. AI-study
  4. 正文

面向长期运行型应用开发的 Harness 设计(译文)

2026年3月26日 8点热度 0人点赞 0条评论

面向长期运行型应用开发的 Harness 设计 (原文译文)

发布于 2026 年 3 月 24 日
Harness 设计是前沿智能体编程(agentic coding)领域实现高性能的关键。本文将介绍我们如何通过这一设计,在前端开发和长期自主软件工程领域进一步提升 Claude 的能力。
作者:普里特维・拉贾塞卡兰(Prithvi Rajasekaran),Anthropic 实验室团队成员
过去几个月里,我一直在攻克两个相互关联的难题:一是让 Claude 生成高质量前端设计,二是让它在无需人工干预的情况下构建完整应用。这项工作源于我们早期在前端设计能力和长期运行型编码智能体 Harness 上的探索 —— 当时我和同事通过提示词工程与 Harness 设计,已将 Claude 的性能提升至远超基准水平,但两者最终都遇到了瓶颈。
为实现突破,我探索了适用于两个截然不同领域的全新 AI 工程方法:一个领域(前端设计)依赖主观审美判断,另一个(自主编程)则强调可验证的正确性与可用性。受生成对抗网络(GANs)启发,我设计了包含生成器智能体(generator) 和评估器智能体(evaluator) 的多智能体架构。要打造一个能可靠且有 “审美” 地评估输出结果的评估器,首先需要制定一套标准,将 “这个设计是否优秀” 这类主观判断转化为具体、可量化的评分指标。
随后,我将这些技术应用于长期自主编程任务,并延续了早期 Harness 开发中的两个核心经验:将构建过程拆解为可处理的模块,以及通过结构化产物在不同会话间传递上下文。最终形成的三智能体架构 —— 规划器(planner)、生成器(generator)和评估器(evaluator)—— 能够在数小时的自主编码会话中,生成功能完善的全栈应用。

朴素实现方案的局限性

我们此前已证明,Harness 设计对长期运行型智能体编程的有效性至关重要。在早期实验中,我们通过初始化智能体将产品需求分解为任务清单,再由编码智能体逐一实现功能,并通过产物传递在不同会话间保持上下文连贯性。开发者社区也逐渐形成了类似共识,例如 “拉尔夫・威格姆(Ralph Wiggum)” 方法就通过钩子函数或脚本让智能体保持持续迭代。
但仍有一些问题长期存在。面对更复杂的任务,智能体在长时间运行后容易 “偏离轨道”。通过拆解分析,我们发现智能体执行此类任务时存在两种常见失效模式:
其一,随着上下文窗口被占满,模型在长任务中容易失去连贯性(详见我们关于上下文工程的文章)。部分模型还会出现 “上下文焦虑” 现象 —— 当感知到接近自身上下文限制时,会过早结束工作。而 “上下文重置” 机制(完全清空上下文窗口并启动新智能体,同时通过结构化传递保留前序智能体的状态和后续步骤)能同时解决这两个问题。
这与 “压缩(compaction)” 机制不同:压缩是原地总结对话早期内容,让同一智能体在缩短的历史记录上继续工作。虽然压缩能保持连续性,但无法给智能体提供 “干净的起点”,因此 “上下文焦虑” 可能依然存在。重置机制虽能提供干净起点,但需要传递产物包含足够状态,确保新智能体无缝接手工作。在早期测试中,我们发现 Claude Sonnet 4.5 的 “上下文焦虑” 现象尤为明显,仅靠压缩不足以保障长任务性能,因此上下文重置成为 Harness 设计的核心要素。这一方案虽解决了核心问题,但也增加了每次 Harness 运行的编排复杂度、令牌开销和延迟。
其二,自我评估问题(这是我们此前未解决的痛点)。当要求智能体评估自己的产出时,它们往往会自信地给出正面评价 —— 即便在人类观察者看来,产出质量明显平庸。这一问题在设计等主观任务中尤为突出,这类任务不存在软件测试那样的二元验证标准。界面布局是否精致、是否平庸,本质是主观判断,而智能体在自我评分时总是倾向于给出正向反馈。
即便在有可验证结果的任务中,智能体有时也会因判断失误影响任务进度。将执行工作的智能体与评估工作的智能体分离,被证明是解决这一问题的有效手段。这种分离本身并不能立即消除评估的宽容性 —— 评估器本质仍是大语言模型,对同类模型生成的输出天然倾向于宽容。但将独立评估器调优为 “持怀疑态度”,远比让生成器自我批判容易得多;而一旦获得外部反馈,生成器就有了明确的迭代方向。

前端设计:让主观质量可量化评分

我首先从前端设计领域入手实验,因为自我评估问题在这里表现得最为明显。在无任何干预的情况下,Claude 通常会倾向于生成安全、可预测的布局 —— 技术上可用,但视觉上毫无亮点。
我为前端设计构建的 Harness 源于两个核心洞察:第一,虽然美学无法完全量化(个人审美始终存在差异),但可以通过编码设计原则和偏好的评分标准来提升质量。“这个设计是否美观?” 难以给出一致答案,但 “这个设计是否符合优质设计原则?” 能为 Claude 提供明确的评分依据。第二,将前端生成与前端评分分离,可构建驱动生成器产出更优结果的反馈循环。
基于这一思路,我制定了四项评分标准,并将其纳入生成器和评估器的提示词中:
  • 设计质量:设计是否呈现出连贯的整体感,而非零散部分的堆砌?优秀的设计应让色彩、排版、布局、图像等细节融合统一,形成独特的氛围和辨识度。
  • 原创性:设计中是否体现出定制化决策,还是仅使用模板布局、库默认样式和 AI 生成的通用模式?人类设计师应能识别出刻意的创意选择。未修改的现成组件(或带有紫色渐变叠加白色卡片等 AI 生成痕迹的设计)将被判定为不达标。
  • 工艺水准:技术执行质量,包括排版层级、间距一致性、色彩协调性和对比度。这是对技术能力的检验,而非创意检验。大多数合理实现默认都能达标,未达标则意味着基础技术存在缺陷。
  • 功能性:与美学无关的可用性。用户能否理解界面功能、找到核心操作,并无需猜测即可完成任务?
我将设计质量和原创性置于工艺水准和功能性之上。Claude 在工艺和功能方面的表现本就出色 —— 所需的技术能力对模型而言较为自然。但在设计和原创性上,Claude 生成的输出往往平庸乏味。该标准明确 penalizes 高度通用的 “AI 模板化产物”,通过加重设计和原创性的权重,推动模型在美学上承担更多风险、进行更多创新。
我通过少量带详细分数拆解的示例对评估器进行校准,确保其判断与我的偏好一致,并减少迭代过程中的评分偏差。
这一循环基于 Claude Agent SDK 构建,编排过程简洁高效:生成器智能体首先根据用户提示创建 HTML/CSS/JS 前端;评估器借助 Playwright MCP(模型控制协议)直接与运行中的页面交互,随后对每项标准评分并撰写详细评论。实际运行中,评估器会自主导航页面、截图分析,在深入研究实现细节后再给出评估结果。这些反馈会作为输入传递给生成器,用于下一轮迭代。每个生成任务通常运行 5 至 15 轮迭代,每轮迭代都会根据评估器的评论,推动生成器向更具独特性的方向优化。由于评估器需要主动导航页面而非仅对静态截图评分,每个循环都需要实际耗时,完整运行时间最长可达四小时。我还要求生成器在每次评估后做出策略决策:若分数呈上升趋势,则优化当前方向;若方案无效,则彻底转向全新美学风格。
在多轮运行中,评估器的评估质量会在迭代中逐步提升,随后趋于平稳,仍有进一步优化空间。部分生成结果会逐步细化,另一些则在迭代间出现显著的美学转向。
评分标准的措辞对生成器的引导效果超出了我的预期。例如,“最佳设计应具备博物馆级水准” 这样的表述,会推动设计向特定视觉风格收敛,这表明与标准相关的提示词会直接影响输出的核心特征。
虽然分数总体呈上升趋势,但并非严格线性。后期实现整体更优,但我经常发现中间某轮迭代的结果比最终版本更合预期。实现复杂度也会随轮次增加 —— 生成器为响应评估器的反馈,会尝试更具挑战性的解决方案。即便在第一轮迭代中,输出结果也明显优于无任何提示的基准版本,这表明在评估器反馈带来进一步优化前,标准本身及相关表述已引导模型摆脱了通用默认样式。
一个典型案例是,我要求模型为荷兰艺术博物馆创建网站。第九轮迭代时,模型生成了一个简洁的深色主题虚构博物馆首页,视觉精致但符合预期。而在第十轮,模型彻底抛弃原有方案,将网站重新构想为空间化体验:通过 CSS 透视效果渲染带方格地板的 3D 房间,艺术品以自由形式悬挂在墙上,用户通过 “门口” 而非滚动或点击在展厅间导航。这种创造性突破是单次生成无法实现的。

扩展至全栈编程

基于这些发现,我将这种受 GAN 启发的模式应用于全栈开发。生成器 - 评估器循环与软件工程生命周期天然契合 —— 代码审查和质量保障(QA)在结构上与设计评估器扮演着相同角色。

架构设计

在早期的长期运行型 Harness 中,我们通过初始化智能体、按功能模块工作的编码智能体,以及会话间的上下文重置,实现了连贯的多会话编程。上下文重置是关键突破:该 Harness 基于 Sonnet 4.5 构建,而该模型存在前文提到的 “上下文焦虑” 问题。构建能良好支持上下文重置的 Harness,是确保模型专注任务的核心。而 Opus 4.5 本身已大幅改善了这一行为,因此我在此次 Harness 中完全移除了上下文重置机制。智能体在整个构建过程中保持连续会话,Claude Agent SDK 的自动压缩功能会处理上下文增长问题。
本次工作在原有 Harness 基础上构建了三智能体系统,每个智能体针对我在前期运行中发现的特定缺口设计:
  • 规划器(Planner):早期的长期运行型 Harness 要求用户预先提供详细需求说明。为自动化这一步骤,我设计了规划器智能体 —— 它能将 1-4 句简短提示扩展为完整产品需求说明。我要求它在范围上大胆规划,重点关注产品背景和高层技术设计,而非具体技术实现。这是因为若规划器过早指定细粒度技术细节且出现错误,这些错误会在后续实现中逐级放大。更合理的做法是明确智能体的交付物,让它们在工作过程中自主规划实现路径。我还要求规划器在产品需求中融入 AI 功能(附录提供示例)。
  • 生成器(Generator):早期 Harness 中 “一次实现一个功能” 的模式在范围管理上效果良好,我在此沿用了类似思路 —— 要求生成器按迭代周期(sprint)工作,从需求说明中逐一选取功能实现。每个迭代周期都基于 React、Vite、FastAPI 和 SQLite(后期改为 PostgreSQL)技术栈构建应用,生成器需在每个迭代周期结束后自我评估,再移交至 QA 环节。此外,它还集成了 Git 版本控制功能。
  • 评估器(Evaluator):早期 Harness 生成的应用往往表面亮眼,但实际使用时存在大量漏洞。为解决这一问题,评估器借助 Playwright MCP 模拟用户操作 —— 点击运行中的应用,测试 UI 功能、API 端点和数据库状态。随后,它会根据发现的漏洞,以及一套基于前端实验改编的标准(涵盖产品深度、功能性、视觉设计和代码质量),对每个迭代周期进行评分。每项标准都设有硬性阈值,若任意一项未达标,迭代周期即判定失败,生成器会收到关于问题的详细反馈。
在每个迭代周期开始前,生成器和评估器会协商一份 “迭代契约”:在编写任何代码前,就该模块工作的 “完成标准” 达成一致。这一环节的必要性在于,产品需求故意设计为高层级,需要通过该步骤衔接用户故事与可测试的实现方案。生成器提出拟构建内容及验证成功的方式,评估器审核提案以确保生成器在构建正确的功能。双方会反复迭代直至达成共识。
智能体间通过文件通信:一个智能体写入文件,另一个智能体读取后,要么在该文件中回应,要么创建新文件供前一个智能体读取。生成器根据达成一致的契约构建产品,再将工作移交至 QA 环节。这种方式既能确保工作忠实于需求说明,又不会过早过度限定实现细节。

Harness 运行测试

我使用 Claude Opus 4.5 构建了首个版本的 Harness,并将用户提示同时在完整 Harness 和单智能体系统中运行以作对比 —— 选择该模型是因为实验启动时,它是我们最擅长编码的模型。
我编写了如下提示词生成复古视频游戏制作工具:

创建一款 2D 复古游戏制作工具,包含关卡编辑器、精灵编辑器、实体行为设置和可玩测试模式。

下表展示了不同 Harness 的运行时间和总成本:
表格
Harness 类型 运行时长 成本
单智能体(Solo) 20 分钟 9 美元
完整 Harness 6 小时 200 美元
完整 Harness 的成本是单智能体的 20 倍以上,但输出质量的差异一目了然。
我原本期望得到一个这样的界面:用户可构建关卡及组件(精灵、实体、瓦片布局),点击 “播放” 即可实际体验关卡。打开单智能体生成的应用时,初始界面看似符合预期,但点击操作后问题逐渐暴露:布局浪费空间,固定高度的面板导致大部分视口闲置;工作流程僵化 —— 尝试填充关卡时,系统要求先创建精灵和实体,但界面未提供任何流程引导;更关键的是,游戏核心功能无法使用 —— 实体虽能显示在屏幕上,但完全不响应输入。深入查看代码后发现,实体定义与游戏运行时之间的关联逻辑存在缺陷,且界面无任何相关提示。
单智能体生成的应用:精灵编辑器界面、精灵创建过程、尝试游玩关卡失败的场景
评估完单智能体运行结果后,我转向了 Harness 运行产物。该运行基于相同的单句提示,但规划器环节将其扩展为包含 16 项功能、分 10 个迭代周期的需求说明,远超单智能体的尝试范围。除核心编辑器和测试模式外,需求说明还包含精灵动画系统、行为模板、音效和音乐、AI 辅助精灵生成与关卡设计,以及支持分享链接的游戏导出功能。我为规划器提供了前端设计能力文档,它在需求说明中融入了该文档的视觉设计语言。每个迭代周期中,生成器和评估器都会协商契约,明确该周期的具体实现细节和验证完成的可测试行为。
Harness 生成的应用立即展现出比单智能体产物更精致、流畅的体验:画布充分利用视口空间,面板尺寸合理,界面遵循需求说明中的设计方向,保持一致的视觉标识。单智能体产物中的部分缺陷依然存在 —— 工作流程仍未明确提示 “应先创建精灵和实体再填充关卡”,需用户自行摸索。这反映出基础模型在产品直觉上的不足,而非 Harness 设计的问题,但也表明可通过 Harness 内部的定向迭代进一步提升输出质量。
深入使用编辑器后,Harness 产物的优势更加明显:精灵编辑器功能更丰富完善,工具栏更简洁,颜色选择器更易用,缩放控制更便捷。
由于我要求规划器在需求中融入 AI 功能,该应用还内置了 Claude 集成 —— 用户可通过提示词生成游戏各部分内容,大幅提升工作流程效率。
Harness 生成的应用:初始界面(创建新游戏)、精灵编辑器(更简洁易用)、AI 辅助关卡生成过程、实际游玩场景
最大的差异体现在测试模式:我能够正常移动实体并游玩关卡。物理效果虽有瑕疵 —— 角色跳上平台后出现重叠现象,不符合直觉 —— 但核心功能可正常使用,这是单智能体产物未能实现的。游玩一段时间后,我发现 AI 生成的关卡存在局限性:有一堵高墙无法跳过,导致游戏陷入僵局。这表明 Harness 仍有改进空间,可通过优化处理此类常识性问题和边缘场景。
查看日志后发现,评估器始终确保实现与需求说明一致。每个迭代周期中,评估器都会对照契约中的测试标准,通过 Playwright 运行应用,对任何偏离预期行为的情况记录漏洞。契约粒度精细 —— 仅第三个迭代周期就包含 27 项关于关卡编辑器的标准,评估器的发现足够具体,无需额外调查即可直接采取行动。下表列出了评估器发现的部分问题:
表格
契约标准 评估器发现
矩形填充工具支持点击拖拽,用选中的瓦片填充矩形区域 失败—— 工具仅在拖拽起点 / 终点放置瓦片,未填充整个区域。fillRectangle 函数已存在,但未在鼠标抬起(mouseUp)时正确触发。
用户可选择并删除已放置的实体生成点 失败——LevelEditor.tsx:892 处的删除键处理器要求同时设置 selection 和 selectedEntityId,但点击实体仅设置 selectedEntityId。条件应修改为 `selection (selectedEntityId && activeLayer === 'entity')`。
用户可通过 API 重新排序动画帧 失败——PUT /frames/reorder 路由定义在 /{frame_id} 路由之后。FastAPI 将 “reorder” 解析为帧 ID 整数,返回 422 错误:“无法将字符串解析为整数”。
让评估器达到这一性能水平需要大量调优。默认情况下,Claude 并非理想的 QA 智能体。早期运行中,我发现它会先识别出合理问题,随后又说服自己这些问题无关紧要并批准通过;同时,它倾向于表面测试而非探究边缘场景,导致更隐蔽的漏洞轻易逃脱。调优循环的核心是:读取评估器日志,找出其判断与我不一致的示例,更新 QA 提示词以解决这些问题。经过多轮开发循环,评估器的评分才达到我认可的合理水平。即便如此,Harness 输出仍暴露了模型 QA 能力的局限性:存在小型布局问题、部分交互不够直观,以及评估器未充分测试的深层嵌套功能中隐藏的漏洞。显然,通过进一步调优,仍有提升验证效果的空间。但与核心功能完全失效的单智能体产物相比,Harness 的优势极为显著。

Harness 迭代优化

首轮 Harness 结果令人鼓舞,但也存在体积庞大、速度缓慢、成本高昂的问题。合理的下一步是在不降低性能的前提下简化 Harness。这一优化既基于常识,也遵循一项更通用的原则:Harness 中的每个组件都隐含着对 “模型自身无法完成哪些工作” 的假设,而这些假设值得严格检验 —— 不仅因为它们可能不准确,还因为随着模型迭代,这些假设会迅速过时。我们的博客文章《构建高效智能体》(Building Effective Agents)将其核心思想概括为 “尽可能寻找最简单的解决方案,仅在必要时增加复杂度”,这一模式对所有维护智能体 Harness 的开发者都普遍适用。
我首次尝试大幅简化 Harness 并引入一些创新思路,但未能重现原始版本的性能;同时,也难以判断 Harness 设计中的哪些部分是真正 “承载核心功能” 的关键。基于这次经验,我转向更系统的方法:每次仅移除一个组件,观察其对最终结果的影响。
在迭代过程中,我们发布了 Opus 4.6,这进一步推动了 Harness 简化工作。有充分理由相信,4.6 版本所需的脚手架支持会少于 4.5 版本。正如我们在发布博客中所述:“[Opus 4.6] 规划更周密,能更长时间维持智能体任务,在大型代码库中操作更可靠,且具备更出色的代码审查和调试能力,可自行发现并修复错误。” 此外,它在长上下文检索方面也有显著提升 —— 这些都是 Harness 原本旨在补充的能力。

移除迭代周期(sprint)结构

我首先完全移除了迭代周期结构。该结构原本用于将工作分解为模块,帮助模型连贯工作。考虑到 Opus 4.6 的改进,有充分理由认为模型无需此类分解即可原生处理任务。
我保留了规划器和评估器,因为两者仍能带来明显价值。若没有规划器,生成器会出现 “范围不足” 问题:面对原始提示,它会直接开始构建而不预先制定需求说明,最终生成的应用功能远少于规划器驱动的产物。
移除迭代周期结构后,我将评估器调整为在运行结束时执行单次评估,而非逐迭代周期评分。由于模型能力大幅提升,评估器的 “核心作用” 因任务而异 —— 取决于任务相对于模型原生可靠能力的位置。在 4.5 版本中,这一边界较近:我们的构建任务处于生成器单独立能力的边缘,评估器能在整个构建过程中发现大量有价值的问题;而在 4.6 版本中,模型原生能力增强,边界向外扩展 —— 原本需要评估器校验才能连贯实现的任务,现在大多能被生成器独立完成,对于这些任务,评估器反而成为不必要的开销。但对于仍处于生成器能力边缘的构建任务部分,评估器仍能提供实质性帮助。
这一实践的核心启示是:评估器并非固定的 “非有即无” 选择。当任务超出当前模型独立可靠完成的范围时,引入评估器的成本是值得的。
在结构简化的同时,我还通过提示词优化,改进了 Harness 在应用中集成 AI 功能的方式 —— 具体而言,是让生成器构建能通过工具驱动应用自身功能的完整智能体。这一过程需要大量迭代,因为相关知识较新,Claude 的训练数据覆盖有限。但经过充分调优,生成器最终能够正确构建智能体。

优化后 Harness 的测试结果

为测试优化后的 Harness,我使用如下提示词生成数字音频工作站(DAW)—— 一款用于作曲、录音和混音的音乐制作程序:

使用 Web Audio API 在浏览器中构建功能完整的数字音频工作站(DAW)。

本次运行仍耗时较长且成本较高:约 4 小时,令牌成本 124 美元。
大部分时间用于构建环节,生成器连贯运行超过两小时,无需 Opus 4.5 版本所需的迭代周期分解。
表格
智能体及阶段 运行时长 成本
规划器 4.7 分钟 0.46 美元
构建(第一轮) 2 小时 7 分钟 71.08 美元
QA(第一轮) 8.8 分钟 3.24 美元
构建(第二轮) 1 小时 2 分钟 36.89 美元
QA(第二轮) 6.8 分钟 3.09 美元
构建(第三轮) 10.9 分钟 5.88 美元
QA(第三轮) 9.6 分钟 4.06 美元
优化后 Harness 总计 3 小时 50 分钟 124.70 美元
与之前的 Harness 类似,规划器将单句提示扩展为完整需求说明。从日志中可以看到,生成器模型出色地完成了应用规划、智能体设计、集成和测试工作,随后才移交至 QA 环节。
尽管如此,QA 智能体仍发现了实际问题。在首轮反馈中,它指出:

“这是一款优秀的应用,具备出色的设计还原度、完善的 AI 智能体和可靠的后端。主要短板在于功能完整性 —— 虽然应用外观亮眼、AI 集成效果良好,但多项核心 DAW 功能仅为展示效果,无实际交互深度:时间轴上的片段无法拖拽移动,无乐器 UI 面板(合成器旋钮、鼓垫),也无视觉效果编辑器(均衡器曲线、压缩器仪表)。这些并非边缘场景,而是让 DAW 具备可用性的核心交互功能,且需求说明中明确要求实现这些功能。”

第二轮反馈中,它再次发现多个功能缺口:

“剩余问题:

  • 音频录制仍为占位功能(按钮可切换状态,但无麦克风采集)
  • 未实现通过拖拽片段边缘调整长度和片段分割功能
  • 效果可视化仅为数字滑块,无图形化界面(无均衡器曲线)”
若完全放任生成器自主工作,它仍可能遗漏细节或仅实现占位功能,而 QA 环节在捕捉这些 “最后一公里” 问题并让生成器修复方面,仍具有重要价值。
基于提示词预期,我原本期望得到一款这样的程序:用户可创建旋律、和声和鼓点,将其编排为歌曲,并在集成智能体的协助下完成创作。最终应用虽远非专业音乐制作程序,且智能体的歌曲创作能力仍有很大提升空间;此外,Claude 无法实际 “聆听” 音频,这也导致 QA 反馈循环在音乐审美判断方面效果有限。
但最终应用包含了功能性音乐制作程序的所有核心组件:运行在浏览器中的工作编排视图、混音器和播放控制。更重要的是,我完全通过提示词完成了一段简短歌曲的创作:智能体设置速度和调号、编排旋律、构建鼓轨、调整混音电平,并添加混响效果。歌曲创作的核心原语已全部具备,智能体可通过工具自主驱动这些功能,从头到尾完成简单音乐制作。可以说,它虽尚未 “完美无瑕”,但已初具雏形。

未来展望

随着模型持续迭代,我们有理由期待它们能处理更长时间、更复杂的任务。在某些情况下,这意味着模型周围的脚手架支持将逐渐减少 —— 开发者可等待下一代模型,让部分问题自行解决。但另一方面,模型能力越强,构建能实现 “超出模型基准能力的复杂任务” 的 Harness 的空间就越大。
基于这项工作,有几条经验值得延续:始终针对正在使用的模型进行实验,在实际问题中分析其运行轨迹,通过调优实现预期结果;处理更复杂任务时,将任务分解并为每个环节配备专用智能体,往往能挖掘出更多潜力;当新版本模型发布时,通常需要重新审视 Harness—— 移除不再承载核心功能的组件,同时添加新组件以实现此前无法完成的更高级功能。
通过这项工作,我更加确信:随着模型迭代,有趣的 Harness 组合空间并不会缩小,而是会不断演变。对 AI 工程师而言,核心工作是持续探索下一种创新组合。

致谢

特别感谢迈克・克里格(Mike Krieger)、迈克尔・阿加比(Michael Agaby)、贾斯汀・杨(Justin Young)、杰里米・哈德菲尔德(Jeremy Hadfield)、大卫・赫尔希(David Hershey)、朱利叶斯・唐(Julius Tarng)、张晓怡(Xiaoyi Zhang)、巴里・张(Barry Zhang)、奥罗瓦・西德克(Orowa Sidker)、迈克尔・廷利(Michael Tingley)、易卜拉欣・马达(Ibrahim Madha)、玛蒂娜・朗(Martina Long)和坎宁安・罗宾斯(Canyon Robbins)对本项目的贡献。
同时感谢杰克・伊顿(Jake Eaton)、艾莉莎・伦纳德(Alyssa Leonard)和斯特夫・塞奎拉(Stef Sequeira)在文章撰写过程中提供的帮助。

附录:规划器智能体生成的需求示例

plaintext
RetroForge - 2D 复古游戏制作工具

概述
RetroForge 是一款基于网页的创意工作室,专为设计和制作 2D 复古风格视频游戏打造。它将经典 8 位和 16 位游戏美学的怀旧魅力与现代直观的编辑工具相结合——让从爱好者到独立开发者的各类用户,无需编写传统代码即可将游戏创意变为现实。

该平台包含四个集成创意模块:用于设计游戏世界的瓦片式关卡编辑器、用于制作视觉资源的像素艺术精灵编辑器、用于定义游戏逻辑的可视化实体行为系统,以及用于实时游戏测试的可玩测试模式。通过在全流程中融入 Claude 驱动的 AI 辅助功能,RetroForge 加速了创作过程——帮助用户通过自然语言交互生成精灵、设计关卡和配置行为。

RetroForge 面向热爱复古游戏美学但追求现代便捷性的创作者。无论是重现童年记忆中的平台游戏、角色扮演游戏(RPG)或动作游戏,还是在复古风格约束下打造全新体验,用户都能快速原型设计、可视化迭代,并与他人分享作品。

功能特性
1. 项目仪表盘与管理
项目仪表盘是 RetroForge 中所有创意工作的核心枢纽。用户需要一种清晰、有序的方式管理游戏项目——创建新项目、继续未完成的工作,并快速了解每个项目的核心内容。

用户故事:作为用户,我希望:
- 创建带有名称和描述的新游戏项目,以便开始设计游戏
- 以视觉卡片形式查看所有现有项目,卡片显示项目名称、最后修改日期和缩略图预览,以便快速找到并继续工作
- 打开任意项目进入完整游戏编辑器工作区,以便开展游戏开发
- 删除不再需要的项目(含确认对话框防止误操作),以便保持工作区整洁
- 复制现有项目作为新项目的起点,以便复用之前的工作成果

项目数据模型:每个项目包含:
- 项目元数据(名称、描述、创建/修改时间戳)
- 画布设置(分辨率:如 256x224、320x240 或 160x144)
- 瓦片尺寸配置(8x8、16x16 或 32x32 像素)
- 调色板选择
- 所有关联的精灵、瓦片集、关卡和实体定义

...
本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: 暂无
最后更新:2026年3月26日

七脉神剑

这个人很懒,什么都没留下

点赞
< 上一篇

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

COPYRIGHT © 2026 75live.com. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang