五折优惠 全部方案,限时优惠。起价 $2.48/mo
剩余 7 分钟
AI 与机器学习

Fable 5 与 Claude Code:究竟改变了什么(上线首日体验)

R By Riley 7 分钟阅读
宽幅深色模式博客横幅,橙色点缀,展示 Fable 5 开发者仪表板,包含 3 轮工作流完成情况、测试验证以及 Claude Code 内的自验证说明。

第一天我就把 Claude Code 的默认模型改成了 Fable 5,然后把那种通常要占掉我整个下午的多文件任务交给它。我去泡了杯咖啡。等我坐回来的时候,任务已经完成了,而且它还顺手把两个相邻的问题悄悄修掉了——我甚至没让它做这些。

这是在真实工作中的真实切换,不是基准测试报告。而且费用是我使用 Opus 4.8 时的 2 倍,所以值不值是个真实的问题,不是反问。我的工作方式真的有三件事改变了。有一件事说实话让人沮丧。以下是全部内容,还有你自己在一小时内可以尝试的东西。

简短版本

三个实质变化:复杂的多文件重构在更少轮次内完成,因为 Fable 5 在交回之前会自我检查;子代理委托无需你盯着它跑;视觉任务能读懂截图,几乎不需要手把手引导就能还原你的逻辑。唯一的遗憾:安全机制有时会触发并将你路由到 Opus 4.8。你是在收到回复后才知道的,而不是提交之前——你期待 Fable 5,却得到了一个 Opus 的答案。我的结论:对于艰难的长周期工作,值得。在承诺价格之前先用真实任务测试,因为对于简单工作,2倍的价格就只是2倍的花销。

更少轮次,因为它自我检查

我提到的那个重构:我一周前在 Opus 4.8 上跑的版本花了八九轮来回,其中两次是我自己抓到它返回的破碎构建。Fable 5 用三轮就收尾了,而且它已经主动去找 bug,而不是等我发现。原因是 Fable 5 持有更多上下文,并在交接前自我验证。Simon Willison 遇到了同样的情况,体感更强烈:in 他的第一天感想 他描述了模型在一个只要求修复一个问题的任务中,主动找到并修复了多个底层库问题。

所以这里的差异不在于速度,而在于 Fable 5 在交还结果之前会自己检查工作,这样你碰到的构建失败更少,花在善后上的轮次也更少。 HN 发布帖子里的一位开发者 将其称为「找出其他模型引入的 bug」的模型;Canva 的一位工程师在同一帖子里反馈「令牌数减半、效果更好」,且待审查的 pull request 代码也更少。如果你想要一个支撑这种直觉的 benchmark 数字:Anthropic 在 SWE-Bench Pro 上将 Fable 5 定在 80.3%,Opus 4.8 则为 69.2%。在看到这个数字之前,我已经感受到了这种差距。

变化不在于更快,而在于输出结果出错的情况少了。

无需全程盯防的子代理委派

我把一个三阶段重构交给它,还没抬起头它已经完成了两个阶段。这是第二个变化,也是我没有预料到的。Fable 5 的长周期行为意味着你可以委派一个多阶段任务,它会自己完成各个阶段,而不是每一步之后都停下来汇报进展。让这一切成真的搭配是 Dynamic Workflows,以及 Anthropic 的并行子代理编排(自五月底起正式开放),而非标准的单会话模式。在 HN 讨论中,一位开发者描述了复杂数据库迁移在单次会话中完成——而 Opus 此前屡次失败。

真正的注意事项来了,这很重要:在 Pro 套餐下,你可能在 30 分钟内触及速率限制,直接掐断你刚刚兴奋期待的那段长时间无人监管的运行。帖子里有个开发者在代理工作 30 分钟内就触顶了。能力是真实的。Pro 套餐的速率上限也是真实的。Max 才是真正能不被频繁打断、稳定运行的地方。

委派终于可以不需要监督了。只需了解:Pro 套餐会在你完成完整一次运行之前触发速率限制,所以这真正是 Max 套餐的优势。

视觉任务现在是截然不同的体验

我把一个杂乱 UI 组件的截图丢进会话,问它在做什么。它读取了布局,在我没有描述任何元素的情况下重建了逻辑。这是第三个变化:Fable 5 能读取截图和代码库图表,以远少于我习惯的手把手指引,就能给出可直接使用的结果。HN 帖子里一位花了30分钟做压力测试的开发者称其「UI 设计的视觉方面表现得令人难以置信地出色」,这与我亲眼看到的完全一致。

这是三个变化中最轻微的一个。但正是它悄悄移除了一个我没意识到自己已经厌倦的步骤。

唯一令人沮丧的事

我给它发了一个本该直接运行的任务,结果返回的是一个经拒绝路由的 Opus 回复。底层发生了什么:一个安全分类器在涉及网络安全的任务以及其他几种敏感任务类型上触发,它不给你 Fable 5 的回复,而是将请求路由到 Opus 4.8。你是从回复中才知道的,在提交前没有任何警告。Anthropic 表示用户在发生这种情况时会被告知,从技术上讲回复确实会说明,但在提交前没有任何提示说明你的任务在分类器的范围内。

分类器的覆盖范围同样很广。在 HN 帖子里,一位开发者在使用商业潜客工具时遭到拦截;另一位在处理健康数据模式时,称其对自己的场景完全不可用。公平地说,这种情况很少见:Anthropic 表示,超过 95% 的 Fable 会话根本不会触发 fallback。此外,还有一个单独且范围窄得多的争议,涉及一种幕后调优方法,影响的是前沿 AI 研究人员,而非普通开发者——不要把这两件事混为一谈。真正可能影响你的是可见的 Opus fallback。问题不在于安全路由的存在,而在于它的不透明性:事后才发现自己期待 Fable 5 却得到了 Opus 的回答,这种感觉很糟糕。

出色的模型,不透明的护栏。刺痛人的是不透明性,而不是安全机制本身。

接下来一小时可以试的事情

将 Claude Code 默认设置为 Fable 5,然后对已经打开的多文件重构任务运行一遍。这就是全部实验——不到一小时你就能知道它是否值得为你的工作支付 2 倍的价格。用真正困难的任务来测试,而不是无关紧要的工作:适应性思维始终开启,简单的任务根本看不出差别,只会白白多花钱。如果你用的是 Max 或 Team,打开 Dynamic Workflows,这样你能看到委托行为,而不是单会话模式。再把你自己界面的截图喂给它,亲眼看看视觉能力的变化。

切换方式本身是 /model fable or /model claude-fable-5 (需要 Claude Code v2.1.170 或更高版本)。在真实工作中运行,自己判断,如果任务没有明显提升就切回 Opus。没有任何损失。

常见问题

如何在 Claude Code 中切换到 Fable 5?

运行 /model fable or /model claude-fable-5 在 Claude Code 中,或传入 --model claude-fable-5 启动时传入。需要 Claude Code v2.1.170 或更高版本,Fable 5 才会作为选项出现。

安全防护会阻止我在 Claude Code 中的工作吗?

大多数情况下不会。Anthropic 表示超过 95% 的 Fable 5 会话从不触发回退。但与网络安全相关的任务以及部分健康数据任务可能会路由到 Opus 4.8。发生时会在响应中告知你,但没有提交前警告,所以你是事后才知道的。如果你的工作涉及这些领域,在把 Fable 5 设为默认前先用真实任务测试一下。

Dynamic Workflows 和普通 Agent 模式有什么不同?

是的。Dynamic Workflows 是 Anthropic 的并行子代理编排层,自五月末起正式上线,Max 和 Team 套餐默认开启。这是 Fable 5 无监督多阶段委托能力完整展现的地方,标准的单会话 agent 模式无法展现同样的长期行为。

分享

博客更多内容

继续阅读。

opencode vs openclaw 主题图,对比 repo 代码 AI 代理与 OpenClaw 自主 AI 代理网关。
AI 与机器学习

OpenCode vs OpenClaw:你该跑哪个自托管 AI 工具?

OpenCode vs OpenClaw 大致就是在二者之间选:一个在你 repo 里干活的编码代理,还是一个把聊天应用、工具和定时任务串起来的常驻助手网关。

Nick SilverNick Silver 14 分钟阅读
opencode vs claude code 封面,对比本地与云端 AI 编程,自托管掌控 vs 托管便利。
AI 与机器学习

OpenCode vs Claude Code:托管的便利,还是自托管的掌控?

OpenCode vs Claude Code 归根结底就是在托管 AI 编码代理和能在你自己环境里跑的编码代理之间二选一。Claude Code 更容易上手,因为

Nick SilverNick Silver 13 分钟阅读
claude code 替代方案封面,涵盖面向开发者的终端、IDE、云端、自托管工作流的最佳 AI 工具。
AI 与机器学习

面向开发者的 Claude Code 替代方案:终端、IDE、自托管和云工作流的最佳选择

Claude Code 仍然是目前最强大的编码代理之一,但许多开发者现在根据工作流、模型访问权限和长期成本来选择工具,而不是坚持

Nick SilverNick Silver 20 分钟阅读

准备好部署了吗? 起价 $2.48/月。

独立云厂商,自 2008 年起。AMD EPYC、NVMe、40 Gbps。14 天退款保证。