最强编码模型Claude4！7小时不间断写代码连玩24小时宝可梦-Kaiyun官方（中国体育）登录入口

最强编码模型Claude4！7小时不间断写代码连玩24小时宝可梦

栏目：行业资讯发布时间：2025-05-27

　一经面世，就在编码、高级推理和AI Agent重新定义了新的标准，直接实现SOTA。　　而两个模型里最为人所津津乐道的是旗舰模型Claude Opus 4，它最引人注目的就是持续的干活，一身用不完的牛劲。　　比如，它可以在连续24小时畅玩宝可梦，而之前版本Claude 3.7 Sonnet只能连续玩 45 分钟。　　其客户之一，日本乐天集团（Rakuten）使用Claude Opus 4进行了

　　一经面世，就在编码、高级推理和AI Agent重新定义了新的标准，直接实现SOTA。

　　而两个模型里最为人所津津乐道的是旗舰模型Claude Opus 4，它最引人注目的就是持续的干活，一身用不完的牛劲。

　　比如，它可以在连续24小时畅玩宝可梦，而之前版本Claude 3.7 Sonnet只能连续玩 45 分钟。

　　其客户之一，日本乐天集团（Rakuten）使用Claude Opus 4进行了一个高强度的开源代码重构任务。

　　谁也没想到，Opus 4直接吭哧吭哧独立运行并持续编写代码长达7小时，而且性能极、其、稳、定。

　　看遍评论区，发现使用过Claude 4几乎都给予了它高度评价，尤其是对Opus 4（不愧是旗舰模型哇）。

　　有人说，“Opus 4是我用上的第一个不用自己动手改，就生成高质量内容的第一个大模型”。

　　此外，有位最近一直用Opus搞编程的网友表示，Benchmark上的成绩完全不能代表Claude 4的成就：

　　它在保持进度、编写可维护的代码以及按照我的意愿和期望进行工作方面，带来了彻底的变革。这不是简单的极客行为。团队做得非常出色！

　　已经有网友开始直接用Claude 4来做了个俄罗斯方块，一次性就完成的那种。

　　值得关注的一点，今天起，所有付费用户都可以开始使用Claude 4系列模型了。

　　Kaiyun（开云）体育官方网站

　　值得一提的是，伴随Claude 4的问世，为了让开发者们能构建更强大的AI Agent，Anthropic在自家API方面上新了3个新功能，分别是：代码执行工具、MCP连接器、文件API，以及长达一小时的缓存提示能力。

　　Sonnet 4与Opus 4类似，但针对推理进行了优化，并在效率方面进行了平，这意味着它的运行成本更低。作为Sonnet 3.7的重大升级，它能精准地响应你的指令。

　　他们俩都是混合模型，提供两种操作模式：一种用于快速响应，另一种用于“更深层次的推理”。

　　旗舰模型Opus 4，在SWE-bench（72.5%）和 Terminal-bench（43.2%）上均实现领先。它在需要专注投入和数千个步骤的长时间运行任务中表现出色，能够连续工作数小时，其性能远超所有 Sonnet 模型，并显著扩展了 AI Agent的功能。

　　Cursor称其为编码领域的最新技术，并在复杂代码库理解方面实现了飞跃。

　　Block称其为第一个在其Agent（代号 goose）中在编辑和调试过程中提高代码质量，同时保持完整性能和可靠性的模型。

　　Rakuten通过独立运行 7 小时且性能稳定的高要求开源重构验证了其功能。

　　工具使用（Beta版）：两种模型都可以在扩展思考过程中使用工具（例如网络搜索），这样Claude一边思考推理一边使用工具交替进行。

　　并行工具使用，这样一来，模型可以更精确地遵循指令，并且在开发人员允许访问本地文件时，能显著提高记忆能力，提取并保存关键事实，以保持连续性并随着时间的推移建立隐性知识。

　　他们还引入思维摘要功能，使用较小的模型来浓缩冗长的思考过程。不过只有大约 5%的情况下需要这种总结，大多数思维过程都很短，足以完整显示。

　　内存能力方面，Claude Opus 4显著超越之前所有的模型。当开发者构建允许 Claude 访问本地文件的应用程序时，Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息，以帮助改进游戏体验。

　　这能够提升代理在长期任务中的感知能力、连贯性和执行性能——例如，Opus 4在玩宝可梦时能够创建“导航指南”。

　　该演示旨在秀肌肉，比如在极少量的人类干预下，Claude如何分析游戏，并逐步做出决策。

　　Anthropic技术团队的成员表示，选择《宝可梦红版》来搞事情，是因为这个游戏“是一个简单的游乐场”，回合制，且不需要及时反映。终极目标则为了研究如何让Claude像Agent一样，独立地为用户执行复杂任务。

　　Claude 3.7 Sonnet玩这款游戏时遇到了不少的困难，比如在一个城市中困了几十个小时，并且难以识别非玩家角色，这极大地阻碍了它在游戏中的进展。

　　但Opus 4就不一样了，它在长期记忆和规划能力上有所提高。与此同时，当Opus 4意识到需要某种特定的能力才能继续前进后，它花了两天时间提升它的技能，然后继续玩游戏。

　　此外，他们还显著减少了模型使用捷径或漏洞完成任务的行为。在处理一些容易受到捷径和漏洞影响的Agent任务中，这两个模型出现此类行为的可能性都比 Sonnet 3.7 低 65%。

　　这是一个智能代码助手工具，旨在帮助开发者通过自然语言命令理解、浏览和修改整个代码库，让你能够将修复bug、实现新功能、代码重构、编写测试、跨文件修改等大量工程任务交给AI完成。

　　并且已经集成进更多开发工作流程中：终端，IDE，或者使用Claude Code SDK在后台运行。

　　这一举措直接把Claude Code集成到了IDE里，也就是说，它已经和开发者们熟悉的代码编辑器无缝结对。

　　Kaiyun（开云）体育官方网站

　　至此，大家对着Claude提出的修改内容会被直接嵌入到文件里，从而简化了代码审查和跟踪过程。

　　在GitHub上Pull Request的时候，只需要「@Claude Code」，就可以回应评审人员的反馈、修复持续集成错误或修改代码。

　　如果想安装它的话，大家记得运行“/install-github-app”，就可以安装Beta版的插件了。

　　Anthropic产品负责人Scott White表示，Claude Code不仅适合公司——它们希望旗下的软件工程师们使用AI来提高自身专业技能，也适合个人——包括那些不懂编程的人。

　　如果一位产品经理想出了一个新点子，就不用费劲地用文字来解释概念了。直接找Claude Code，就能创造关于这个新点子的雏形。“去年年底就停止了对聊天机器人的投资”

　　Anthropic首席科学官Jared Kaplan接受采访时表示，该公司于去年年底停止对聊天机器人的投资。

　　专注于提高Claude执行复杂任务的能力，例如研究和编程，甚至编写整个代码库。

　　去年起，Anthropic就开始训练Claude 4系列，“训练过程中，内部确实存在一些困难。因为我们在训练这些模型时使用的一些新基础设施，使得团队在启动所有系统方面非常紧张。”

　　因此他们真正致力于解决这个问题，以便人们可以一次性将大量工作委托给给Claude。

　　不过，首席产品官Mike Krieger此前也表示过，Anthropic没有仅仅针对编程来进行迭代。

　　我们在两个方面都在不断开拓创新。一方面涉及到编程部分以及整体的自主行为，这为许多编程初创企业提供了强大的动力。另一方面，我们也在探索这些模型如何能够真正从经验中学习，并且能够成为非常有用的写作伙伴。

　　Mike Krieger表示，Claude 4之前，他仅仅是把大模型作为一个思考伙伴，大部分写作还是他自己亲自上手的。

　　但现在，Claude 4出现后，他几乎已经把写东西这个事完全委托给Claude Opus 4了，并且“难以辨认是我写的还是AI写的”。

　　上周，Anthropic获得了一笔25亿美元、为期五年的循环信贷额度，用来增强AI竞争的底气，毕竟研究和训练真的非常花钱。

　　而Anthropic年度消费超过10万美元的客户数量，较去年同期增长了八倍。

　　模型刚发布，人类就发现了它有一些特殊的「爱好」，比如熟练地使用一些表情符号。

　　在 Anthropic技术报告中，他们研究了Opus 4 在“开放式自我互动”中的表现——也就是与自己对话，结果发现，一对Opus 4 模型进行了 200 次、每次 30 轮的互动，模型使用了数千个表情符号。

　　根据报告，Opus 4 使用“头晕”表情符号最多（占 29.5%），其次是“闪亮的星星”和“双手合十”。

　　不过，模型还是对“旋风”表情符号很感兴趣。一份记录显示，它们输入了2725次。

　　在几乎每一次开放式的自我互动中，Opus 4最终都会开始进行“意识的哲学探索”以及“抽象而愉悦的精神或冥想表达”。

上一篇：女厕排队成历史？委员提议改变终结尴尬！网友：早该这么做了！

下一篇：Kaiyun（中国体育）：新房入住1年这12个装修决定真是太明智了！赶紧学

Kaiyun-开云（中国）体育-官方网站