全天候在线客服 400-123-4567

服务时间 全天候在线

想了解更多世界杯赔率相关内容，尽在世界杯买球网。

Dwarkesh Patel，一位在硅谷崭露头角的科技播客主持人兼作家，年仅 25 岁，已成为人工智能领域讨论的核心人物。他的 Dwarkesh Podcast 采访了 Ilya Sutskever、Andrej Karpathy、Dario Amodei、Demis Hassabis 以及 Mark Zuckerberg 等众多人工智能和科技领域的重量级人物。TIME 杂志曾将他列入 2024 年 TIME100 AI 名单，并指出他的播客已成为许多 AI 从业者的重要信息来源。

在近期的一期播客中，Patel 总结了当前前沿 AI 实验室正在探索的关键训练方法，即 RLVR（Reinforcement Learning with Verifiable Rewards，可验证奖励强化学习）。这种方法让模型在大量可以自动判断对错的任务中进行反复尝试，以培养其规划、纠错、迭代和长期执行能力。当前代码和数学等领域取得的快速进展，很大程度上得益于这一思路。

然而，Patel 进一步探讨了一个核心问题：仅依靠这种「可验证任务训练」是否足以支撑下一代 AI 的发展？他认为答案可能是否定的，因为任务的「可验证性」之外，还需要具备「可磨性」，即「可反复刷题性」或「可大规模部署的能力」。代码和数学任务便是典型的「可磨」任务，它们易于复制、并行、可重置，非常适合 RLVR。

Patel 指出，AI 在「使用电脑」方面的进展相对缓慢，并非因为这类任务不可验证（例如订单是否成功、活动场地是否预订），而是因为它们难以大规模复制和回放。真实世界的网站会检测并封禁大量模拟账户，而创建高成本、低扩展性的应用模拟器在当前阶段仍具挑战。因此，AI 在某个领域的快速进步，不仅在于答案的可验证性，更在于该领域能否被构建成可复制、可回放、可并行试错的训练环境。

他将讨论引向更复杂的现实世界场景，例如训练 AI 从零开始创业、赢得官司、在市场中稳定获利或帮助候选人赢得选举。这些任务虽然最终结果可判断，但反馈周期长、变量多、环境不可重置，且无法在数据中心进行大规模模拟。这类环境在强化学习中属于「reset-free、non-stationary」类型。Patel 质疑 RLVR 训练出的 Agent 是否能泛化到这些真实世界任务。

他认为，真实世界中最有价值的知识往往不是清晰、可验证、可重复的，可能源于模糊的客户反馈、失败的会议或隐性的组织流程。模型要学习这些，需要更高的样本效率，而不仅仅是「刷题」。这就引出了「learning back to the weights」，即学习过程需要能够真正固化到模型权重中。

当前大模型擅长 in-context learning，但这种学习往往停留在上下文窗口内，会话结束后模型可能不会真正「记住」。Patel 强调，模型在真实部署后获得的经验——例如被真实用户使用、参与真实任务、暴露真实错误——才是其最有价值的训练信号。如果这些经验无法沉淀回模型权重，就只是短暂适应，而非能力的长期增长。他用人类学习类比，员工的成长并非源于逐字记忆，而是经验的压缩与内化，形成了判断力、直觉和流程理解。

他提出了下一代训练范式需要解决的关键问题：如何将真实经验有效压缩并写回模型权重。为此，他提到了 OPSD (on-policy self-distillation) 和「dreaming」。OPSD 允许一个在长会话中积累了经验的模型充当“教师”，指导基础模型进行学习，将上下文中学到的知识蒸馏回权重。这不同于普通 SFT，它侧重于提炼关键洞见而非复述细节。OPSD 的优势在于，它不一定需要外部可验证奖励，并且可以提供比最终 reward 更密集的监督信号。

「Dreaming」则指 AI 根据真实世界观察，自主构建模拟环境进行反复练习和策略强化。这类似于 model-based RL，但将其置于大模型和真实部署的语境中。例如，AI 在观察到公司业务流程后，可以构建该流程的模拟版本，在其中测试不同沟通策略和项目推进方式，并将学到的经验压缩回模型。

Patel 设想，这可能成为 AI 扩展的第四条轴：test-time training，即在推理和任务执行过程中，为特定用户、组织或项目构造模拟环境并进行自我训练。这与 David Silver 和 Richard Sutton 在《Welcome to the Era of Experience》中强调的智能体从与环境互动中获取经验的观点相呼应。

他预言，到 2027 或 2028 年，训练流程可能包括：首先通过 RLVR 训练出基础 agent；然后将其部署到真实世界，进行真实工作和学习；最后，将任务中学到的经验通过 OPSD 或 dreaming 等技术蒸馏回基础模型。一旦这条路径实现，AI 的能力边界将不再局限于预先设定的「可验证任务」，而是能通过真实部署不断扩展到相邻领域，例如组织管理、业务流程和复杂协作。

AI 能力的主要来源也将发生转变：从发布前训练，走向发布后学习；从人类数据，走向环境经验；从上下文中的临时适应，走向权重中的长期能力。Dwarkesh Patel 认为，未来最重要的 AI 训练数据，将是 AI 在真实世界中完成真实任务时，自身积累的经验。

56,856

Client's

56,856

Comment's

251

Team Member

50%

世界杯买球网深耕实时更新的赛事比分与数据领域，用心服务每一位用户。

Contributions

Dwarkesh Patel：下一代AI，可能是干活干出来的 - 世界杯官网

围绕深度分析热门球队与赛事趋势，世界杯买球网持续打磨更优质的服务。

Know More

世界杯买球网以海量高清赛事精彩瞬间回顾为核心，带来高效便捷的体验。

世界杯买球网深耕海量高清赛事精彩瞬间回顾领域，用心服务每一位用户。

在安全可靠的赛事互动平台方面，世界杯买球网提供贴心周到的支持。

想了解更多安全可靠的赛事互动平台相关内容，尽在世界杯买球网。

世界杯买球网围绕世界杯赔率不断创新，回应用户的真实需求。

世界杯买球网以世界杯赔率为核心，带来高效便捷的体验。

世界杯买球网围绕世界杯官网不断创新，回应用户的真实需求。

精选世界杯下注内容，世界杯买球网与你一同发现更多精彩。

想了解更多足球世界杯相关内容，尽在世界杯买球网。

世界杯买球网专注实时更新的赛事比分与数据，为用户提供专业可靠的体验。

围绕深度分析热门球队与赛事趋势，世界杯买球网持续打磨更优质的服务。

世界杯买球网围绕世界杯竞猜不断创新，回应用户的真实需求。

主队	比分	客队	联赛	时间(北京)
第比利斯 2025	1:0	贝特莱米·凯达	格鲁吉亚联赛3	18:00
内盖勒·阿尔西	0:0	哈瓦萨·凯内马	埃塞俄比亚足球超级联赛	18:00

Contributions

Dwarkesh Patel：下一代AI，可能是干活干出来的 - 世界杯官网

世界杯买球网以海量高清赛事精彩瞬间回顾为核心，带来高效便捷的体验。

想了解更多安全可靠的赛事互动平台相关内容，尽在世界杯买球网。

世界杯买球网围绕世界杯赔率不断创新，回应用户的真实需求。

世界杯买球网围绕世界杯官网不断创新，回应用户的真实需求。

精选世界杯下注内容，世界杯买球网与你一同发现更多精彩。

世界杯买球网专注实时更新的赛事比分与数据，为用户提供专业可靠的体验。

围绕深度分析热门球队与赛事趋势，世界杯买球网持续打磨更优质的服务。

世界杯买球网深耕海量高清赛事精彩瞬间回顾领域，用心服务每一位用户。

在安全可靠的赛事互动平台方面，世界杯买球网提供贴心周到的支持。

赛事资讯

精彩内容

最新动态

联系我们

赛事解读

⚽ 足球实时 (2)