+1-3454-5678-99
北京朝阳区,全天候在线
Dwarkesh Patel,一位在硅谷崭露头角的科技播客主持人兼作家,年仅 25 岁,已成为人工智能领域讨论的核心人物。他的 Dwarkesh Podcast 采访了 Ilya Sutskever、Andrej Karpathy、Dario Amodei、Demis Hassabis 以及 Mark Zuckerberg 等众多人工智能和科技领域的重量级人物。TIME 杂志曾将他列入 2024 年 TIME100 AI 名单,并指出他的播客已成为许多 AI 从业者的重要信息来源。
在近期的一期播客中,Patel 总结了当前前沿 AI 实验室正在探索的关键训练方法,即 RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习)。这种方法让模型在大量可以自动判断对错的任务中进行反复尝试,以培养其规划、纠错、迭代和长期执行能力。当前代码和数学等领域取得的快速进展,很大程度上得益于这一思路。
然而,Patel 进一步探讨了一个核心问题:仅依靠这种「可验证任务训练」是否足以支撑下一代 AI 的发展?他认为答案可能是否定的,因为任务的「可验证性」之外,还需要具备「可磨性」,即「可反复刷题性」或「可大规模部署的能力」。代码和数学任务便是典型的「可磨」任务,它们易于复制、并行、可重置,非常适合 RLVR。
Patel 指出,AI 在「使用电脑」方面的进展相对缓慢,并非因为这类任务不可验证(例如订单是否成功、活动场地是否预订),而是因为它们难以大规模复制和回放。真实世界的网站会检测并封禁大量模拟账户,而创建高成本、低扩展性的应用模拟器在当前阶段仍具挑战。因此,AI 在某个领域的快速进步,不仅在于答案的可验证性,更在于该领域能否被构建成可复制、可回放、可并行试错的训练环境。
他将讨论引向更复杂的现实世界场景,例如训练 AI 从零开始创业、赢得官司、在市场中稳定获利或帮助候选人赢得选举。这些任务虽然最终结果可判断,但反馈周期长、变量多、环境不可重置,且无法在数据中心进行大规模模拟。这类环境在强化学习中属于「reset-free、non-stationary」类型。Patel 质疑 RLVR 训练出的 Agent 是否能泛化到这些真实世界任务。
他认为,真实世界中最有价值的知识往往不是清晰、可验证、可重复的,可能源于模糊的客户反馈、失败的会议或隐性的组织流程。模型要学习这些,需要更高的样本效率,而不仅仅是「刷题」。这就引出了「learning back to the weights」,即学习过程需要能够真正固化到模型权重中。
当前大模型擅长 in-context learning,但这种学习往往停留在上下文窗口内,会话结束后模型可能不会真正「记住」。Patel 强调,模型在真实部署后获得的经验——例如被真实用户使用、参与真实任务、暴露真实错误——才是其最有价值的训练信号。如果这些经验无法沉淀回模型权重,就只是短暂适应,而非能力的长期增长。他用人类学习类比,员工的成长并非源于逐字记忆,而是经验的压缩与内化,形成了判断力、直觉和流程理解。
他提出了下一代训练范式需要解决的关键问题:如何将真实经验有效压缩并写回模型权重。为此,他提到了 OPSD (on-policy self-distillation) 和「dreaming」。OPSD 允许一个在长会话中积累了经验的模型充当“教师”,指导基础模型进行学习,将上下文中学到的知识蒸馏回权重。这不同于普通 SFT,它侧重于提炼关键洞见而非复述细节。OPSD 的优势在于,它不一定需要外部可验证奖励,并且可以提供比最终 reward 更密集的监督信号。
「Dreaming」则指 AI 根据真实世界观察,自主构建模拟环境进行反复练习和策略强化。这类似于 model-based RL,但将其置于大模型和真实部署的语境中。例如,AI 在观察到公司业务流程后,可以构建该流程的模拟版本,在其中测试不同沟通策略和项目推进方式,并将学到的经验压缩回模型。
Patel 设想,这可能成为 AI 扩展的第四条轴:test-time training,即在推理和任务执行过程中,为特定用户、组织或项目构造模拟环境并进行自我训练。这与 David Silver 和 Richard Sutton 在《Welcome to the Era of Experience》中强调的智能体从与环境互动中获取经验的观点相呼应。
他预言,到 2027 或 2028 年,训练流程可能包括:首先通过 RLVR 训练出基础 agent;然后将其部署到真实世界,进行真实工作和学习;最后,将任务中学到的经验通过 OPSD 或 dreaming 等技术蒸馏回基础模型。一旦这条路径实现,AI 的能力边界将不再局限于预先设定的「可验证任务」,而是能通过真实部署不断扩展到相邻领域,例如组织管理、业务流程和复杂协作。
AI 能力的主要来源也将发生转变:从发布前训练,走向发布后学习;从人类数据,走向环境经验;从上下文中的临时适应,走向权重中的长期能力。Dwarkesh Patel 认为,未来最重要的 AI 训练数据,将是 AI 在真实世界中完成真实任务时,自身积累的经验。
Client's
Comment's
Team Member
世界杯买球网深耕实时更新的赛事比分与数据领域,用心服务每一位用户。
围绕深度分析热门球队与赛事趋势,世界杯买球网持续打磨更优质的服务。
世界杯买球网深耕海量高清赛事精彩瞬间回顾领域,用心服务每一位用户。
在安全可靠的赛事互动平台方面,世界杯买球网提供贴心周到的支持。
世界杯买球网以世界杯赔率为核心,带来高效便捷的体验。
想了解更多足球世界杯相关内容,尽在世界杯买球网。
世界杯买球网围绕世界杯竞猜不断创新,回应用户的真实需求。
| 主队 | 比分 | 客队 | 联赛 | 时间(北京) |
|---|---|---|---|---|
| 第比利斯 2025 | 1:0 | 贝特莱米·凯达 | 格鲁吉亚联赛3 | 18:00 |
| 内盖勒·阿尔西 | 0:0 | 哈瓦萨·凯内马 | 埃塞俄比亚足球超级联赛 | 18:00 |