+1-3454-5678-99

北京朝阳区,全天候在线

全天候在线客服 400-123-4567
服务时间 全天候在线

Dwarkesh Patel,一位在硅谷崭露头角的科技播客主持人兼作家,年仅 25 岁,已成为人工智能领域讨论的核心人物。他的 Dwarkesh Podcast 采访了 Ilya Sutskever、Andrej Karpathy、Dario Amodei、Demis Hassabis 以及 Mark Zuckerberg 等众多人工智能和科技领域的重量级人物。TIME 杂志曾将他列入 2024 年 TIME100 AI 名单,并指出他的播客已成为许多 AI 从业者的重要信息来源。

在近期的一期播客中,Patel 总结了当前前沿 AI 实验室正在探索的关键训练方法,即 RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习)。这种方法让模型在大量可以自动判断对错的任务中进行反复尝试,以培养其规划、纠错、迭代和长期执行能力。当前代码和数学等领域取得的快速进展,很大程度上得益于这一思路。

然而,Patel 进一步探讨了一个核心问题:仅依靠这种「可验证任务训练」是否足以支撑下一代 AI 的发展?他认为答案可能是否定的,因为任务的「可验证性」之外,还需要具备「可磨性」,即「可反复刷题性」或「可大规模部署的能力」。代码和数学任务便是典型的「可磨」任务,它们易于复制、并行、可重置,非常适合 RLVR。

Patel 指出,AI 在「使用电脑」方面的进展相对缓慢,并非因为这类任务不可验证(例如订单是否成功、活动场地是否预订),而是因为它们难以大规模复制和回放。真实世界的网站会检测并封禁大量模拟账户,而创建高成本、低扩展性的应用模拟器在当前阶段仍具挑战。因此,AI 在某个领域的快速进步,不仅在于答案的可验证性,更在于该领域能否被构建成可复制、可回放、可并行试错的训练环境。

他将讨论引向更复杂的现实世界场景,例如训练 AI 从零开始创业、赢得官司、在市场中稳定获利或帮助候选人赢得选举。这些任务虽然最终结果可判断,但反馈周期长、变量多、环境不可重置,且无法在数据中心进行大规模模拟。这类环境在强化学习中属于「reset-free、non-stationary」类型。Patel 质疑 RLVR 训练出的 Agent 是否能泛化到这些真实世界任务。

他认为,真实世界中最有价值的知识往往不是清晰、可验证、可重复的,可能源于模糊的客户反馈、失败的会议或隐性的组织流程。模型要学习这些,需要更高的样本效率,而不仅仅是「刷题」。这就引出了「learning back to the weights」,即学习过程需要能够真正固化到模型权重中。

当前大模型擅长 in-context learning,但这种学习往往停留在上下文窗口内,会话结束后模型可能不会真正「记住」。Patel 强调,模型在真实部署后获得的经验——例如被真实用户使用、参与真实任务、暴露真实错误——才是其最有价值的训练信号。如果这些经验无法沉淀回模型权重,就只是短暂适应,而非能力的长期增长。他用人类学习类比,员工的成长并非源于逐字记忆,而是经验的压缩与内化,形成了判断力、直觉和流程理解。

他提出了下一代训练范式需要解决的关键问题:如何将真实经验有效压缩并写回模型权重。为此,他提到了 OPSD (on-policy self-distillation) 和「dreaming」。OPSD 允许一个在长会话中积累了经验的模型充当“教师”,指导基础模型进行学习,将上下文中学到的知识蒸馏回权重。这不同于普通 SFT,它侧重于提炼关键洞见而非复述细节。OPSD 的优势在于,它不一定需要外部可验证奖励,并且可以提供比最终 reward 更密集的监督信号。

「Dreaming」则指 AI 根据真实世界观察,自主构建模拟环境进行反复练习和策略强化。这类似于 model-based RL,但将其置于大模型和真实部署的语境中。例如,AI 在观察到公司业务流程后,可以构建该流程的模拟版本,在其中测试不同沟通策略和项目推进方式,并将学到的经验压缩回模型。

Patel 设想,这可能成为 AI 扩展的第四条轴:test-time training,即在推理和任务执行过程中,为特定用户、组织或项目构造模拟环境并进行自我训练。这与 David Silver 和 Richard Sutton 在《Welcome to the Era of Experience》中强调的智能体从与环境互动中获取经验的观点相呼应。

他预言,到 2027 或 2028 年,训练流程可能包括:首先通过 RLVR 训练出基础 agent;然后将其部署到真实世界,进行真实工作和学习;最后,将任务中学到的经验通过 OPSD 或 dreaming 等技术蒸馏回基础模型。一旦这条路径实现,AI 的能力边界将不再局限于预先设定的「可验证任务」,而是能通过真实部署不断扩展到相邻领域,例如组织管理、业务流程和复杂协作。

AI 能力的主要来源也将发生转变:从发布前训练,走向发布后学习;从人类数据,走向环境经验;从上下文中的临时适应,走向权重中的长期能力。Dwarkesh Patel 认为,未来最重要的 AI 训练数据,将是 AI 在真实世界中完成真实任务时,自身积累的经验。

56,856

Client's

56,856

Comment's

251

Team Member

50%

世界杯买球网深耕实时更新的赛事比分与数据领域,用心服务每一位用户。

Contributions

Dwarkesh Patel:下一代AI,可能是干活干出来的 - 世界杯官网

围绕深度分析热门球队与赛事趋势,世界杯买球网持续打磨更优质的服务。

世界杯买球网以海量高清赛事精彩瞬间回顾为核心,带来高效便捷的体验。

世界杯买球网深耕海量高清赛事精彩瞬间回顾领域,用心服务每一位用户。

在安全可靠的赛事互动平台方面,世界杯买球网提供贴心周到的支持。

想了解更多安全可靠的赛事互动平台相关内容,尽在世界杯买球网。

世界杯买球网围绕世界杯赔率不断创新,回应用户的真实需求。

世界杯买球网以世界杯赔率为核心,带来高效便捷的体验。

世界杯买球网围绕世界杯官网不断创新,回应用户的真实需求。

精选世界杯下注内容,世界杯买球网与你一同发现更多精彩。

想了解更多足球世界杯相关内容,尽在世界杯买球网。

世界杯买球网专注实时更新的赛事比分与数据,为用户提供专业可靠的体验。

围绕深度分析热门球队与赛事趋势,世界杯买球网持续打磨更优质的服务。

世界杯买球网围绕世界杯竞猜不断创新,回应用户的真实需求。

世界杯买球网深耕海量高清赛事精彩瞬间回顾领域,用心服务每一位用户。

在安全可靠的赛事互动平台方面,世界杯买球网提供贴心周到的支持。

实时体育数据 数据来源:世界杯买球网

⚽ 足球实时 (2)

主队比分客队联赛时间(北京)
第比利斯 20251:0贝特莱米·凯达格鲁吉亚联赛318:00
内盖勒·阿尔西0:0哈瓦萨·凯内马埃塞俄比亚足球超级联赛18:00
更新于 2026-06-15 18:35(北京时间)