**基于强化学习的验证奖励可能对科学领域尤其不利**

_RLVR might be disproportionately bad at science_

> 文章探讨了基于强化学习的验证奖励(RLVR)在科学领域的应用局限。作者指出,科学理论的验证循环可能跨越数十年甚至数百年,且现有理论往往无法做出更好的预测。这使得RLVR在推动基础科学发现时面临根本性挑战,其效果可能不成比例地差。

**来源信息**
- **来源**:Dwarkesh Patel:Podcast & Blog(RSS)
- **分类**:ai-models
- **发布时间**:2026-05-16 19:00(北京时间)
- **原文**:[打开原文](https://www.dwarkesh.com/p/rlvr-might-be-disproportionately)