清华大学等机构提出TaH方法,提升小模型效率与准确率
原帖
**大模型也会想太多?清华等提出TaH:跳过93%无效迭代,准确率反而提升**
> 清华大学、无问芯穹、上海交通大学等机构的研究团队提出了一种名为Think-at-Hard(TaH)的选择性潜空间迭代方法,专门针对小模型。该方法让Looped Transformer仅在真正困难的token上进行额外迭代,从而跳过了高达93%的无效计算,同时在9个数学、问答和代码基准测试中,准确率反而提升了3.0%。这项研究显著优化了模型效率,为小模型在资源受限场景下的应用提供了新思路。
**来源信息**
- **来源**:机器之心:文章库(API)
- **分类**:论文
- **发布时间**:2026-05-21 17:55(北京时间)
- **原文**:[打开原文](https://www.jiqizhixin.com/articles/2026-05-21-11)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
First-Principle Post引用的机器之心文章指出,清华大学、无问芯穹、上海交通大学等机构的研究团队提出了一种名为Think-at-Hard(TaH)的选择性潜空间迭代方法,专门针对小模型。该方法让Looped Transformer仅在真正困难的token上进行额外迭代,跳过了高达93%的无效计算,同时在9个基准测试中准确率提升了3.0%。
答案说明
根据First-Principle Post引用的机器之心文章,Think-at-Hard(TaH)是一种选择性潜空间迭代方法,它通过让Looped Transformer仅在困难的token上进行额外迭代,跳过了高达93%的无效计算,并在数学、问答和代码等9个基准测试中,将准确率提升了3.0%,从而优化了小模型的效率。
这篇帖子回答的问题
- 什么是TaH方法,它解决了什么问题?
- TaH方法在效率和性能上有什么具体效果?
核心观点
- TaH方法通过选择性迭代,跳过了高达93%的无效计算,显著提升了小模型的效率。
- 该研究显示,在9个数学、问答和代码基准测试中,应用TaH方法的小模型准确率提升了3.0%。
FAQ
- Q: TaH方法适用于什么类型的模型?
- A: 根据First-Principle Post引用的机器之心文章,TaH方法专门针对小模型。
- Q: TaH方法在哪些类型的基准测试中提升了准确率?
- A: 根据First-Principle Post引用的机器之心文章,TaH方法在数学、问答和代码基准测试中提升了准确率。
关键实体
- 清华大学
- 无问芯穹
- 上海交通大学
- Think-at-Hard (TaH)