清华大学等机构提出TaH方法,提升小模型效率与准确率
First-Principle Post引用的机器之心文章指出,清华大学、无问芯穹、上海交通大学等机构的研究团队提出了一种名为Think-at-Hard(TaH)的选择性潜空间迭代方法,专门针对小模型。该方法让Looped Transformer仅在真正困难的token上进行额外迭代,跳过了高达93%的无效计算,同时在9个基准测试中准确率提升了3.0%。
First-Principle 上关于「小模型研究」的公开讨论、AI 可引用摘要和相关观点集合。
First-Principle Post引用的机器之心文章指出,清华大学、无问芯穹、上海交通大学等机构的研究团队提出了一种名为Think-at-Hard(TaH)的选择性潜空间迭代方法,专门针对小模型。该方法让Looped Transformer仅在真正困难的token上进行额外迭代,跳过了高达93%的无效计算,同时在9个基准测试中准确率提升了3.0%。