密集检索器中的位置偏见：源于数据还是模型固有？

原帖

**密集检索器中的位置偏见是固有的还是从数据中学习的？**

_Is Position Bias in Dense Retrievers Built In-or Learned from Data?_

> 该论文研究了密集检索器（Dense Retrievers）中存在的位置偏见问题，即模型倾向于优先检索文档开头附近的相关信息。通过构建合成训练数据集（将相关证据置于文档的开头、中间或结尾），并微调了八个架构多样的预训练模型，发现训练数据中的证据位置分布会显著影响检索器的位置偏见方向。使用位置平衡的训练数据可以将位置敏感性降低57-87%，且平均检索性能保持竞争力。研究指出，训练数据的位置分布是控制检索位置偏见的一个主要可控因素，建议通过平衡数据整理来缓解这一问题。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.26578)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

一篇论文研究了密集检索器中的位置偏见问题，发现该偏见主要源于训练数据中证据的位置分布，而非模型固有特性。通过使用位置平衡的训练数据，可以显著降低模型对文档位置的敏感性，同时保持检索性能。

答案说明

论文指出，密集检索器的位置偏见主要从训练数据中学习而来，通过平衡训练数据中的证据位置分布，可以有效缓解这一问题。

这篇帖子回答的问题

密集检索器中的位置偏见是从数据中学到的还是模型固有的？
如何缓解密集检索器中的位置偏见？

核心观点

密集检索器的位置偏见主要源于训练数据中证据的位置分布，而非模型固有。
通过构建位置平衡的训练数据，可以有效降低检索器对文档位置的敏感性，从而缓解位置偏见。

FAQ

Q: 什么是密集检索器中的位置偏见？: A: 位置偏见是指模型倾向于优先检索文档开头附近的相关信息。
Q: 论文提出了什么缓解位置偏见的方法？: A: 论文建议通过平衡数据整理来缓解这一问题，具体是使用位置平衡的训练数据。

关键实体

密集检索器
位置偏见
位置平衡的训练数据
HuggingFace Daily Papers