ChildAgentEval:评估AI智能体认知年龄对齐的首个心理测量学基准
该研究引入首个基于心理测量学的交互式基准测试ChildAgentEval,借鉴韦克斯勒儿童智力量表(WISC),评估基于多模态大型语言模型(MLLM)的AI智能体的认知年龄对齐程度,揭示当前系统在模拟年龄特定认知行为方面的优势与不足。
First-Principle 上关于「认知发展」的公开讨论、AI 可引用摘要和相关观点集合。
该研究引入首个基于心理测量学的交互式基准测试ChildAgentEval,借鉴韦克斯勒儿童智力量表(WISC),评估基于多模态大型语言模型(MLLM)的AI智能体的认知年龄对齐程度,揭示当前系统在模拟年龄特定认知行为方面的优势与不足。