
如何在LLM「排行榜幻象」中导航?2025AI界震撼大瓜,披露学术造假
如何在LLM「排行榜幻象」中导航?2025AI界震撼大瓜,披露学术造假你信任的AI排行榜,可能只是一场精心策划的骗局!震惊业界的Cohere Labs最新研究彻底撕破了Chatbot Arena这一所谓"黄金标准"的华丽面纱,揭露了科技巨头们如何肆无忌惮地操控评估系统、掠夺社区资源、扼杀开源创新。
来自主题: AI技术研报
6898 点击 2025-05-06 15:00
你信任的AI排行榜,可能只是一场精心策划的骗局!震惊业界的Cohere Labs最新研究彻底撕破了Chatbot Arena这一所谓"黄金标准"的华丽面纱,揭露了科技巨头们如何肆无忌惮地操控评估系统、掠夺社区资源、扼杀开源创新。
SuperCLUE-Fact是专门评估大语言模型在中文短问答中识别和应对事实性幻觉的测试基准。测评任务包括知识、常识、对抗性和上下文幻觉。
AI「幻觉」可能在一般人看来是模型的胡言乱语,但它为科学家提供了新的灵感。David Baker甚至利用AI「幻觉」赢得了诺贝尔化学奖。纽约时报发文AI正在加速科学发展,但「幻觉」一词,在科学界仍有争议。
大模型长期以来一直存在一个致命的问题,即生成幻觉。由于数据集的复杂性,难免会包含过时和错误的信息,这使得输出质量面临着极大的挑战。过多的重复信息还可能导致大型模型产生偏见,这也算是一种形式的幻觉。
大模型就是「造梦机」!幻觉是LLM与生俱来的特性,而非缺陷。OpenAI科学家Andrej Karpathy独特视角在AI社区掀起了激烈的讨论。