AI资讯新闻榜单内容搜索-模型训练

震撼！苏黎世联邦理工和DeepMind发现LLM存在"盲从效应"，这可能颠覆我们对AI的认知 |COLM 2024

在当今人工智能迅猛发展的时代，大语言模型（LLMs）已成为众多AI应用的核心引擎。然而，来自ETH Zurich和Google DeepMind的一项最新研究揭示了一个令人深思的现象：这些看似强大的模型存在着严重的“盲从效应”。

来自主题: AI技术研报

6596 点击 2024-11-25 09:44

扩散模型的本质竟是进化算法！生物学大佬从数学的角度证实了这个结论，并结合扩散模型创建了全新的进化算法。

来自主题: AI技术研报

6787 点击 2024-11-24 20:26

我们对小型语言模型的增强方法、已存在的小模型、应用、与 LLMs 的协作、以及可信赖性方面进行了详细调查。

来自主题: AI技术研报

7435 点击 2024-11-24 20:02

在机器学习领域，开发一个在未见过领域表现出色的通用智能体一直是长期目标之一。一种观点认为，在大量离线文本和视频数据上训练的大型 transformer 最终可以实现这一目标。

来自主题: AI技术研报

6489 点击 2024-11-24 19:59

用看漫画的方式，大幅提升视频大模型时序定位能力！

来自主题: AI技术研报

7901 点击 2024-11-23 16:55

tokenizer对于图像、视频生成的重要性值得重视。

来自主题: AI技术研报

4682 点击 2024-11-23 16:31

开源模型阵营又迎来一员猛将：Tülu 3。它来自艾伦人工智能研究所（Ai2），目前包含 8B 和 70B 两个版本（未来还会有 405B 版本），并且其性能超过了 Llama 3.1 Instruct 的相应版本！长达 73 的技术报告详细介绍了后训练的细节。

来自主题: AI技术研报

12101 点击 2024-11-23 16:04

Claude 3.5 Sonnet 应该是目前公认综合能力最好的基础模型。

来自主题: AI资讯

9491 点击 2024-11-23 11:19

大模型不会照搬训练数据中的数学推理，回答事实问题和推理问题的「思路」也不一样。

来自主题: AI技术研报

8346 点击 2024-11-22 16:53

自从 OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来，全球掀起了一场 AI 能力 “复现” 竞赛。近日，上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破，通过简单的知识蒸馏方法，团队成功使基础模型在数学推理能力上超越 o1-preview。

来自主题: AI技术研报

7214 点击 2024-11-22 16:46