AI资讯新闻榜单内容搜索-模型训练

NeurIPS 2024 | Transformer长度外推，全新位置编码DAPE大幅提升模型性能

在当今的人工智能领域，Transformer 模型已成为解决诸多自然语言处理任务的核心。然而，Transformer 模型在处理长文本时常常遇到性能瓶颈。传统的位置编码方法，如绝对位置编码（APE）和相对位置编码（RPE），虽然在许多任务中表现良好，但其固定性限制了其在处理超长文本时的适应性和灵活性。

来自主题: AI技术研报

8108 点击 2024-10-12 14:29

米开朗基罗怎么说？谷歌DeepMind推出长上下文评估新框架

近日，来自谷歌DeepMind的研究人员提出了Michelangelo，「用米开朗基罗的观点」来测量任意上下文长度的基础模型性能。

来自主题: AI技术研报

5006 点击 2024-10-12 11:07

一文看懂LLM推理，UCL汪军教授解读OpenAI ο1的相关方法

OpenAI 最近发布的 o1 系列模型堪称迈向强人工智能的一次飞跃，其强大的推理能力为我们描绘出了下一代人工智能模型的未来图景。近日，伦敦大学学院（UCL）人工智能中心汪军教授撰写了一份「LLM 推理教程」，深入详细地介绍了 OpenAI ο1 模型背后的相关方法。

来自主题: AI资讯

4229 点击 2024-10-11 14:42

NeurIPS 2024 | 大模型的词表大小，同样适用于Scaling Law

本文是一篇发表在 NeurIPS 2024 上的论文，单位是香港大学、Sea AI Lab、Contextual AI 和俄亥俄州立大学。论文主要探讨了大型语言模型（LLMs）的词表大小对模型性能的影响。

来自主题: AI技术研报

7898 点击 2024-10-11 13:55

NeurIPS 2024｜SparseLLM：突破性全局剪枝技术，大语言模型稀疏化革命

该研究主要探讨了大语言模型的全局剪枝方法，旨在提高预训练语言模型的效率。该成果的发表为大模型的剪枝与优化研究提供了新的视角，并在相关领域具有重要的应用潜力。

来自主题: AI技术研报

6121 点击 2024-10-10 17:17

CMU副教授：在多智能体流行的当下，不要忽视单智能体系统

「多智能体系统」是人工智能领域最热门的流行词之一，也是开源框架 MetaGPT 、 Autogen 等研究的焦点。但是，多智能体系统就一定是完美的吗近日，来自卡内基梅隆大学的副教授 Graham Neubig 在文章《Don't Sleep on Single-agent Systems》中强调了单智能体系统也不可忽视。

来自主题: AI资讯

5821 点击 2024-10-10 17:06