AI资讯新闻榜单内容搜索-LLM

从裸机到700亿参数大模型，这里有份教程，还有现成可用的脚本

我们知道 LLM 是在大规模计算机集群上使用海量数据训练得到的，机器之心曾介绍过不少用于辅助和改进 LLM 训练流程的方法和技术。而今天，我们要分享的是一篇深入技术底层的文章，介绍如何将一堆连操作系统也没有的「裸机」变成用于训练 LLM 的计算机集群。

来自主题: AI技术研报

9755 点击 2024-07-24 16:57

大模型常用评测基准汇总

基于评测维度，考虑到各评测集关注的评测维度，可以将其划分为通用评测基准和具体评测基准。

来自主题: AI资讯

12855 点击 2024-07-23 19:24

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开源模型不如瞎蒙

当今的LLM已经号称能够支持百万级别的上下文长度，这对于模型的能力来说，意义重大。但近日的两项独立研究表明，它们可能只是在吹牛，LLM实际上并不能理解这么长的内容。

来自主题: AI资讯

5485 点击 2024-07-23 16:10

挑战Scaling Law，Meta发布移动端350M小模型MobileLLM，性能比肩7B LLaMA-v2

Scaling Law还没走到尽头，「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列，规模甚至降低到了1B以下，两个版本分别只有125M和350M参数，但却实现了比更大规模模型更优的性能。

来自主题: AI技术研报

10390 点击 2024-07-22 15:25

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能，你需要这种提示范式

多模态大模型（Multimodal Large Language Models，MLLMs）在不同的任务中表现出了令人印象深刻的能力，尽管如此，这些模型在检测任务中的潜力仍被低估。

来自主题: AI技术研报

11140 点击 2024-07-22 14:58

中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

数据是大语言模型（LLMs）成功的基石，但并非所有数据都有益于模型学习。

来自主题: AI技术研报

10098 点击 2024-07-22 14:55

盛名一时的BERT哪去了？这个问题的答案昭示了LLM范式的转变

编码器模型哪去了？如果 BERT 效果好，那为什么不扩展它？编码器 - 解码器或仅编码器模型怎么样了？

来自主题: AI资讯

9281 点击 2024-07-22 14:50

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

如何让大模型更好的遵从人类指令和意图？如何让大模型有更好的推理能力？如何让大模型避免幻觉？能否解决这些问题，是让大模型真正广泛可用，甚至实现超级智能（Super Intelligence）最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点，大模型对齐技术（Alignment）所要攻克的难题。

来自主题: AI资讯

11492 点击 2024-07-21 17:10

前谷歌科学家Yi Tay「LLM演义」系列博客第一弹：BERT为何匿迹江湖？

前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客，首篇博文的话题关于：基于encoder-only架构的BERT是如何被基于encoder-decoder架构的T5所取代的，分析了BERT灭绝的始末以及不同架构模型的优缺点，以史为鉴，对于未来的创新具有重要意义。

来自主题: AI技术研报

10598 点击 2024-07-21 16:58

使用视觉语言模型进行 PDF 检索 [译]

近年来，随着大语言模型 (LLM) 的发展，构建检索增强生成 (RAG) 解决方案成为了一个热门话题。RAG 将 LLM 的强大功能与检索模型结合，应用于专有知识数据库。然而，对于开发人员来说，一个主要挑战是将各种文档格式（如 PDF、HTML 等）转换为可供文本模型处理的格式。

来自主题: AI技术研报

9996 点击 2024-07-21 14:12