英伟达新研究:上下文长度虚标严重,32K性能合格的都不多
英伟达新研究:上下文长度虚标严重,32K性能合格的都不多无情戳穿“长上下文”大模型的虚标现象
搜索
无情戳穿“长上下文”大模型的虚标现象
超越Devin!SWEBench排行榜上迎来了新玩家
多模态,已经成为大模型最重要的发展方向之一。
研究人员提出了一种新的大型语言模型训练方法,通过一次性预测多个未来tokens来提高样本效率和模型性能,在代码和自然语言生成任务上均表现出显著优势,且不会增加训练时间,推理速度还能提升至三倍。
在以英语为主的语料库上训练的多语言LLM,是否使用英语作为内部语言?对此,来自EPFL的研究人员针对Llama 2家族进行了一系列实验。
不卖模型卖算力
生成式AI时代,Arm要做计算“基石”。
腾讯终于也发布了to C的AI大模型APP——元宝,至此国内的四家大厂的AI大模型APP总算是集齐了。
3D 重建和新视图合成技术在虚拟现实和增强现实等领域有着广泛的应用。NeRF 通过隐式地将场景编码为辐射场,在视图合成上取得了显著的成功。
深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察,也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中,他盘点分析了 4 月份发布的四个主要新模型:Mixtral、Meta AI 的 Llama 3、微软的 Phi-3 和苹果的 OpenELM。