AI资讯新闻榜单内容搜索-训练

拯救Transformer推理能力！DeepMind新研究TransNAR：给模型嵌入「算法推理大脑」

DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GNN的神经算法推理器（NAR）的强大算法推理能力相结合，可以实现更加泛化、稳健、准确的LLM推理。

来自主题: AI技术研报

11181 点击 2024-06-17 21:30

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。

来自主题: AI技术研报

9572 点击 2024-06-17 19:35

高质量3D生成最有希望的一集？GaussianCube在三维生成中全面超越NeRF

在三维生成建模的研究领域，现行的两大类 3D 表示方法要么基于拟合能力不足的隐式解码器，要么缺乏清晰定义的空间结构难以与主流的 3D 扩散技术融合。来自中科大、清华和微软亚洲研究院的研究人员提出了 GaussianCube，这是一种具有强大拟合能力的显式结构化三维表示，并且可以无缝应用于目前主流的 3D 扩散模型中。

来自主题: AI技术研报

11249 点击 2024-06-16 18:15

星环科技孙元浩：语料已经是大模型最大的挑战

「原来以为语料已经匮乏了，大模型训练已经没有语料了，实际上不是的，数据还远远没有跑光」。

来自主题: AI资讯

9601 点击 2024-06-16 18:09

37项SOTA！全模态预训练范式MiCo：理解任何模态并学习通用表示｜港中文&中科院

GPT-4o掀起一股全模态（Omni-modal）热潮，去年的热词多模态仿佛已经不够看了。

来自主题: AI技术研报

10680 点击 2024-06-16 17:50

Sora负责人揭秘技术探索之路：成功的研究者，往往没有经过传统的研究训练

给人才充足的GPU，是很重要的！

来自主题: AI资讯

9089 点击 2024-06-16 11:24

「连续数值分布式表征」加持，浙大UIUC让语言模型擅长表格预测 | ICLR 2024 Spotlight

来自浙江大学和伊利诺伊大学厄巴纳-香槟分校的研究者发表了他们关于「表格语言模型」（Tabular Language Model）的研究成果

来自主题: AI技术研报

9847 点击 2024-06-15 16:23

Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据

训练数据的数量和质量，对LLM性能的重要性已经是不言自明的事实。然而，Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水，他们预测，互联网上可用的人类文本数据将在四年后，即2028年耗尽。

来自主题: AI技术研报

10918 点击 2024-06-15 16:20

英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

刚刚，英伟达全新发布的开源模型Nemotron-4 340B，有可能彻底改变训练LLM的方式！从此，或许各行各业都不再需要昂贵的真实世界数据集了。而且，Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2，甚至可以和GPT-4掰手腕！

来自主题: AI技术研报

6087 点击 2024-06-15 15:58

只需几个演示就能对齐大模型，杨笛一团队提出的DITTO竟如此高效

人类的教育方式，对大模型而言也很适用。

来自主题: AI技术研报

11275 点击 2024-06-15 15:54