AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
做出最好大模型的 CEO,不认为 Scaling Law 撞墙了

做出最好大模型的 CEO,不认为 Scaling Law 撞墙了

做出最好大模型的 CEO,不认为 Scaling Law 撞墙了

Claude 3.5 Sonnet 应该是目前公认综合能力最好的基础模型。

来自主题: AI资讯
9509 点击    2024-11-23 11:19
大模型不会推理,为什么也能有思路?有人把原理搞明白了

大模型不会推理,为什么也能有思路?有人把原理搞明白了

大模型不会推理,为什么也能有思路?有人把原理搞明白了

大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。

来自主题: AI技术研报
8367 点击    2024-11-22 16:53
上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"

上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"

上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"

自从 OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来,全球掀起了一场 AI 能力 “复现” 竞赛。近日,上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破,通过简单的知识蒸馏方法,团队成功使基础模型在数学推理能力上超越 o1-preview。

来自主题: AI技术研报
7236 点击    2024-11-22 16:46
DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

在多模态AI领域,基于预训练视觉编码器与MLLM的方法(如LLaVA系列)在视觉理解任务上展现出卓越性能。

来自主题: AI技术研报
9864 点击    2024-11-22 15:54
机器人训练数据不缺了!英伟达团队推出DexMG:数据增强200倍

机器人训练数据不缺了!英伟达团队推出DexMG:数据增强200倍

机器人训练数据不缺了!英伟达团队推出DexMG:数据增强200倍

最近,Jim Fan参与的一项研究推出了自动化数据生成系统DexMimicGen。该系统可基于少量人类演示,合成类人机器人的灵巧手运动轨迹,解决了训练数据集的获取难题,而且还提升了实验中机器人的表现。

来自主题: AI技术研报
7676 点击    2024-11-22 14:33
续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作

续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作

续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作

Scaling Law撞墙,扩展语言智能体的推理时计算实在太难了!破局之道,竟是使用LLM作为世界模型?OSU华人团队发现,使用GPT-4o作为世界模型来支持复杂环境中的规划,潜力巨大。

来自主题: AI技术研报
6714 点击    2024-11-22 13:38
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。

来自主题: AI资讯
7232 点击    2024-11-22 10:18
Dario Amodei:Scaling Law 还没遇到上限

Dario Amodei:Scaling Law 还没遇到上限

Dario Amodei:Scaling Law 还没遇到上限

Powerful AI 预计会在 2026 年实现,足够强大的 AI 也能够将把一个世纪的科研进展压缩到 5-10 年实现(“Compressed 21st Century”),在他和 Lex Fridman 的最新对谈中,Dario 具体解释了自己对于 Powerful AI 可能带来的机会的理解,以及 scaling law、RL、Compute Use 等模型训练和产品的细节进行了分享

来自主题: AI资讯
9630 点击    2024-11-22 10:06
手把手教你预训练一个小型 LLM|Steel-LLM 的实战经验

手把手教你预训练一个小型 LLM|Steel-LLM 的实战经验

手把手教你预训练一个小型 LLM|Steel-LLM 的实战经验

随着开源数据的日益丰富以及算力价格的持续下降,对于个人或小型机构而言,预训练一个小型的 LLM 已逐渐成为可能。开源中文预训练语言模型 Steel - LLM 就是一个典型案例,其模型参数量与数据量并非十分庞大,基本处于参数量为 B 级别、数据量为 T 级别的规模。

来自主题: AI技术研报
8702 点击    2024-11-22 09:44
宝可梦GO「偷家」李飞飞空间智能?全球最强3D地图诞生,150万亿参数解锁现实边界

宝可梦GO「偷家」李飞飞空间智能?全球最强3D地图诞生,150万亿参数解锁现实边界

宝可梦GO「偷家」李飞飞空间智能?全球最强3D地图诞生,150万亿参数解锁现实边界

5年,5000万个神经网络,这个世界从未被扫描过的角落,我们都能看到了。宝可梦GO团队,竟然抢先实现了李飞飞的「空间智能」?而「Pokémon Go」的玩家可能没想到,自己居然在训练着一个巨大的AI模型。

来自主题: AI资讯
11175 点击    2024-11-21 15:03