AI资讯新闻榜单内容搜索-Al

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Al
解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

在自动驾驶领域,VLA 大模型正从学术前沿走向产业落地的 “深水区”。近日,特斯拉(Tesla)在 ICCV 的分享中,就将其面临的核心挑战之一公之于众 ——“监督稀疏”。

来自主题: AI技术研报
7977 点击    2025-11-17 15:00
SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

随着生成式 AI 的快速发展,从文本生成图像、视频,到构建完整的三维世界,AI “创造空间” 的能力正以前所未有的速度突破边界。然而,现有 3D 场景生成方法仍存在明显局限:模型往往直接输出每个物体的几何参数(位置、大小、方向等),结果容易出现漂浮、重叠、穿模等问题;场景结构缺乏逻辑一致性,难以编辑或复用,更无法像程序那样精确控制空间关系与生成逻辑。

来自主题: AI技术研报
9601 点击    2025-11-17 14:33
VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

长期以来,多模态代码生成(Multimodal Code Generation)的训练严重依赖于特定任务的监督微调(SFT)。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功 ,但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力,阻碍了通用视觉代码智能(Generalized VIsioN Code Intelligence)的发展 。

来自主题: AI技术研报
8889 点击    2025-11-17 14:32
从印度二本到Meta副总裁!被世界拒绝15次的他,撑起AI时代地基

从印度二本到Meta副总裁!被世界拒绝15次的他,撑起AI时代地基

从印度二本到Meta副总裁!被世界拒绝15次的他,撑起AI时代地基

他被12所大学拒绝,签证差点作废。后又被DeepMind拒了三次,在亚马逊做着最不起眼的测试工作。十二年后,这个被世界反复拒绝的人,写出了改变AI格局的PyTorch。

来自主题: AI资讯
7627 点击    2025-11-16 10:38
4个旷视天才具身创业获投近10亿,阿里独家很瞩目

4个旷视天才具身创业获投近10亿,阿里独家很瞩目

4个旷视天才具身创业获投近10亿,阿里独家很瞩目

具身智能赛道的创投大戏,仍在持续升温。这不,具身智能公司Dexmal原力灵机,完成了共计近10亿元的融资。更引人注目的是,在最新一轮融资中,阿里巴巴以独家投资方的身份,赫然在列。

来自主题: AI资讯
7253 点击    2025-11-15 10:29
高瓴创投领投Dealism天使轮融资,Vibe Selling引领AI销售新趋

高瓴创投领投Dealism天使轮融资,Vibe Selling引领AI销售新趋

高瓴创投领投Dealism天使轮融资,Vibe Selling引领AI销售新趋

今日,全球首个Vibe Selling AI Agent 公司「Dealism」宣布完成 1500 万美元天使轮融资,由高瓴创投(GL Ventures)领投,红杉中国、线性资本及其他投资人跟投。

来自主题: AI资讯
6857 点击    2025-11-14 14:27
何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

一篇入围顶会NeurIPS’25 Oral的论文,狠狠反击了一把DiT(Diffusion Transformer)。这篇来自字节跳动商业化技术团队的论文,则是提出了一个名叫InfinityStar的方法,一举兼得了视频生成的质量和效率,为视频生成方法探索更多可能的路径。

来自主题: AI技术研报
8085 点击    2025-11-14 14:25
FDA对偶锚点:模型知识迁移的新视角——从参数空间到输入空间

FDA对偶锚点:模型知识迁移的新视角——从参数空间到输入空间

FDA对偶锚点:模型知识迁移的新视角——从参数空间到输入空间

研究者们提出了 FDA(Model Merging with Functional Dual Anchors)——一个全新的模型融合框架。与传统的参数空间操作不同,FDA 将专家模型的参数知识投射到输入-表征空间中的合成锚点,通过功能对偶的方式实现更高效的知识整合。

来自主题: AI技术研报
7208 点击    2025-11-14 13:57
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"

破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"

破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"

多模态大语言模型(MLLMs)在处理来自图像和文本等多种来源的信息时能力强大 。 然而,一个关键挑战随之而来:当这些模态呈现相互冲突的信息时(例如,图像显示一辆蓝色汽车,而文本描述它为红色),MLLM必须解决这种冲突 。模型最终输出与某一模态信息保持一致的行为,称之为“模态跟随”(modality following)

来自主题: AI技术研报
7836 点击    2025-11-14 13:54