AI技术研报-这里有最前沿的人工智能技术解读

流体力学专用版DeepSeek，单GPU可跑，成本节约高达100倍

又一专业领域成功引入AI工程师！

来自主题: AI技术研报

7012 点击 2025-04-11 10:00

CVPR 2025 | 2D 大模型赋能3D Affordance 预测，GEAL助力可泛化的3D场景可交互区域识别

在现实世界中，如何让智能体理解并挖掘 3D 场景中可交互的部位（Affordance）对于机器人操作与人机交互至关重要。所谓 3D Affordance Learning，就是希望模型能够根据视觉和语言线索，自动推理出物体可供哪些操作、以及可交互区域的空间位置，从而为机器人或人工智能系统提供对物体潜在操作方式的理解。

来自主题: AI技术研报

4789 点击 2025-04-11 09:55

预训练还没终结！港中文清华等提出「三位一体」框架，持续自我进化

港中文、清华等高校提出SICOG框架，通过预训练、推理优化和后训练协同，引入自生成数据闭环和结构化感知推理机制，实现模型自我进化，为大模型发展提供新思路。

来自主题: AI技术研报

8043 点击 2025-04-11 09:36

闭环端到端精度暴涨19.61%！华科&小米汽车联手打造自动驾驶框架ORION，代码将开源

近年来，端到端（End-to-End，E2E）自动驾驶技术不断进步，但在复杂的闭环交互环境中，由于其因果推理能力有限，仍然难以做出准确决策。虽然视觉 - 语言大模型（Vision-Language Model，VLM）凭借其卓越的理解和推理能力，为端到端自动驾驶带来了新的希望，但现有方法在 VLM 的语义推理空间和纯数值轨迹的行动空间之间仍然存在巨大鸿沟。

来自主题: AI技术研报

6819 点击 2025-04-11 09:28

AI优化芯片布局，设计阶段即考虑最终性能，中科大华为诺亚新方法入选ICLR 2025 Oral

用AI指导芯片设计，中科大王杰教授团队、华为诺亚实验室、天津大学提出全新芯片宏单元布局优化方法LaMPlace！

来自主题: AI技术研报

6048 点击 2025-04-11 08:47

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

刚刚，Kimi团队上新了！

来自主题: AI技术研报

6854 点击 2025-04-10 16:25

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA

利用字节团队魔改的FLUX模型，可以直接把多个参考主体放进一张图了。

来自主题: AI技术研报

7084 点击 2025-04-10 15:15

5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

谷歌Deep Research重大升级，搭载全球顶尖Gemini 2.5 Pro模型。5分钟生成46页学术论文、复杂报告转为10分钟播客。性能超OpenAI DR 40%，价格仅为其1/10。

来自主题: AI技术研报

6006 点击 2025-04-10 12:26

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

世界模型领域最新进展，要比拼“世界生成”了。

来自主题: AI技术研报

9060 点击 2025-04-10 12:15

UC伯克利华人开源14B「o3-mini」，代码版R1突袭OpenAI王座！

OpenAI o1/o3-mini级别的代码推理模型竟被抢先开源！UC伯克利和Together AI联合推出的DeepCoder-14B-Preview，仅14B参数就能媲美o3-mini，开源代码、数据集一应俱全，免费使用。

来自主题: AI技术研报

7109 点击 2025-04-10 11:52

字节最新人像视频生成模型DreamActor-M1，推特关注超百万！即梦AI即将上线

自数字人技术Omnihuman-1引起行业关注之后，字节智能创作团队再放大招。全新DreamActor-M1横空出世，一张照片一段视频，就能生成电影级视频，精准迁移表情动作，还支持多种画风。

来自主题: AI技术研报

9074 点击 2025-04-10 11:12

芯片设计效率提升2.5倍，中科大华为诺亚联合，用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

芯片设计是现代科技的核心，逻辑优化（Logic Optimization, LO）作为芯片设计流程中的关键环节，其效率直接影响着芯片设计的整体性能。

来自主题: AI技术研报

2791 点击 2025-04-10 11:03

孪生世界动态仿真新突破！北大发布RainyGS：降雨/洪涝/风速精准可控

北京大学陈宝权教授团队提出RainyGS技术，通过结合物理模拟和3D高斯泼溅渲染框架，实现了真实场景中动态雨效的高质量仿真与呈现，真正实现「从真实到真实」，或者「以仿真乱真」，即Real2Sim2Real ！相比现有的视频编辑工具（如 Runway），其物理真实性获得保证。

来自主题: AI技术研报

7084 点击 2025-04-10 10:51

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

统一多模态大模型（U-MLLMs）逐渐成为研究热点，近期GPT-4o，Gemini-2.0-flash都展现出了非凡的理解和生成能力，而且还能实现跨模态输入输出，比如图像+文本输入，生成图像或文本。

来自主题: AI技术研报

7084 点击 2025-04-10 10:20

用梯度下降求解整数规划，中科大等提出无监督训练整数规划求解器新范式 | ICLR 2025 Spotlight

无监督学习训练整数规划求解器的新范式来了。

来自主题: AI技术研报

7086 点击 2025-04-10 09:53

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

GPT-4o图像生成架构被“破解”了！

来自主题: AI技术研报

6853 点击 2025-04-09 17:37

jina-reranker-m0 全新多模态多语言重排器

今天，我们正式发布jina-reranker-m0。这是一款多模态、多语言重排器（reranker），其核心能力在于对包含丰富视觉元素的文档进行重排和精排，同时兼容跨语言场景。

来自主题: AI技术研报

6359 点击 2025-04-09 17:03

CVPR 2025 HighLight｜打通视频到3D的最后一公里，清华团队推出一键式视频扩散模型VideoScene

随着 VR/AR、游戏娱乐、自动驾驶等领域对 3D 场景生成的需求不断攀升，从稀疏视角重建 3D 场景已成为一大热点课题。

来自主题: AI技术研报

6415 点击 2025-04-09 16:28

论文党狂喜！alphaXiv推出Deep Research一秒搜遍arXiv，研究效率直接爆表

刚刚，alphaXiv 推出了新功能「Deep Research for arXiv」，该功能可协助研究人员更高效地在 arXiv 平台上进行学术论文的检索与阅读，显著提升文献检索及研究效率。

来自主题: AI技术研报

9180 点击 2025-04-09 16:07

南洋理工&普渡大学提出CFG-Zero*：在Flow Matching模型中实现更稳健的无分类器引导方法

本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式，支持所有 Flow Matching 的生成模型。目前已被集成至 Diffusers 与 ComfyUI。

来自主题: AI技术研报

7917 点击 2025-04-09 15:40

速递｜通义千问3.0倒计时，通过新加坡节点扩展，阿里巴巴的AI全球化浮出水面

阿里巴巴的云业务部门正升级其海外可用的人工智能工具套件，以吸引更多全球客户。

来自主题: AI技术研报

7981 点击 2025-04-09 15:03

反英伟达联盟的里程碑，UA Link 1.0：正式发布

UALink 1.0发布：支持1024 GPU，200GT/s带宽，开放标准挑战NVLink。

来自主题: AI技术研报

6373 点击 2025-04-09 14:55

深度｜具身合成数据的路线之争，谁将率先走出困境？

本文主要描述了具身合成数据两条主要技术路线之争：“视频合成+3D重建”or “端到端3D生成”。参考自动驾驶的成功经验，前者模态转换链路过长导致误差累积，'直接合成3D数据'理论上有信息效率优势，但需要克服“常识欠缺”等挑战。

来自主题: AI技术研报

9419 点击 2025-04-09 10:07

Llama 4五大疑点曝光，逐层扒皮！全球AI进步停滞，NYU教授称Scaling彻底结束

刚刚，一位AI公司CEO细细扒皮了关于Llama 4的五大疑点。甚至有圈内人表示，Llama 4证明Scaling已经结束了，LLM并不能可靠推理。但更可怕的事，就是全球的AI进步恐将彻底停滞。

来自主题: AI技术研报

7097 点击 2025-04-09 09:49

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

基于规则的强化学习（RL/RFT）已成为替代 SFT 的高效方案，仅需少量样本即可提升模型在特定任务中的表现。

来自主题: AI技术研报

4841 点击 2025-04-09 09:14

迈向机器人领域ImageNet，大牛Pieter Abbeel领衔国内外高校共建RoboVerse，统一仿真平台、数据集和基准

大规模数据集和标准化评估基准显著促进了自然语言处理和计算机视觉领域的发展。然而，机器人领域在如何构建大规模数据集并建立可靠的评估体系方面仍面临巨大挑战。

来自主题: AI技术研报

7053 点击 2025-04-09 08:59

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

多模态视频异常理解任务，又有新突破！

来自主题: AI技术研报

8312 点击 2025-04-08 15:01

生图加入CoT，性能提升80%！微软港中文打造天才画手

AI绘画总「翻车」，不是抓不住重点，就是细节崩坏？别愁！微软和港中文学者带来ImageGen-CoT技术，让AI像人一样思考推理，生成超惊艳画作，性能提升高达80%。

来自主题: AI技术研报

2629 点击 2025-04-08 14:52

颠覆传统信息搜索，效果是之前SOTA的三倍？UIUC韩家炜、孙冀萌团队开源DeepRetrieval，让模型端到端地学会搜索！

在信息检索系统中，搜索引擎的能力只是影响结果的一个方面，真正的瓶颈往往在于：用户的原始 query 本身不够好。

来自主题: AI技术研报

7051 点击 2025-04-08 14:36

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

Q-Insight不再简单地让模型拟合人眼打分，而是将评分视作一种引导信号，促使模型深度思考图像质量的本质原因。有了会思考的“大脑”，视频云技术栈不仅得以重塑也让用户体验有了跃迁。

来自主题: AI技术研报

3799 点击 2025-04-08 14:30

AI技术研报-这里有最前沿的人工智能技术解读

流体力学专用版DeepSeek，单GPU可跑，成本节约高达100倍

CVPR 2025 | 2D 大模型赋能3D Affordance 预测，GEAL助力可泛化的3D场景可交互区域识别

预训练还没终结！港中文清华等提出「三位一体」框架，持续自我进化

闭环端到端精度暴涨19.61%！华科&小米汽车联手打造自动驾驶框架ORION，代码将开源

AI优化芯片布局，设计阶段即考虑最终性能，中科大华为诺亚新方法入选ICLR 2025 Oral

Kimi 16B胜GPT-4o！开源视觉推理模型：MoE架构，推理时仅激活2.8B

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA​

5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

李飞飞团队提出世界模型基准：“世界生成”能力迎来统一评测，3D/4D/视频模型同台PK

UC伯克利华人开源14B「o3-mini」，代码版R1突袭OpenAI王座！

字节最新人像视频生成模型DreamActor-M1，推特关注超百万！即梦AI即将上线

芯片设计效率提升2.5倍，中科大华为诺亚联合，用GNN+蒙特卡洛树搜索优化电路设计 | ICLR2025

孪生世界动态仿真新突破！北大发布RainyGS：降雨/洪涝/风速精准可控

首个统一多模态模型评测标准，DeepSeek Janus理解能力领跑开源，但和闭源还有差距

用梯度下降求解整数规划，中科大等提出无监督训练整数规划求解器新范式 | ICLR 2025 Spotlight

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

jina-reranker-m0 全新多模态多语言重排器

CVPR 2025 HighLight｜打通视频到3D的最后一公里，清华团队推出一键式视频扩散模型VideoScene

论文党狂喜！alphaXiv推出Deep Research一秒搜遍arXiv，研究效率直接爆表

南洋理工&普渡大学提出CFG-Zero*：在Flow Matching模型中实现更稳健的无分类器引导方法

速递｜通义千问3.0倒计时，通过新加坡节点扩展，阿里巴巴的AI全球化浮出水面

反英伟达联盟的里程碑，UA Link 1.0：正式发布

深度｜具身合成数据的路线之争，谁将率先走出困境？

Llama 4五大疑点曝光，逐层扒皮！全球AI进步停滞，NYU教授称Scaling彻底结束

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

迈向机器人领域ImageNet，大牛Pieter Abbeel领衔国内外高校共建RoboVerse，统一仿真平台、数据集和基准

AI危险检测再进化！三层级解析长视频异常，各种时序粒度均有明显优势 | CVPR HighLight

生图加入CoT，性能提升80%！微软港中文打造天才画手

颠覆传统信息搜索，效果是之前SOTA的三倍？UIUC韩家炜、孙冀萌团队开源DeepRetrieval，让模型端到端地学会搜索！

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

字节开源新生图模型：一个模型统一所有生图任务，多主体融合效果SOTA