AI技术研报-这里有最前沿的人工智能技术解读

无需NeRF/高斯点后处理，视频秒变游戏模型成现实！新方法平均每帧仅需60秒 | ICCV 2025

只需一段视频，就可以直接生成可用的4D网格动画？！来自KAUST的研究团队提出全新方法V2M4，能够实现从单目视频直接生成高质量、显式的4D网格动画资源。

来自主题: AI技术研报

6654 点击 2025-07-20 11:21

真实物理加持，人物动画再也不像塑料人！UIUC华人让角色活起来了 | ICCV'25

PhysRig是UIUC与Stability AI联合提出的首个面向角色动画的可微物理绑定框架。通过将刚性骨架嵌入弹性软体体积，并使用Material Point Method（MPM）进行可微分物理模拟，PhysRig能够自然还原皮肤、脂肪、尾巴等柔性结构的变形过程，显著提升角色动画的真实感，解决传统LBS无法克服的体积丢失与变形伪影问题。

来自主题: AI技术研报

8408 点击 2025-07-20 11:13

AI「偷学」你的数据？6大顶级机构联手提出数据保护4大分级体系

你是否也曾担心过，随手发给 AI 助手的一份代码或报告，会让你成为下一个泄密新闻的主角？又或是你在网上发布的一张画作，会被各种绘画 AI 批量模仿并用于商业盈利？

来自主题: AI技术研报

8281 点击 2025-07-20 11:02

演讲生成黑科技，PresentAgent从文本到演讲视频

我们提出了 PresentAgent，一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要，而我们的方案突破了这些限制，能够生成高度同步的视觉内容和语音解说，逼真模拟人类风格的演示。

来自主题: AI技术研报

8488 点击 2025-07-19 11:31

7B模型“情商”比肩GPT-4o，腾讯突破开放域RL难题，得分直翻5倍

在没有标准答案的开放式对话中，RL该怎么做？多轮对话是大模型最典型的开放任务：高频、多轮、强情境依赖，且“好回复”因人而异。

来自主题: AI技术研报

8025 点击 2025-07-19 11:13

Manus 内部的 Context 工程经验（精校、高亮要点）

Manus 团队刚分享了他们构建 Agent 的 Context 工程经验。刚好我在自己读的过程中，对全文进行了精校翻译，并高亮要点与排版。来自一线的分享，总共 6 条经验，共 5K 字。

来自主题: AI技术研报

10270 点击 2025-07-19 11:07

突破户外RGB-only SLAM尺度漂移难题，精确定位+高保真重建 | ICCV'25开源

户外SLAM的尺度漂移问题，终于有了新解法！香港科技大学（广州）的研究的最新成果：S3PO-GS，一个专门针对户外单目SLAM的3D高斯框架，已被ICCV 2025接收。

来自主题: AI技术研报

7489 点击 2025-07-19 10:59

强化学习的两个「大坑」，终于被两篇ICLR论文给解决了

实时强化学习来了！AI 再也不怕「卡顿」。设想这样一个未来场景：多个厨师机器人正在协作制作煎蛋卷。

来自主题: AI技术研报

9754 点击 2025-07-18 14:06

500美元刷新SOTA！训练成本砍到1/200，华人团队重构视频生成范式

你可能听说过OpenAI的Sora，用数百万视频、千万美元训练出的AI视频模型。但你能想象，有团队只用3860段视频、不到500美元成本，也能在关键任务上做到SOTA？

来自主题: AI技术研报

7592 点击 2025-07-18 13:13

大模型转行土木工程！首个「打灰人」评估基准：检验读、改工程图纸能力

首个工程自动化任务评估基准DrafterBench，可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令，全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力，研究结果发现当前主流大模型虽有一定能力，但整体水平仍不足以满足工程一线需求。

来自主题: AI技术研报

6722 点击 2025-07-18 12:58

「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

大型语言模型已展现出卓越的能力，但其部署仍面临巨大的计算与内存开销所带来的挑战。随着模型参数规模扩大至数千亿级别，训练和推理的成本变得高昂，阻碍了其在许多实际应用中的推广与落地。

来自主题: AI技术研报

7468 点击 2025-07-18 11:58

免剪辑直出！AI生成多角色同框对话视频，动态路由精准绑定音频

Bind-Your-Avatar是一个基于扩散Transformer（MM-DiT）的框架，通过细粒度嵌入路由将语音与角色绑定，实现精准的音画同步，并支持动态背景生成。该框架还引入了首个针对多角色对话视频生成的数据集MTCC和基准测试，实验表明其在身份保真和音画同步上优于现有方法。

来自主题: AI技术研报

7985 点击 2025-07-18 11:44

AI编程，LLM会写代码，但“不懂”代码，来自两篇顶级研究的“人机协作避坑指南”

从Cursor到Claude Code和最近很火的Kiro，AI编程能在几秒钟内生成完整的函数，但它真的理解代码在做什么吗？最近两项突破性研究发现了一个让人意外的结果：现在的AI虽然"会写"，但还远没有"真懂"。

来自主题: AI技术研报

9263 点击 2025-07-18 11:24

ICCV 2025｜训练太复杂？对图片语义、布局要求太高？图像morphing终于一步到位

本文第一作者操雨康，南洋理工大学MMLab博士后，研究方向是3D/4D重建与生成，人体动作/视频生成，以及图像生成与编辑。

来自主题: AI技术研报

8975 点击 2025-07-18 11:12

速递｜企业的实时决策AI：Rwazi完成1200万美元A轮融资，助力消费洞察与商业智能

如今，他创立的公司Rwazi 已获得由 Bonfire Ventures 领投的 1200 万美元 A 轮融资，旨在帮助企业获取市场情报和消费者洞察。

来自主题: AI技术研报

9524 点击 2025-07-18 11:02

ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

怎么快速判断一个生成模型好不好？最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣，能告诉你模型到底强在哪、弱在哪，适不适合你的需求。

来自主题: AI技术研报

7596 点击 2025-07-18 11:02

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

Transformer杀手来了？KAIST、谷歌DeepMind等机构刚刚发布的MoR架构，推理速度翻倍、内存减半，直接重塑了LLM的性能边界，全面碾压了传统的Transformer。网友们直呼炸裂：又一个改变游戏规则的炸弹来了。

来自主题: AI技术研报

9445 点击 2025-07-17 17:00

教程 | 如何做出 X 上爆火的 AI 蓝图动画

Hi 这里是海辛和阿文~ 前段时间在 X 上看到博主 @sergeantsref 分享了一个 Midjourney 风格代码 --sref 2007748773 ，瞬间被圈粉。

来自主题: AI技术研报

10209 点击 2025-07-17 16:52

是否愿意和AI进行一场80年的记忆长跑？Mebot的尝试与创新

从神经科学的角度看，记忆的形成、存储和提取涉及大脑多个区域的协同工作。

来自主题: AI技术研报

3874 点击 2025-07-17 16:42

全球首个亚洲人脸超大规模数据集发布：让AI终于“认识”亚洲面孔

近日，ICCV 2025（国际计算机视觉大会）公布论文录用结果，理想汽车共有 8 篇论文入选，其中 3 篇来自基座模型团队。

来自主题: AI技术研报

9107 点击 2025-07-17 12:12

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能，引起广泛的热度。然而在面对一些无法回答或本身无解的问题时，这些模型竟试图去虚构不存在的信息去推理解答，生成了大量的事实错误、无意义思考过程和虚构答案，也被称为模型「幻觉」问题，如下图（a）所示，造成严重资源浪费且会误导用户，严重损害了模型的可靠性（Reliability）。

来自主题: AI技术研报

8945 点击 2025-07-17 11:24

舍弃自回归，离散扩散语言模型如何演化？NUS综述解构技术图谱与应用前沿

本文主要介绍 xML 团队的论文：Discrete Diffusion in Large Language and Multimodal Models: A Survey。

来自主题: AI技术研报

10901 点击 2025-07-17 10:42

看遍奥斯卡后，VLM达到电影摄影理解新SOTA｜上海AI Lab开源

当前最强大的视觉语言模型（VLMs）虽然能“看图识物”，但在理解电影方面还不够“聪明”。

来自主题: AI技术研报

9922 点击 2025-07-17 10:19

7个月翻一番！AI agent能力飙升，METR报告揭示指数级进化规律

Agent能力每7个月翻一番！

来自主题: AI技术研报

8573 点击 2025-07-17 10:14

完全透明开源的共情语音大模型，三阶段训练，四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力，但它们的技术体系完全闭源。

来自主题: AI技术研报

9380 点击 2025-07-16 16:30

重塑记忆架构：LLM正在安装「操作系统」

超长上下文窗口的大模型也会经常「失忆」，「记忆」也是需要管理的。

来自主题: AI技术研报

9192 点击 2025-07-16 16:26

AI圈水太深：OpenAI保密、Meta作弊！国产MoE却异军突起

从GPT-2到Llama 4，大模型这几年到底「胖」了多少？从百亿级密集参数到稀疏MoE架构，从闭源霸权到开源反击，Meta、OpenAI、Mistral、DeepSeek……群雄割据，谁能称王？

来自主题: AI技术研报

8875 点击 2025-07-16 16:18

BCG最新报告：印度AI普及率92%登顶全球！中美意外落后？

你好，我是杰哥。近日，波士顿咨询公司（BCG）发布了《ai-at-work-2025-slideshow-june-2025-edit-02》，简称《AI at Work 2025》第三版报告，基于对全球 10,635 名员工的调研，深入分析了 AI 在职场中的应用现状。这份报告揭示了 AI 应用的五大关键趋势，为企业和员工提供了重要洞察。

来自主题: AI技术研报

8685 点击 2025-07-16 16:13

OpenAI谷歌Anthropic罕见联手发研究！Ilya/Hinton/Bengio带头支持，共推CoT监测方案

难得难得，几大AI巨头不竞争了不抢人了，改联合一起发研究了。

来自主题: AI技术研报

8133 点击 2025-07-16 15:48

DeepMind让AI当「上帝」，导演一场只有AI演员的「西部世界」

剧本杀大家都玩过吗？这是一种经典的桌上角色扮演游戏（TTRPG），游戏中的核心人物是游戏主持人（GM），相当于整个世界的「导演 + 编剧 + 旁白」，负责掌控游戏环境，讲述故事背景，并扮演所有非玩家角色（NPC）。

来自主题: AI技术研报

8974 点击 2025-07-16 15:42