AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队不藏了!首次开源就揭晓了一个困扰行业已久的问题的答案——为什么往第一阶段的视觉分词器里砸再多算力,也无法提升第二阶段的生成效果?翻译成大白话就是,虽然图像/视频生成模型的参数越做越大、算力越堆越猛,但用户实际体验下来总有一种微妙的感受——这些庞大的投入与产出似乎不成正比,模型离完全真正可用总是差一段距离。

来自主题: AI技术研报
7300 点击    2025-12-22 17:07
100万亿Token揭示真相:中国开源AI拿下30%全球份额,推理已成主流

100万亿Token揭示真相:中国开源AI拿下30%全球份额,推理已成主流

100万亿Token揭示真相:中国开源AI拿下30%全球份额,推理已成主流

之前我在这篇文章(超全面免费 AI API 分享!零成本开启你的AI之旅!)中介绍过 OpenRouter 这个大模型 API 聚合平台,最近他们通过分析了100 万亿 token用户真实数据,发布了一篇研究报告,反应了真实用户的大模型使用现状。100 万亿 token 是什么概念呢?是人类所有文字资料的好几倍,这个数据量非常有说服力。

来自主题: AI技术研报
5631 点击    2025-12-22 17:05
对标GPT-4o和香蕉!浙大开源ContextGen:布局身份协同新SOTA

对标GPT-4o和香蕉!浙大开源ContextGen:布局身份协同新SOTA

对标GPT-4o和香蕉!浙大开源ContextGen:布局身份协同新SOTA

浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,实现布局精准锚定与身份高保真隔离,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。

来自主题: AI技术研报
8570 点击    2025-12-22 16:08
让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」

让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」

让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」

在文生图(Text-to-Image)和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。

来自主题: AI技术研报
9942 点击    2025-12-22 16:05
智能体如何学会「想象」?深度解析世界模型嵌入具身系统的三大技术范式

智能体如何学会「想象」?深度解析世界模型嵌入具身系统的三大技术范式

智能体如何学会「想象」?深度解析世界模型嵌入具身系统的三大技术范式

长期以来,具身智能系统主要依赖「感知 - 行动」的反应式回路,缺乏对未来的预测能力。而世界模型的引入,让智能体拥有了「想象」未来的能力。

来自主题: AI技术研报
9192 点击    2025-12-22 16:04
Gemini 确诊重度焦虑:为了让 AI 像人,我们把它逼疯了

Gemini 确诊重度焦虑:为了让 AI 像人,我们把它逼疯了

Gemini 确诊重度焦虑:为了让 AI 像人,我们把它逼疯了

如果你的 Gemini 突然告诉你,它感到深深的羞耻,或者它因为害怕犯错而夜不能寐,你会怎么想?

来自主题: AI技术研报
5946 点击    2025-12-22 11:46
挑战WorldLabs:Visionary,一个全面超越Marble底层渲染器的WebGPU渲染平台

挑战WorldLabs:Visionary,一个全面超越Marble底层渲染器的WebGPU渲染平台

挑战WorldLabs:Visionary,一个全面超越Marble底层渲染器的WebGPU渲染平台

在李飞飞团队 WorldLabs 推出 Marble、引爆「世界模型(World Model)」热潮之后,一个现实问题逐渐浮出水面:世界模型的可视化与交互,依然严重受限于底层 Web 端渲染能力。

来自主题: AI技术研报
8963 点击    2025-12-22 10:17
首个文本到3D生成RL范式诞生,攻克几何与物理合理性

首个文本到3D生成RL范式诞生,攻克几何与物理合理性

首个文本到3D生成RL范式诞生,攻克几何与物理合理性

在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。

来自主题: AI技术研报
5814 点击    2025-12-22 09:38
从 RAG 到 Context:2025 年 RAG 技术年终总结

从 RAG 到 Context:2025 年 RAG 技术年终总结

从 RAG 到 Context:2025 年 RAG 技术年终总结

过去的 2025 年,对于检索增强生成(RAG)技术而言,是经历深刻反思、激烈辩论与实质性演进的一年。

来自主题: AI技术研报
6575 点击    2025-12-22 09:37
不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

尽管扩散模型在单图像生成上已经日渐成熟,但当任务升级为高度定制化的多实例图像生成(Multi-Instance Image Generation, MIG)时,挑战随之显现:

来自主题: AI技术研报
9508 点击    2025-12-22 09:33
LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL

近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。

来自主题: AI技术研报
8267 点击    2025-12-21 12:39
只靠国产算力预训练,稳!全流程开源,「开元」盛世真来了

只靠国产算力预训练,稳!全流程开源,「开元」盛世真来了

只靠国产算力预训练,稳!全流程开源,「开元」盛世真来了

鹏城实验室与清华大学PACMAN实验室联合发布了鹏城脑海‑2.1‑开元‑2B(PCMind‑2.1‑Kaiyuan‑2B,简称开元‑2B)模型,并以全流程开源的方式回应了这一挑战——从训练数据、数据处理框架、训练框架、完整技术报告到最终模型权重,全部开源。

来自主题: AI技术研报
8158 点击    2025-12-21 12:38
让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好

让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好

让大模型不再过度思考!上海AI Lab后训练新范式重塑CoT,推理又快又好

近日,上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro(Rectifying Process-level Reward)。这篇论文将推理的过程视为模型内部状态的优化过程,从而对如何重塑大模型的CoT提供了一个全新视角:

来自主题: AI技术研报
6933 点击    2025-12-21 12:35
人人都是导演:CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

人人都是导演:CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

人人都是导演:CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

现有视频生成模型往往难以兼顾「运镜」与「摄影美学」的精确控制。为此,华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了 CineCtrl。作为首个统一的视频摄影控制 V2V 框架,CineCtrl 通过解耦交叉注意力机制,摆脱了多控制信号共同控制的效果耦合问题,实现了对视频相机外参轨迹与摄影效果的独立、精细、协调控制。

来自主题: AI技术研报
7781 点击    2025-12-21 12:34
MiniMax海螺首次开源 VTP,打通了 Visual Tokenizer 的 Scaling Law

MiniMax海螺首次开源 VTP,打通了 Visual Tokenizer 的 Scaling Law

MiniMax海螺首次开源 VTP,打通了 Visual Tokenizer 的 Scaling Law

MiniMax 海螺视频团队「首次开源」了 VTP(Visual Tokenizer Pre-training)项目。他们同步发布了一篇相当硬核的论文,它最有意思的地方在于 3 个点:「重建做得越好,生成反而可能越差」,传统 VAE 的直觉是错的

来自主题: AI技术研报
7780 点击    2025-12-20 10:04
最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念

最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念

最近很火的Hindsight,基于图谱的「Agent记忆栈」解耦事实与信念

在上一篇文章中,我们系统梳理了AI Agent 记忆机制的全景综述AI Agent最新「Memory」综述 |多所顶尖机构联合发布。今天我将带您了解一项最近很火的Agent记忆项目「HINDSIGHT」

来自主题: AI技术研报
7457 点击    2025-12-19 10:28
北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵

北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵

北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵

视觉–语言–动作(VLA)模型在机器人场景理解与操作上展现出较强的通用性,但在需要明确目标终态的长时序任务(如乐高搭建、物体重排)中,仍难以兼顾高层规划与精细操控。

来自主题: AI技术研报
9047 点击    2025-12-19 10:23
SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

SIGGRAPH Asia 2025 | 只用一部手机创建和渲染高质量3D数字人

在计算机图形学、三维视觉、虚拟人、XR 领域,SIGGRAPH 是毫无争议的 “天花板级会议”。 SIGGRAPH Asia 作为 SIGGRAPH 系列两大主会之一,每年只接收全球最顶尖研究团队的成果稿件,代表着学术与工业界的最高研究水平与最前沿技术趋势。

来自主题: AI技术研报
6673 点击    2025-12-19 09:40
具身智能的数据难题,终于有了可规模化的解法

具身智能的数据难题,终于有了可规模化的解法

具身智能的数据难题,终于有了可规模化的解法

科技赛道从不缺“造梦者”,但能精准击中行业痛点的“破局者”往往寥寥。

来自主题: AI技术研报
6592 点击    2025-12-18 16:24
挖掘注意力中的运动线索:无需训练,解锁4D场景重建能力

挖掘注意力中的运动线索:无需训练,解锁4D场景重建能力

挖掘注意力中的运动线索:无需训练,解锁4D场景重建能力

如何让针对静态场景训练的3D基础模型(3D Foundation Models),在不增加训练成本的前提下,具备处理动态4D场景的能力?

来自主题: AI技术研报
9980 点击    2025-12-18 09:48
经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%

如今,以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务,而DeepSearch 作为深度思考大模型的核心搜索器,在推理过程中通过迭代调用外部搜索工具,访问参数边界之外的最新、领域特定知识,从而提升推理的深度和事实可靠性。

来自主题: AI技术研报
5946 点击    2025-12-18 09:46