AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频

ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频

ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频

在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例,仅需数分钟即可产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。

来自主题: AI技术研报
4650 点击    2025-05-13 08:54
谷歌发76页智能体白皮书!你的「AI替身」已上线

谷歌发76页智能体白皮书!你的「AI替身」已上线

谷歌发76页智能体白皮书!你的「AI替身」已上线

谷歌最新发布的76页AI智能体白皮书,深入剖析了智能体的应用前景。智能体通过感知环境、调用工具和自主规划,能够完成复杂任务并做出高级决策。从智能体运维(AgentOps)到多智能体协作,这份白皮书为AI智能体指明了方向。

来自主题: AI技术研报
7241 点击    2025-05-12 15:49
CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

近年来,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。

来自主题: AI技术研报
9073 点击    2025-05-12 14:59
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。

来自主题: AI技术研报
7076 点击    2025-05-12 14:51
8秒极速生成!复杂场景图像定制低成本轻松驾驭,已开源丨字节北大联合发布

8秒极速生成!复杂场景图像定制低成本轻松驾驭,已开源丨字节北大联合发布

8秒极速生成!复杂场景图像定制低成本轻松驾驭,已开源丨字节北大联合发布

可控图片生成,如今已经不是什么新鲜事。甚至也不需要复杂的提示词,用户通过简单的文本描述,就能快速生成符合个人需求的创意图像。

来自主题: AI技术研报
7747 点击    2025-05-12 14:07
全网惊了!陶哲轩带AI下场,33分钟「盲证」数学

全网惊了!陶哲轩带AI下场,33分钟「盲证」数学

全网惊了!陶哲轩带AI下场,33分钟「盲证」数学

菲尔兹奖得主陶哲轩再放大招,仅数天时间,开源的概念验证工具借助Copilot迭代至2.0版本。而在最新视频中,他甚至用AI在33分钟「盲做」形式化一页证明,效率惊人。

来自主题: AI技术研报
9008 点击    2025-05-12 12:24
转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性

转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性

转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性

近年来,基于视频生成模型的可交互世界生成引发了广泛关注。尽管现有方法在生成质量和交互能力上取得了显著进展,但由于上下文时间窗口受限,生成的世界在长时序下严重缺乏一致性。

来自主题: AI技术研报
7795 点击    2025-05-12 11:05
SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!

SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!

SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!

Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而,我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如,在拍摄赛车追逐的场景时,镜头通常跟随赛车运动,并通过扣人心弦的超车时刻来展示赛事的白热化。

来自主题: AI技术研报
8890 点击    2025-05-12 10:31
斯坦福的以弱驭强W4S,用Meta-Agent驾驭更强的LLM,准确率提升至95.4% | 最新

斯坦福的以弱驭强W4S,用Meta-Agent驾驭更强的LLM,准确率提升至95.4% | 最新

斯坦福的以弱驭强W4S,用Meta-Agent驾驭更强的LLM,准确率提升至95.4% | 最新

本文详细介绍了斯坦福大学最新提出的"以弱驭强"(W4S)范式,这一创新方法通过训练轻量级的弱模型来优化强大语言模型的工作流。核心亮点包括:

来自主题: AI技术研报
7775 点击    2025-05-12 10:10
只有通过海量测试才能抓住泛化性的本质吗?

只有通过海量测试才能抓住泛化性的本质吗?

只有通过海量测试才能抓住泛化性的本质吗?

当以端到端黑盒训练为代表的深度学习深陷低效 Scaling Law 而无法自拔时,我们是否可以回到起点重看模型表征本身——究竟什么才是一个人工智能模型的「表征质量」或者「泛化性」?我们真的只有通过海量的测试数据才能抓住泛化性的本质吗?或者说,能否在数学上找到一个定理,直接从表征逻辑复杂度本身就给出一个对模型泛化性的先验的判断呢?

来自主题: AI技术研报
7667 点击    2025-05-11 14:35
AI提示词终极指南:掌握这些技巧,让输出效果翻倍

AI提示词终极指南:掌握这些技巧,让输出效果翻倍

AI提示词终极指南:掌握这些技巧,让输出效果翻倍

AI输出陷入"无效对话"困境?其实是你不懂提问的艺术。从指令颗粒度拆解到思维链编织,本文揭示精准提问如何唤醒AI潜能——与其焦虑技术颠覆,不如掌握这套数字化时代的元能力,让语言真正成为撬动生产力的支点。文章来自编译。

来自主题: AI技术研报
7074 点击    2025-05-11 14:17
机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

机器人的「物理图灵测试」,英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

Jim Fan,英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生,最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲

来自主题: AI技术研报
6776 点击    2025-05-10 15:59
万径归于「概率」,华人学者颠覆认知!英伟达大牛力荐RL微调新作

万径归于「概率」,华人学者颠覆认知!英伟达大牛力荐RL微调新作

万径归于「概率」,华人学者颠覆认知!英伟达大牛力荐RL微调新作

华人学者参与的一项研究,重新确立了强化学习在LLM微调的价值,深度解释了AI训练「两阶段强化学习」的原因。某种意义上,他们的论文说明RL微调就是统计。

来自主题: AI技术研报
7916 点击    2025-05-10 15:10
喝下这一碗模型汤,掌握向量模型的训练秘方

喝下这一碗模型汤,掌握向量模型的训练秘方

喝下这一碗模型汤,掌握向量模型的训练秘方

那些曾在KDD时代Kaggle上打榜刷分的老炮儿,每每提起 Bagging 与 Boosting 这两项技术嘴角都压不住笑。

来自主题: AI技术研报
6736 点击    2025-05-10 14:49
OpenAI和Google正在玩一个99%的人都不知道的游戏

OpenAI和Google正在玩一个99%的人都不知道的游戏

OpenAI和Google正在玩一个99%的人都不知道的游戏

AI研究中,基准测试(benchmark)和排行榜在评估模型性能上扮演着关键角色。

来自主题: AI技术研报
7470 点击    2025-05-10 14:29
完全开源!全新多合一AI智能体框架来了:无缝支持多种工具、多种任务

完全开源!全新多合一AI智能体框架来了:无缝支持多种工具、多种任务

完全开源!全新多合一AI智能体框架来了:无缝支持多种工具、多种任务

当AI与工具相结合,智能体不再只是概念!Minion-agent整合多框架能力,解决碎片化问题,支持多智能体协作与工具调用,降低开发门槛,已在多个场景中展现高效能力,有望推动AI智能体创新和普及!

来自主题: AI技术研报
6252 点击    2025-05-10 13:52
Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力,然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务,是一个巨大的挑战。

来自主题: AI技术研报
7998 点击    2025-05-10 13:35
3万字读懂:一季度全球AI应用,谁暴涨?谁掉队?

3万字读懂:一季度全球AI应用,谁暴涨?谁掉队?

3万字读懂:一季度全球AI应用,谁暴涨?谁掉队?

2025年一季度全球AI应用市场呈现爆发式增长,海外MAU达9.8亿(环比增15%),中国MAU达4.62亿(环比增101%)。DeepSeek以低成本开源策略颠覆行业,推动中国AI普及。Agent形态应用主导全球,AI聊天机器人、视频创作等赛道高速增长,虚拟角色和教育学习粘性突出。字节、腾讯等头部公司多端布局,中国AI应用出海聚焦视频、图像等赛道,OpenAI商业化表现强劲。

来自主题: AI技术研报
6678 点击    2025-05-10 10:33
世界首个AI多人游戏全面开源!1500刀实时生成,一台PC跑出平行宇宙

世界首个AI多人游戏全面开源!1500刀实时生成,一台PC跑出平行宇宙

世界首个AI多人游戏全面开源!1500刀实时生成,一台PC跑出平行宇宙

刚刚,全球首个AI多人世界模型开源了!只需一台PC外加1500美元,就能让两个AI智能体在同一个世界中感知、互动、协作。这不仅是AI造梦的一小步,更是AGI创造世界模型的一大步。

来自主题: AI技术研报
6932 点击    2025-05-09 21:08
KuaiMod来了!快手用大模型重构短视频生态格局

KuaiMod来了!快手用大模型重构短视频生态格局

KuaiMod来了!快手用大模型重构短视频生态格局

在短视频成为亿万用户日常生活标配的当下,它不仅是一种娱乐方式,更是人们获取信息、表达观点、构建社交的主要媒介。

来自主题: AI技术研报
7111 点击    2025-05-09 17:19
全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

近日,来自SGLang、英伟达等机构的联合团队发了一篇万字技术报告:短短4个月,他们就让DeepSeek-R1在H100上的性能提升了26倍,吞吐量已非常接近DeepSeek官博数据!

来自主题: AI技术研报
9034 点击    2025-05-09 12:55