AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
华人博士用AI破解十年材料发现困局,让ZIF晶体发现效率翻倍

华人博士用AI破解十年材料发现困局,让ZIF晶体发现效率翻倍

华人博士用AI破解十年材料发现困局,让ZIF晶体发现效率翻倍

近日,师从新晋诺贝尔化学奖得主奥马尔·亚吉(Omar M. Yaghi)、目前在美国加州大学伯克利分校读博的荣自超,带领一个跨国际的研究团队,打造出名为AIRES (algorithmic iterative reticular synthesis)的机器学习指导的高通量实验平台,

来自主题: AI技术研报
7483 点击    2025-12-11 10:09
沃顿商学院已发布4篇「Prompt」报告|重磅

沃顿商学院已发布4篇「Prompt」报告|重磅

沃顿商学院已发布4篇「Prompt」报告|重磅

宾夕法尼亚大学沃顿商学院(The Wharton School)今年发布了一系列名为《Prompting Science Reports》的重磅研究报告。他们选取了2024-2025最常用的模型(如GPT-4o, Claude 3.5 Sonnet, Gemini Pro/Flash等),在极高难度的博士级基准测试(GPQA Diamond)上进行了数万次的严谨测试。

来自主题: AI技术研报
7886 点击    2025-12-10 16:11
00后大模型实习生「扒光」豆包手机!千字实测揭秘

00后大模型实习生「扒光」豆包手机!千字实测揭秘

00后大模型实习生「扒光」豆包手机!千字实测揭秘

一部AI手机,火爆全网。张嘴一句话,它在短短几秒内,就完成了跨APP自动比价下单、回微信、预约机票、规划旅行路线......正巧,我们在小红书上吃瓜的时候,意外发现了一篇十分有趣的帖子——《我没有逆向「豆包手机」,但我想说点什么》。

来自主题: AI技术研报
7452 点击    2025-12-10 14:38
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026

深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航(VLN)新框架——UNeMo。让机器人听懂指令,精准导航再升级!

来自主题: AI技术研报
6171 点击    2025-12-10 14:34
Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型

近日,来自引望智能与复旦大学的研究团队联合提出了一个面向自动驾驶的新一代大模型 ——Percept-WAM(Perception-Enhanced World–Awareness–Action Model)。该模型旨在在一个统一的大模型中,将「看见世界(Perception)」「理解世界(World–Awareness)」和「驱动车辆行动(Action)」真正打通,形成一条从感知到决策的完整链路。

来自主题: AI技术研报
6067 点击    2025-12-10 14:33
2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行

2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行

2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行

近日,北京大学团队提出一个直接基于已有预训练模型进行极低比特量化的通用框架——Fairy2i。该框架通过广泛线性表示将实数模型无损转换为复数形式,再结合相位感知量化与递归残差量化,实现了在仅2比特的情况下,性能接近全精度模型的突破性进展。

来自主题: AI技术研报
6985 点击    2025-12-10 14:28
Light-X来了!全球首个「镜头×光照」双控4D视频生成框架,单目视频秒变电影级

Light-X来了!全球首个「镜头×光照」双控4D视频生成框架,单目视频秒变电影级

Light-X来了!全球首个「镜头×光照」双控4D视频生成框架,单目视频秒变电影级

仅凭一段随手拍摄的单目视频,是否能够让镜头在空间中自由飞行,让光线随意变换,让原本固定的真实场景在全新的视角与照明条件下被再次「拍摄」?这一过去被视作科幻设想的问题,如今迎来了明确答案。

来自主题: AI技术研报
9022 点击    2025-12-10 10:21
让AI像巴甫洛夫的狗一样学习?北航团队提出智能基础模型,跨越生物与AI鸿沟

让AI像巴甫洛夫的狗一样学习?北航团队提出智能基础模型,跨越生物与AI鸿沟

让AI像巴甫洛夫的狗一样学习?北航团队提出智能基础模型,跨越生物与AI鸿沟

假如你正在教一只小狗学习新技能。当你摇响铃铛然后给它食物,重复几次之后,只要一摇铃铛,即使没有食物,小狗也会留着口水跑过来。这就是著名的巴甫洛夫实验,它展现了生物是如何学习的。

来自主题: AI技术研报
5604 点击    2025-12-10 09:59
OpenAI最新报告曝光!前5%精英效率暴涨16倍,普通人却被悄悄淘汰

OpenAI最新报告曝光!前5%精英效率暴涨16倍,普通人却被悄悄淘汰

OpenAI最新报告曝光!前5%精英效率暴涨16倍,普通人却被悄悄淘汰

当你还在纠结要不要用一下AI时,OpenAI已经拎着8亿人的加班数据,在被谷歌和Anthropic逼到墙角的企业战场上拼命自救——到底是谁在每天白赚1小时,谁又在被时代悄悄淘汰?

来自主题: AI技术研报
8895 点击    2025-12-09 23:47
Snapchat提出Canvas-to-Image:一张画布集成 ID、姿态与布局

Snapchat提出Canvas-to-Image:一张画布集成 ID、姿态与布局

Snapchat提出Canvas-to-Image:一张画布集成 ID、姿态与布局

Canvas-to-Image 是一个面向组合式图像创作的全新框架。它取消了传统「分散控制」的流程,将身份参考图、空间布局、姿态线稿等不同类型的控制信息全部整合在同一个画布中。用户在画布上放置或绘制的内容,会被模型直接解释为生成指令,简化了图像生成过程中的控制流程。

来自主题: AI技术研报
9967 点击    2025-12-09 14:40
全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

随着多模态大模型(MLLMs)在各类视觉语言任务中展现出强大的理解与交互能力,如何高效地处理原生高分辨率图像以捕捉精细的视觉信息,已成为提升模型性能的关键方向。

来自主题: AI技术研报
9317 点击    2025-12-09 14:38
清华双成果颠覆蛋白质设计:AI 压缩序列空间,全自动进化工厂实现设计验证闭环

清华双成果颠覆蛋白质设计:AI 压缩序列空间,全自动进化工厂实现设计验证闭环

清华双成果颠覆蛋白质设计:AI 压缩序列空间,全自动进化工厂实现设计验证闭环

从去年到今年,清华大学教授张数一和团队连着两个冬天做出两个“AI+蛋白质”成果,它们分别是极速压缩与智能重建蛋白质序列空间的 EvoAI,以及能够 24 小时昼夜不停、全自动进化蛋白质的 iAutoEvoLab 工厂。相关论文分别发表于 Nature Methods 和 Nature Chemical Engineering。

来自主题: AI技术研报
6382 点击    2025-12-09 10:37
准确率腰斩!大模型视觉能力一出日常生活就「失灵」

准确率腰斩!大模型视觉能力一出日常生活就「失灵」

准确率腰斩!大模型视觉能力一出日常生活就「失灵」

我们习惯了AI在屏幕上侃侃而谈、生成美图,好像它无所不知。但假如把它“扔”进一个真实的手术室,让它用主刀医生的第一视角来判断下一步该用哪把钳子,这位“学霸”很可能当场懵圈。

来自主题: AI技术研报
8767 点击    2025-12-09 10:37
如何优化英伟达CAGRA,实现GPU建图+CPU查询,成本效率兼顾

如何优化英伟达CAGRA,实现GPU建图+CPU查询,成本效率兼顾

如何优化英伟达CAGRA,实现GPU建图+CPU查询,成本效率兼顾

本文为Milvus Week系列第5篇,该系列旨在把Zilliz团队过去半年多积累的先进的技术实践和创新整理成多篇干货深度文章发布。

来自主题: AI技术研报
7838 点击    2025-12-09 10:36
100 万亿 Token 揭秘全球用户怎么用 AI:一半算力用在「不可描述」的地方

100 万亿 Token 揭秘全球用户怎么用 AI:一半算力用在「不可描述」的地方

100 万亿 Token 揭秘全球用户怎么用 AI:一半算力用在「不可描述」的地方

AI 领域迄今最大规模的用户行为实录,刚刚发布了。这是全球模型聚合平台 OpenRouter 联合硅谷顶级风投 a16z 发布的一份报告,基于全球 100 万亿次真实 API 调用、覆盖 300+款 AI 模型、60+家供应商、超过 50% 非美国用户 。

来自主题: AI技术研报
8446 点击    2025-12-08 22:18
从分钟级等待到20倍超速:LightX2V重写AI视频生成速度上限

从分钟级等待到20倍超速:LightX2V重写AI视频生成速度上限

从分钟级等待到20倍超速:LightX2V重写AI视频生成速度上限

今年以来,开源项目LightX2V 及其 4 步视频生成蒸馏模型在 ComfyUI 社区迅速走红,单月下载量超过 170 万次。越来越多创作者用它在消费级显卡上完成高质量视频生成,把“等几分钟出一段视频”变成“边看边出片”。

来自主题: AI技术研报
8832 点击    2025-12-08 14:46
谷歌秀肌肉了:披露Gemini 3.0为啥过目不忘越用越好用,Titans的惊喜度+Miras框架

谷歌秀肌肉了:披露Gemini 3.0为啥过目不忘越用越好用,Titans的惊喜度+Miras框架

谷歌秀肌肉了:披露Gemini 3.0为啥过目不忘越用越好用,Titans的惊喜度+Miras框架

最近,Google Research 发布了一篇 Blog《Titans + MIRAS:帮助人工智能拥有长期记忆》。它们允许 AI 模型在运行过程中更新其核心内存,从而更快地工作并处理海量上下文。

来自主题: AI技术研报
9334 点击    2025-12-08 14:41
DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

近日,由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models(检测情感动态轨迹:大语言模型情感支持的评估框架)》论文,获 AAAI 2026 录用。

来自主题: AI技术研报
8244 点击    2025-12-08 14:13
DeepSeek V3到V3.2的进化之路,一文看全

DeepSeek V3到V3.2的进化之路,一文看全

DeepSeek V3到V3.2的进化之路,一文看全

12 月 1 日,DeepSeek 一口气发布了两款新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。几天过去,热度依旧不减,解读其技术报告的博客也正在不断涌现。知名 AI 研究者和博主 Sebastian Raschka 发布这篇深度博客尤其值得一读,其详细梳理了 DeepSeek V3 到 V3.2 的进化历程。

来自主题: AI技术研报
7735 点击    2025-12-08 12:48
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

如今,强化学习(RL)已成为提升大语言模型(LLM)复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈的上下文属性,LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。

来自主题: AI技术研报
5333 点击    2025-12-08 10:27
Gemini手搓3D粒子特效,体验现实版钢铁侠

Gemini手搓3D粒子特效,体验现实版钢铁侠

Gemini手搓3D粒子特效,体验现实版钢铁侠

无需懂一行代码,Gemini 3正在重塑3D交互创作的边界!详细对比了Canvas与AI Studio在开发场景下的独特优势,带你亲身体验这场「零门槛」的3D交互革命。

来自主题: AI技术研报
7858 点击    2025-12-08 09:53
谷歌祭出Transformer杀手,8年首次大突破!掌门人划出AGI死线

谷歌祭出Transformer杀手,8年首次大突破!掌门人划出AGI死线

谷歌祭出Transformer杀手,8年首次大突破!掌门人划出AGI死线

谷歌DeepMind掌门人断言,2030年AGI必至!不过,在此之前,还差1-2个「Transformer级」核爆突破。恰在NeurIPS大会上,谷歌甩出下一代Transformer最强继任者——Titans架构。

来自主题: AI技术研报
10116 点击    2025-12-08 08:59
Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布

Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布

Agent2025年终报告来了,UC伯克利、斯坦福和IBM联合发布

2025就要过去了。UC Berkeley、Stanford和IBM联手做了一件大事。他们调研了306份在一线“造 Agent”的从业者问卷,并深度访谈了20个已经成功落地并产生价值的一线企业案例(涵盖金融、科技、医疗等领域)。试图回答一个最朴素的工程问题:一个能用的、赚钱的Agent,到底是用什么架构搭出来的?

来自主题: AI技术研报
6070 点击    2025-12-08 08:52