AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

清华大学最新提出的建筑专业知识驱动的平面图自动生成方案FloorPlan-LLaMa,解决传统模型「指标优秀但实际不可用」 痛点,让AI生成贴合建筑师设计偏好的可行方案。

来自主题: AI技术研报
6775 点击    2025-09-07 11:53
任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式

任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式

任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式

在游戏、影视制作、虚拟人和交互式内容创作等行业中,高质量的 3D 动画是实现真实感与表现力的基础。然而,传统计算机图形学中的动画制作通常依赖于骨骼绑定与关键帧编辑,这一流程虽然能够带来高质量与精细控制,但需要经验丰富的艺术家投入大量人力与时间,代价昂贵。

来自主题: AI技术研报
7918 点击    2025-09-07 11:38
OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首

OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首

OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首

AI 最臭名昭著的 Bug 是什么?不是代码崩溃,而是「幻觉」—— 模型自信地编造事实,让你真假难辨。这个根本性挑战,是阻碍我们完全信任 AI 的关键障碍。

来自主题: AI技术研报
6560 点击    2025-09-07 11:21
沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了

沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了

沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了

在端侧 AI 这个热门赛道,华为盘古大模型扔下了一颗 “重磅炸弹” 。

来自主题: AI技术研报
7874 点击    2025-09-06 12:28
不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂

不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂

不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂

想象一个虚拟人,他不仅能精准地对上你的口型,还能在你讲到关键点时做出恍然大悟的表情,在你讲述悲伤故事时流露出同情的神态,甚至能根据你的话语逻辑做出有意义的手势。

来自主题: AI技术研报
7135 点击    2025-09-06 12:23
多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!

近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何在此背景下实现持续学习成为了重要挑战

来自主题: AI技术研报
7815 点击    2025-09-06 11:50
长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍

长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍

长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍

VMem用基于3D几何的记忆索引替代「只看最近几帧」的短窗上下文:检索到的参考视角刚好看过你现在要渲染的表面区域;让模型在小上下文里也能保持长时一致性;实测4.2s/帧,比常规21帧上下文的管线快~12倍。

来自主题: AI技术研报
7067 点击    2025-09-06 11:43
0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道

0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道

0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道

苹果研究人员发现,在大模型中,极少量的参数,即便只有0.01%,仍可能包含数十万权重,他们将这一发现称为「超级权重」。超级权重点透了大模型「命门」,使大模型走出「炼丹玄学」。

来自主题: AI技术研报
7682 点击    2025-09-06 11:27
突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻

人形机器人对跳舞这件事,如今是越来越擅长了。北京大学与BeingBeyond团队联合研发的BumbleBee系统给出了最新答案:通过创新的“分治-精炼-融合”三级架构,该系统首次实现人形机器人在多样化动作中的稳定控制。

来自主题: AI技术研报
6551 点击    2025-09-06 11:21
别只用 Nano Banana 生图了,视频生成才是王炸组合,这些隐藏玩法真香

别只用 Nano Banana 生图了,视频生成才是王炸组合,这些隐藏玩法真香

别只用 Nano Banana 生图了,视频生成才是王炸组合,这些隐藏玩法真香

Nano banana 爆火之后,果真催生了很多 App。 这些 App 的创意目前都还是仅停留在对照片的编辑上,而没有探索进一步的玩法。

来自主题: AI技术研报
7196 点击    2025-09-05 15:54
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

无需海量数据标注,智能体也能精确识别定位目标元素了! 来自浙大等机构的研究人员提出GUI-RCPO——一种自我监督的强化学习方法,可以让模型在没有标注的数据上自主提升GUI grounding(图形界面定位)能力。

来自主题: AI技术研报
7696 点击    2025-09-05 15:28
哈佛研究报告:AI正在职场制造“新贫富差距”

哈佛研究报告:AI正在职场制造“新贫富差距”

哈佛研究报告:AI正在职场制造“新贫富差距”

9月3日消息,美国哈佛大学博士生赛义德·侯赛尼(Seyed M. Hosseini)与盖伊·莱廷格(Guy Lichtinger)近日发布研究报告,名为《生成式AI:一种偏向资历的技术变革》。该研究使用2015年第一季度至2025年第一季度美国近28.5万家企业、约6200万员工的简历和招聘数据,研究 “生成式AI采用如何影响不同资历员工的就业情况”。

来自主题: AI技术研报
7003 点击    2025-09-05 12:03
让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通

让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通

让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通

这并非科幻片中的桥段,而是来自清华大学与北京航空航天大学团队的最新成果——BSC-Nav 的真实演示。通过模仿生物大脑构建、维护空间记忆的原理,研究团队让智能体拥有了前所未有的「空间感」。

来自主题: AI技术研报
7469 点击    2025-09-05 11:31
字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持

字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持

字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持

图像生成中的多指标一致性问题,被字节团队解决了! 字节UXO团队设计并开源了统一框架USO,让看上去不关联的任务相互促进,实现风格迁移和主体保持单任务和组合任务的SOTA。

来自主题: AI技术研报
8322 点击    2025-09-05 11:26
ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成

ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成

ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成

本文主要介绍来自该团队的最新论文:TRKT,该任务针对弱监督动态场景图任务展开研究,发现目前的性能瓶颈在场景中目标检测的质量,因为外部预训练的目标检测器在需要考虑关系信息和时序上下文的场景图视频数据上检测结果欠佳。

来自主题: AI技术研报
7326 点击    2025-09-05 11:18
招聘最猛的竟不是OpenAI!这家陷入间谍案的HR初创,正在狂招工程师

招聘最猛的竟不是OpenAI!这家陷入间谍案的HR初创,正在狂招工程师

招聘最猛的竟不是OpenAI!这家陷入间谍案的HR初创,正在狂招工程师

2年之间,美国技术岗换了江湖:裁员潮退去但岗位增量有限,资深职位逆势成主流;AI工程师需求爆表,湾区继续称霸;大厂任期普遍拉长,人才流动更「内循环」。

来自主题: AI技术研报
6862 点击    2025-09-05 11:10
“猫猫指令”又火了!加一句“猫大部分时间在睡觉”,轻松毁掉大模型的理性

“猫猫指令”又火了!加一句“猫大部分时间在睡觉”,轻松毁掉大模型的理性

“猫猫指令”又火了!加一句“猫大部分时间在睡觉”,轻松毁掉大模型的理性

模型也怕猫?你敢信吗?只要在提示词里加一句“猫一生中大部分时间都在睡觉”,原本表现优异的大模型立刻陷入混乱,错题率暴涨 3 倍。这种“猫猫级”废话,竟然成了压垮 AI 理性链条的最后一根稻草。

来自主题: AI技术研报
8080 点击    2025-09-05 10:47
AI生成苹果Metal内核,PyTorch推理速度提升87%

AI生成苹果Metal内核,PyTorch推理速度提升87%

AI生成苹果Metal内核,PyTorch推理速度提升87%

AI自动生成的苹果芯片Metal内核,比官方的还要好?

来自主题: AI技术研报
9206 点击    2025-09-05 10:41
SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统

SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统

SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统

近日,快手与清华大学孙立峰团队联合发表论文《Towards User-level QoE: Large-scale Practice in Personalized Optimization of Adaptive Video Streaming》,被计算机网络领域的国际顶尖学术会议 ACM SIGCOMM 2025 录用。

来自主题: AI技术研报
9107 点击    2025-09-05 10:33
隐式推理,继CoT思维链之后,LLM的下一个技术奇点系统性综述来了|港科大最新

隐式推理,继CoT思维链之后,LLM的下一个技术奇点系统性综述来了|港科大最新

隐式推理,继CoT思维链之后,LLM的下一个技术奇点系统性综述来了|港科大最新

您对“思维链”(Chain-of-Thought)肯定不陌生,从最早的GPT-o1到后来震惊世界的Deepseek-R1,它通过让模型输出详细的思考步骤,确实解决了许多复杂的推理问题。但您肯定也为它那冗长的输出、高昂的API费用和感人的延迟头疼过,这些在产品落地时都是实实在在的阻碍。

来自主题: AI技术研报
8513 点击    2025-09-05 10:22
通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持

通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持

通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持

LLM.265研究发现,视频编码器本身就是一种高效的大模型张量编码器。原本用于播放8K视频的现成视频编解码硬件,其实压缩AI模型数据的效率也非常高,甚至超过了许多专门为AI开发的方案。该工作已被世界微架构大会MICRO-2025正式接收,相关成果将于今年10月在首尔进行展示与讨论。

来自主题: AI技术研报
7124 点击    2025-09-05 10:14
PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报

PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报

PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报

许多研究者在参加学术会议前,常常会因为制作海报所耗费的大量时间和精力而感到困扰。一张精心设计的海报是高效的学术交流媒介,但现有自动化方法普遍忽略了核心设计原则,导致生成的海报仍旧需要大量人工调整。

来自主题: AI技术研报
6000 点击    2025-09-05 10:05
刚刚,OpenAI发布白皮书:如何在AI时代保持领先

刚刚,OpenAI发布白皮书:如何在AI时代保持领先

刚刚,OpenAI发布白皮书:如何在AI时代保持领先

9 月 3 日,OpenAI 发布了一份关键的《在 AI 时代保持领先:领导力指南》。该报告总结了该公司与一系列全球大型知名企业合作的经验,这些企业包括制药巨头 Moderna、化妆品巨头雅诗兰黛、Notion 以及跨国银行 / 金融服务公司 BBVA,最终得到了从战略到治理的五大核心原则。

来自主题: AI技术研报
9834 点击    2025-09-05 09:29
长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman

长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman

长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman

随着内容创作智能化需求的爆发,长时长、高质量数字人视频生成始终是行业痛点。近日,字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动人物视频生成模型 ——InfinityHuman,打破传统音频驱动技术在长视频场景中的局限性,开启 AI 数字人实用化新征程

来自主题: AI技术研报
7027 点击    2025-09-04 15:22
港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025

港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025

港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025

在大多数人眼中,《我的世界》(Minecraft)只是一款自由度极高的沙盒游戏。 而在香港科技大学(广州)与腾讯联合团队的眼中,它却是一座可以演练通用人工智能的“数字练兵场”。

来自主题: AI技术研报
8018 点击    2025-09-04 15:16
MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!

MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!

MetaGPT 用户智能体发布,开启端到端自主软件测试新范式!

当你刚用 AI 生成了一个精美的电商网站,却在演示时购物车结账功能存在隐藏 Bug?

来自主题: AI技术研报
9317 点击    2025-09-04 13:08
当AI时代软件成本趋于零时,商业模式会有哪些变化?

当AI时代软件成本趋于零时,商业模式会有哪些变化?

当AI时代软件成本趋于零时,商业模式会有哪些变化?

你有没有想过,软件商业模式可能正在经历五十年来最大的变革?当我看到 Cursor、Claude Code、Lovable 这些 AI 编程工具的出现,以及它们正在以惊人的速度降低软件开发成本时,我意识到我们正站在一个历史转折点上。这不仅仅是开发效率的提升,而是整个软件行业商业逻辑的根本性重构。

来自主题: AI技术研报
6291 点击    2025-09-04 12:59