AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
锁定角色,「多主体」也可控!个性化文生图,给你PS般交互体验

锁定角色,「多主体」也可控!个性化文生图,给你PS般交互体验

锁定角色,「多主体」也可控!个性化文生图,给你PS般交互体验

LayerComposer革新了个性化图像生成,让用户像在Photoshop里一样自由操控元素位置、大小,解决传统方法交互性与多主体扩展难题,实现更自然、高效的创作,推动个性化生成迈向主动交互新阶段。

来自主题: AI技术研报
7996 点击    2025-11-02 10:07
少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了

少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了

少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了

直观经验却告诉我们,只要把同一物体的 “对应部分” 对齐,形状就会变得清晰。基于这一朴素而有效的直觉,作者提出SERES(Semantic-Aware Reconstruction from Sparse Views),在不改动主干框架的前提下,把跨视角的语义一致性变成一种训练期先验注入到模型里,用低成本的方法去解决高价值的歧义问题,让少量视角也能得到清晰而完整的几何。

来自主题: AI技术研报
6411 点击    2025-11-02 10:03
上海AI Lab发布混合扩散语言模型SDAR:首个突破6600 tgs的开源扩散语言模型

上海AI Lab发布混合扩散语言模型SDAR:首个突破6600 tgs的开源扩散语言模型

上海AI Lab发布混合扩散语言模型SDAR:首个突破6600 tgs的开源扩散语言模型

近日,上海人工智能实验室针对该难题提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。该方法通过「训练-推理解耦」的巧妙设计,无缝融合了 AR 模型的高性能与扩散模型的并行推理优势,能以极低成本将任意 AR 模型「改造」为并行解码模型。

来自主题: AI技术研报
7169 点击    2025-11-01 12:57
字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!

字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!

字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!

Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练,可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据,结合稀疏推理(Sparse-Thinking) 与衰减持续损失(decaying continual loss),大幅提升了智能体的可扩展性和泛化性。

来自主题: AI技术研报
7388 点击    2025-11-01 09:42
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和基础模型等,研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香港科技大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计

来自主题: AI技术研报
7942 点击    2025-11-01 09:24
内存直降50%,token需求少56%!用视觉方式处理长文本

内存直降50%,token需求少56%!用视觉方式处理长文本

内存直降50%,token需求少56%!用视觉方式处理长文本

在NeurIPS 2025论文中,来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST(Vision-centric Token Compression in LLM),为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是,这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。

来自主题: AI技术研报
8107 点击    2025-11-01 09:23
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍

Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍

Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍

月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型。在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。

来自主题: AI技术研报
9185 点击    2025-10-31 15:46
AI营销效率战下半场:“一人市场部”从“工具赋能”走向“生态整合”

AI营销效率战下半场:“一人市场部”从“工具赋能”走向“生态整合”

AI营销效率战下半场:“一人市场部”从“工具赋能”走向“生态整合”

Xsignal AI Holo(AI全息)数据库的1-9月数据显示,市场(MAU)已自发掀起了一场“效率革命”的上半场:营销人员用脚投票,从Mailchimp等“旧势力”涌向GetResponse和“万相营造”等“效率新势力”。这证明了市场对“单点工具”效率提升的极度渴求。

来自主题: AI技术研报
8777 点击    2025-10-31 15:32
海外AI应用行业全景丨万字长文丨2025年9月丨赛道格局 + 赛道之王 + TOP 50 AI应用 + 增长之星丨Xsignal

海外AI应用行业全景丨万字长文丨2025年9月丨赛道格局 + 赛道之王 + TOP 50 AI应用 + 增长之星丨Xsignal

海外AI应用行业全景丨万字长文丨2025年9月丨赛道格局 + 赛道之王 + TOP 50 AI应用 + 增长之星丨Xsignal

本次,X博士继续应用Xsignal数据交互平台的AI Holo(AI 全息)数据库数据,为你提供海外AI应用市场2025年9月的最新发展动态,发布2025年9月海外“赛道格局”、“赛道之王”、“TOP 50 AI应用”和“增长之星”四大数据榜单及深度洞察。

来自主题: AI技术研报
11356 点击    2025-10-31 15:16
重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。早期的 V2A 方法采用自回归(Auto-Regressive)的方式将视频特征作为前缀来逐个生成音频 token,或者以掩码预测(Mask-Prediction)的方式并行地预测音频 token,逐步生成完整音频。

来自主题: AI技术研报
7128 点击    2025-10-31 15:00
最火VLA,看这一篇综述就够了

最火VLA,看这一篇综述就够了

最火VLA,看这一篇综述就够了

ICLR 2026爆火领域VLA(Vision-Language-Action,视觉-语言-动作)全面综述来了! 如果你还不了解VLA是什么,以及这个让机器人学者集体兴奋的领域进展如何,看这一篇就够了。

来自主题: AI技术研报
7254 点击    2025-10-31 14:59
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解

现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空间重建与实例级上下文理解融为一体。

来自主题: AI技术研报
5271 点击    2025-10-31 14:49
AI「上班流」首次完整曝光!不点鼠标,只写代码,PPT也当函数调

AI「上班流」首次完整曝光!不点鼠标,只写代码,PPT也当函数调

AI「上班流」首次完整曝光!不点鼠标,只写代码,PPT也当函数调

AI已经不止会写代码、画图、做PPT,它也开始「上班」了!CMU与斯坦福的研究团队首次完整追踪了AI的工作过程,发现一个惊人事实:它并不是在模仿人类,而是在用编程的方式重写工作的定义。这场关于「谁在工作」的实验,正在重构未来职场的逻辑。

来自主题: AI技术研报
6926 点击    2025-10-31 14:47
刚刚,Kimi开源新架构,开始押注线性注意力

刚刚,Kimi开源新架构,开始押注线性注意力

刚刚,Kimi开源新架构,开始押注线性注意力

月之暗面在这一方向有所突破。在一篇新的技术报告中,他们提出了一种新的混合线性注意力架构 ——Kimi Linear。该架构在各种场景中都优于传统的全注意力方法,包括短文本、长文本以及强化学习的 scaling 机制。

来自主题: AI技术研报
6402 点击    2025-10-31 14:33
世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验

世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验

世界模型可单GPU秒级生成了?厦大、腾讯开源FlashWorld,效果惊艳、免费体验

厦门大学和腾讯合作的最新论文《FlashWorld: High-quality 3D Scene Generation within Seconds》获得了海内外的广泛关注,在当日 Huggingface Daily Paper 榜单位列第一,并在 X 上获得 AK、Midjourney 创始人、SuperSplat 创始人等 AI 大佬点赞转发。

来自主题: AI技术研报
5989 点击    2025-10-31 10:27
Eino ADK:一文搞定 AI Agent 核心设计模式,从 0 到 1 搭建智能体系统

Eino ADK:一文搞定 AI Agent 核心设计模式,从 0 到 1 搭建智能体系统

Eino ADK:一文搞定 AI Agent 核心设计模式,从 0 到 1 搭建智能体系统

当大语言模型突破了 “理解与生成” 的瓶颈,Agent 迅速成为 AI 落地的主流形态。从智能客服到自动化办公,几乎所有场景都需要 Agent 来承接 LLM 能力、执行具体任务。

来自主题: AI技术研报
8522 点击    2025-10-31 10:24
人大、清华DeepAnalyze,让LLM化身数据科学家

人大、清华DeepAnalyze,让LLM化身数据科学家

人大、清华DeepAnalyze,让LLM化身数据科学家

来自人大和清华的研究团队发布了 DeepAnalyze,首个面向自主数据科学的 agentic LLM。DeepAnalyze引起了社区内广泛讨论,一周内收获1000多个GitHub星标、20w余次社交媒体浏览量。

来自主题: AI技术研报
10227 点击    2025-10-31 09:52
扩散语言模型新发现:其计算潜力正在被浪费?

扩散语言模型新发现:其计算潜力正在被浪费?

扩散语言模型新发现:其计算潜力正在被浪费?

按从左到右的顺序依次生成下一个 token 真的是大模型生成方式的最优解吗?最近,越来越多的研究者对此提出质疑。其中,有些研究者已经转向一个新的方向 —— 掩码扩散语言模型(MDLM)。

来自主题: AI技术研报
9131 点击    2025-10-31 09:50
爆火的AI三宫格图片,比我们的生活更像电影。

爆火的AI三宫格图片,比我们的生活更像电影。

爆火的AI三宫格图片,比我们的生活更像电影。

最近这两天,被一个三宫格AI图片给刷屏了。 还有那三句经典的台词: “山的那边是什么。” “你不用告诉我。” “我会自己去看。” 抖音和小红书上玩的人巨多,点赞量动辄几千几万。 群里的朋友们也都在玩。

来自主题: AI技术研报
8125 点击    2025-10-31 09:43
刚刚,Anthropic证明:AI开始拥有内省能力

刚刚,Anthropic证明:AI开始拥有内省能力

刚刚,Anthropic证明:AI开始拥有内省能力

家人们,不知道你有没有试过,在和 AI 聊天时,冷不丁地问一句: “你刚刚在想什么?”

来自主题: AI技术研报
10426 点击    2025-10-30 17:30
苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM

苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM

苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM

用 iPhone 本地跑大模型已经不是新鲜事了,但能不能在 iPhone 上微调模型呢?

来自主题: AI技术研报
8873 点击    2025-10-30 17:27
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖

天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖

天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖

近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题:

来自主题: AI技术研报
5665 点击    2025-10-30 17:03
ICCV 2025 | 港科、牛津大学发布AlignGuard,文图生成模型可规模化安全对齐框架

ICCV 2025 | 港科、牛津大学发布AlignGuard,文图生成模型可规模化安全对齐框架

ICCV 2025 | 港科、牛津大学发布AlignGuard,文图生成模型可规模化安全对齐框架

随着文图生成模型的广泛应用,模型本身有限的安全防护机制使得用户有机会无意或故意生成有害的图片内容,并且该内容有可能会被恶意使用。现有的安全措施主要依赖文本过滤或概念移除的策略,只能从文图生成模型的生成能力中移除少数几个概念。

来自主题: AI技术研报
9072 点击    2025-10-30 17:01
数据智能体全景报告发布!你的数据智能体在哪个 Level?

数据智能体全景报告发布!你的数据智能体在哪个 Level?

数据智能体全景报告发布!你的数据智能体在哪个 Level?

当你被扔进一片数据的汪洋,老板却期待你一眼看穿本质—— 你是否也曾幻想,有一位不知疲倦、全知全能的 AI 数据专家,能替你搞定从数据管理、准备,到分析的一切工作?

来自主题: AI技术研报
9983 点击    2025-10-30 16:36
中移动九天团队MultiPL-MoE:全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

中移动九天团队MultiPL-MoE:全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

中移动九天团队MultiPL-MoE:全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

大语言模型(LLM)虽已展现出卓越的代码生成潜力,却依然面临着一道艰巨的挑战:如何在有限的计算资源约束下,同步提升对多种编程语言的理解与生成能力,同时不损害其在主流语言上的性能?

来自主题: AI技术研报
7501 点击    2025-10-30 16:23
700位医疗高管告诉你,为什么AI最先跑通的是医疗?

700位医疗高管告诉你,为什么AI最先跑通的是医疗?

700位医疗高管告诉你,为什么AI最先跑通的是医疗?

医疗机构选择AI,只看这三点。很长时间里,医疗始终被认为是新兴技术应用里最难啃的阵地。 就拿医疗数字化来说,就走得极为不容易。在当下7400亿美元的美国医疗管理支出中,IT 预算仅占630亿美元。

来自主题: AI技术研报
9330 点击    2025-10-30 12:26
代码自己改自己?我用1000万DeepSeek跑通了赫胥黎-歌德尔机HGM(附避坑指南)

代码自己改自己?我用1000万DeepSeek跑通了赫胥黎-歌德尔机HGM(附避坑指南)

代码自己改自己?我用1000万DeepSeek跑通了赫胥黎-歌德尔机HGM(附避坑指南)

读者,您好!今天想跟您聊一个硬核又极具启发性的项目——HGM(Huxley-Gödel Machine)。我刚刚一起花了几个小时,从环境配置的坑,一路“打怪升级”到让它最终跑完,相信您可能已经从别的公众号上看到了这篇文章。

来自主题: AI技术研报
8092 点击    2025-10-30 11:24
高效训练新标杆!华人团队开源原生VLM-NEO,以少数据追平顶级模型

高效训练新标杆!华人团队开源原生VLM-NEO,以少数据追平顶级模型

高效训练新标杆!华人团队开源原生VLM-NEO,以少数据追平顶级模型

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

来自主题: AI技术研报
6930 点击    2025-10-30 10:55
牛津VGG、港大、上交发布ELIP:超越CLIP等,多模态图片检索的增强视觉语言大模型预训练

牛津VGG、港大、上交发布ELIP:超越CLIP等,多模态图片检索的增强视觉语言大模型预训练

牛津VGG、港大、上交发布ELIP:超越CLIP等,多模态图片检索的增强视觉语言大模型预训练

多模态图片检索是计算机视觉和多模态机器学习领域很重要的一个任务。现在大家做多模态图片检索一般会用 CLIP/SigLIP 这种视觉语言大模型,因为他们经过了大规模的预训练,所以 zero-shot 的能力比较强。

来自主题: AI技术研报
6031 点击    2025-10-30 10:42