AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%

无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%

无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%

专注推理任务的 Large Reasoning Models 在数学基准上不断取得突破,但也带来了一个重要问题:越想越长、越长越错。本文解读由 JHU、UNC Charlotte 等机构团队的最新工作

来自主题: AI技术研报
6758 点击    2025-11-22 11:31
AI模型大战:Gemini 3 Pro、GPT-5.1-Codex-Max与Claude Sonnet 4.5如何选择?

AI模型大战:Gemini 3 Pro、GPT-5.1-Codex-Max与Claude Sonnet 4.5如何选择?

AI模型大战:Gemini 3 Pro、GPT-5.1-Codex-Max与Claude Sonnet 4.5如何选择?

前沿AI竞赛在2025年11月达到高潮。48小时内,谷歌推出Gemini 3 Pro宣称在主要推理基准测试中领先,而OpenAI立即用GPT-5.1-Codex-Max反击,这是一款专门训练用于通过创新"压缩"(compaction)技术自主工作超过24小时的专业编码模型[43]。加上Claude Sonnet 4.5已确立的编码统治地位和激进的安全过滤器,开发者面临前所未有的选择:

来自主题: AI技术研报
8507 点击    2025-11-21 17:09
4K超分Agent修图师来了!一键救活所有模糊照片

4K超分Agent修图师来了!一键救活所有模糊照片

4K超分Agent修图师来了!一键救活所有模糊照片

由德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs以及加州大学Merced分校的研究者联合提出的基于AI智能体的方法4KAgent针对不同类型的图像以及需求对图像进行智能修复并放大到4K分辨率,带来优秀的视觉感知效果。该工作已被NeurIPS 2025接收。

来自主题: AI技术研报
7341 点击    2025-11-21 17:03
AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型

AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型

AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型

近日,AAAI 2026 公布了录用结果,该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有 23680 篇投稿进入审稿阶段,最终 4167 篇论文被录用,录取率为 17.6%。

来自主题: AI技术研报
9711 点击    2025-11-21 09:42
AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型

AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型

AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型

“What is meant often goes far beyond what is said, and that is what makes conversation possible.” ——H. P. Grice

来自主题: AI技术研报
7451 点击    2025-11-21 09:16
Google Antigravity「系统提示词」简直太牛了,厉害是有原因的

Google Antigravity「系统提示词」简直太牛了,厉害是有原因的

Google Antigravity「系统提示词」简直太牛了,厉害是有原因的

Google昨天伴随Gemini3.0pro一同发布了他们的AI IDE产品Antigravity《与Gemini 3.0一起发布的AI IDE「Antigravity」究竟有多厉害?》。其震撼性的三位一体全流程Agent体验让无数开发者直呼“Cursor危险了”。

来自主题: AI技术研报
7687 点击    2025-11-20 16:24
零门槛deepfake!75.8k Star 的Deep-Live-Cam 一张照片秒换脸,开源 deepfake 神器本地跑!

零门槛deepfake!75.8k Star 的Deep-Live-Cam 一张照片秒换脸,开源 deepfake 神器本地跑!

零门槛deepfake!75.8k Star 的Deep-Live-Cam 一张照片秒换脸,开源 deepfake 神器本地跑!

Deep-Live-Cam 是一款开源的实时换脸与视频深度伪造(deepfake)工具,只需要一张人脸图片,就能在本地电脑上对摄像头画面或视频进行实时换脸。 支持 Windows / Linux / macOS,多种硬件加速(CPU / CUDA / CoreML / DirectML / OpenVINO),并内置不良内容检测与合规提示,定位是服务 AI 生成媒体行业的高效生产力工具。

来自主题: AI技术研报
7855 点击    2025-11-20 16:22
永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术

永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术

永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术

扩散模型「去噪」,是不是反而忘了真正去噪?何恺明携弟子出手,回归本源!

来自主题: AI技术研报
9408 点击    2025-11-20 15:26
AI Agent 工程化,本质是数据库系统设计

AI Agent 工程化,本质是数据库系统设计

AI Agent 工程化,本质是数据库系统设计

最近半年,我阅读了业界关于 AI Agent 的工程实践:Anthropic 的 Context Engineering 论文、Manus 的工程分享、Cline 的 Memory Bank 设计等。同时自己也一直在做跟 AI Agent 相关的项目,如:Jta[1](开源的翻译 Agent,基于 Agentic Workflow)。

来自主题: AI技术研报
8047 点击    2025-11-20 15:03
NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

在视觉处理任务中,Vision Transformers(ViTs)已发展成为主流架构。然而,近期研究表明,ViT 模型的密集特征中会出现部分与局部语义不一致的伪影(artifact),进而削弱模型在精细定位类任务中的性能表现。因此,如何在不耗费大量计算资源的前提下,保留 ViT 模型预训练核心信息并消除密集特征中的伪影?

来自主题: AI技术研报
7481 点击    2025-11-20 09:33
终于不用为GPU算力发愁了,10块钱训练一个GPT!

终于不用为GPU算力发愁了,10块钱训练一个GPT!

终于不用为GPU算力发愁了,10块钱训练一个GPT!

前不久写了一期卡神做的 nanochat ,听朋友说咱们国产早就有类似的开源项目了:miniMind 。

来自主题: AI技术研报
7787 点击    2025-11-19 17:14
何恺明重磅新作:Just image Transformers让去噪模型回归基本功

何恺明重磅新作:Just image Transformers让去噪模型回归基本功

何恺明重磅新作:Just image Transformers让去噪模型回归基本功

大家都知道,图像生成和去噪扩散模型是密不可分的。高质量的图像生成都通过扩散模型实现。

来自主题: AI技术研报
6365 点击    2025-11-19 16:42
登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」

登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」

登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」

在过去两年,大语言模型 (LLM) + 外部工具的能力,已成为推动 AI 从 “会说” 走向 “会做” 的关键机制 —— 尤其在 API 调用、多轮任务规划、知识检索、代码执行等场景中,大模型要想精准调用工具,不仅要求模型本身具备推理能力,还需要借助海量高质量、针对性强的函数调用训练数据。

来自主题: AI技术研报
10396 点击    2025-11-19 16:40
NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

人类高级视觉皮层在个体间存在显著的功能差异,而构建大脑编码模型(brain encoding models)—— 即能够从视觉刺激(如图像)预测人脑神经响应的计算模型 —— 是理解人类视觉系统如何表征世界的关键。传统视觉编码模型通常需要为每个新被试采集大量数据(数千张图像对应的脑活动),成本高昂且难以推广。

来自主题: AI技术研报
9834 点击    2025-11-19 15:21
ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式

无需额外训练即可适配预训练生成模型的编辑方法,凭借灵活、高效的特性,已成为视觉生成领域的研究热点。这类方法通过操控 Attention 机制(如 Prompt-to-Prompt、MasaCtrl)实现文本引导编辑,但当前技术存在两大核心痛点,严重限制其在复杂场景的应用

来自主题: AI技术研报
9506 点击    2025-11-19 15:19
华为诺亚发布ScaleNet:模型放大通用新范式

华为诺亚发布ScaleNet:模型放大通用新范式

华为诺亚发布ScaleNet:模型放大通用新范式

在基础模型领域,模型规模与性能之间的缩放定律(Scaling Law)已被广泛验证,但模型增大也伴随着训练成本、存储需求和能耗的急剧上升。如何在控制参数量的前提下高效扩展模型,成为当前研究的关键挑战。

来自主题: AI技术研报
9281 点击    2025-11-19 09:31
视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt

视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt

视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt

视频创作中,你是否曾希望复刻变成 Labubu 的特效,重现吉卜力风格化,跳出短视频平台爆火的同款舞蹈,或模仿复杂有趣的希区柯克运镜?

来自主题: AI技术研报
9826 点击    2025-11-19 09:30
ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了

ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了

ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了

从浪漫订婚到失落痛哭,AI爱情正在撕开新的社会裂缝。在哈佛MIT,一项研究揭示:AI伴侣既能抚慰孤独,也可能让人陷入依赖。当《Her》变成现实,我们或许才刚刚面对真正的挑战。

来自主题: AI技术研报
9144 点击    2025-11-19 09:07
视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?

视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?

视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?

近年来,以 Veo、Sora 为代表的视频生成模型展现出惊人的合成能力,能够生成高度逼真且时序连贯的动态画面。这类模型在视觉内容生成上的进步,表明其内部可能隐含了对世界结构与规律的理解。更令人关注的是,Google 的最新研究指出,诸如 Veo 3 等模型正在逐步显现出超越单纯合成的 “涌现特性”,包括感知、建模和推理等更高层次能力。

来自主题: AI技术研报
7325 点击    2025-11-19 09:06
医疗AI智能体全面综述:行业爆发,年增长130%!

医疗AI智能体全面综述:行业爆发,年增长130%!

医疗AI智能体全面综述:行业爆发,年增长130%!

AI智能体正把医疗AI从「看片子」升级成会思考、能行动的「医生搭档」。研究人员发表的最新综述,用通俗语言拆解智能体如何读懂多模态数据、像专家一样规划决策,又能扮演医生、护士、健康管家等多重角色;同时提醒:越智能越危险,必须配套严格评估、隐私保护与伦理护栏,才敢让它走进真实诊疗。

来自主题: AI技术研报
6974 点击    2025-11-19 09:06
真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅

真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅

真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅

本周,美国具身智能创业公司 Physical Intelligence(简称 PI 或 π)发布了旗下的最新机器人基础模型 π*0.6。PI 是一家总部位于旧金山的机器人与 AI 创业公司,其使命是将通用人工智能从数字世界带入物理世界:他们的首个机器人通用基础模型名为 π₀,让同一套软件控制多种物理平台执行各类任务。

来自主题: AI技术研报
8699 点击    2025-11-18 16:14