AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
RAG新SOTA,还在5亿条数据上跑进秒级,只有它了

RAG新SOTA,还在5亿条数据上跑进秒级,只有它了

RAG新SOTA,还在5亿条数据上跑进秒级,只有它了

广州智跃深空人工智能科技有限公司 Zleap AI 提出的 SAG(SQL-Retrieval Augmented Generation) 出场了。其实,名字已经点题了——不是 Graph、Hippo,而是 SQL-Retrieval。它的核心想法是在离线阶段,SAG 先把原始文本先整理成「事项 + 实体」的数据库结构。等查询来了,再围绕当前问题,用 SQL 动态串出一张局部线索网。

来自主题: AI技术研报
8070 点击    2026-06-18 16:58
3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产

3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产

3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产

最近几天,一个 3B 的小模型在 X 上火了,因为在一些难度可验证的推理任务上(比如编程),它进入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能区间,而它的体积远小于这些模型。

来自主题: AI技术研报
9992 点击    2026-06-18 15:30
2天手搓商业级App!开源GLM-5.2+Image2太绝了~【附教程】

2天手搓商业级App!开源GLM-5.2+Image2太绝了~【附教程】

2天手搓商业级App!开源GLM-5.2+Image2太绝了~【附教程】

大家好,我是袋鼠帝。 如果你家的猫狗真的能说话,它们开口第一句会说什么?

来自主题: AI技术研报
9298 点击    2026-06-18 15:29
干掉 Whisper:我把 VoiceVault 迁移到 FunASR,本地转录加总结爽的飞起,已然是一枚离线录音加待办神器

干掉 Whisper:我把 VoiceVault 迁移到 FunASR,本地转录加总结爽的飞起,已然是一枚离线录音加待办神器

干掉 Whisper:我把 VoiceVault 迁移到 FunASR,本地转录加总结爽的飞起,已然是一枚离线录音加待办神器

把 VoiceVault 的转录引擎从 Whisper 迁移到 FunASR(sherpa-onnx),中文识别速度提升 3x,不再需要 500MB 的模型文件。但"切个后端"这件听起来很简单的事,让我在 GitHub Release 的 404、Tauri 白屏、trait object 生命周期和 CSP 策略里翻滚了一整天。

来自主题: AI技术研报
5410 点击    2026-06-18 15:28
英伟达GEAR实验室刚刚放出大招,物理世界的自动研究 AutoResearch 首次成为现实

英伟达GEAR实验室刚刚放出大招,物理世界的自动研究 AutoResearch 首次成为现实

英伟达GEAR实验室刚刚放出大招,物理世界的自动研究 AutoResearch 首次成为现实

AutoResearch这个词关注AI的同学应该不陌生,大神Andrej Karpathy提出的Agent 自主科研项目,现在已经是GitHub的明星项目了,应用不计其数。

来自主题: AI技术研报
7570 点击    2026-06-18 15:04
开源版AI虚拟主播来了,完全离线运行

开源版AI虚拟主播来了,完全离线运行

开源版AI虚拟主播来了,完全离线运行

还记得那个火爆全球的 AI Vtuber neuro-sama 吗?一个能实时和观众互动的 AI 虚拟主播。

来自主题: AI技术研报
8013 点击    2026-06-18 12:00
腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作

腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作

腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作

大语言模型的RL技术已日趋成熟,多模态生成模型的强化学习训练却仍在“各自为战”——图像扩散模型一套流程、视频生成另一套标准、VLM和LLM又有不同的技术栈。

来自主题: AI技术研报
6766 点击    2026-06-18 11:25
李飞飞刚立规矩才13天,国产卡上「真物理」就来了!

李飞飞刚立规矩才13天,国产卡上「真物理」就来了!

李飞飞刚立规矩才13天,国产卡上「真物理」就来了!

被算力荒逼出来的硬核奇迹!腾讯米哈游老兵组成的「草根」团队,硬在国产芯片上炼出了超10分钟的绝对物理一致性。画面可以糙,物理绝不能假,这就是通往AGI的真正基石。

来自主题: AI技术研报
7371 点击    2026-06-17 15:05
达摩院发布世界模型评测基准,自家模型一个都没上榜......

达摩院发布世界模型评测基准,自家模型一个都没上榜......

达摩院发布世界模型评测基准,自家模型一个都没上榜......

达摩院联合高校推出WorldOlympiad评测基准,跳出传统视频“唯画质”的评价逻辑,以物理真实性、三维几何一致性、长时序交互保真度三大维度,搭配游戏、机器人、通用实景三大场景,打造一套全方位的视频世界模型评测体系。

来自主题: AI技术研报
8724 点击    2026-06-17 14:28
蚂蚁EGSS算法破解Test Time Scaling困局 | ACL 2026

蚂蚁EGSS算法破解Test Time Scaling困局 | ACL 2026

蚂蚁EGSS算法破解Test Time Scaling困局 | ACL 2026

更聪明的计算远比更多的计算更有效。

来自主题: AI技术研报
6364 点击    2026-06-17 14:06
ICML 2026 | 大模型为什么算不对加法?南大团队提出等本位和轨迹,揭示LLM算术错误的几何机制

ICML 2026 | 大模型为什么算不对加法?南大团队提出等本位和轨迹,揭示LLM算术错误的几何机制

ICML 2026 | 大模型为什么算不对加法?南大团队提出等本位和轨迹,揭示LLM算术错误的几何机制

尽管大语言模型(Large Language Models, LLMs)在复杂数学推理、代码生成和知识问答上表现突出,但它们仍常在多位数加法这类基础算术任务上犯错。

来自主题: AI技术研报
7148 点击    2026-06-17 14:05
ICML 2026 | Agentic强化学习训练的信息自锁问题

ICML 2026 | Agentic强化学习训练的信息自锁问题

ICML 2026 | Agentic强化学习训练的信息自锁问题

随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」,LLM agents 正在被用于越来越复杂的 agentic applications:deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。

来自主题: AI技术研报
5629 点击    2026-06-17 14:05
如何用 6 倍速 Kimi K2.7 Code,做「小红书端到端排版 Skill」?

如何用 6 倍速 Kimi K2.7 Code,做「小红书端到端排版 Skill」?

如何用 6 倍速 Kimi K2.7 Code,做「小红书端到端排版 Skill」?

昨天 Kimi K2.7 Code 高速版 上线了,我上手试了下,最大的感受就一个字:快。

来自主题: AI技术研报
9154 点击    2026-06-17 10:52
王梦迪、丛乐团队Science Earth:当组织本身开始涌现,全球科学能力第一次在同一张网上互相发现

王梦迪、丛乐团队Science Earth:当组织本身开始涌现,全球科学能力第一次在同一张网上互相发现

王梦迪、丛乐团队Science Earth:当组织本身开始涌现,全球科学能力第一次在同一张网上互相发现

过去一年,由斯坦福大学丛乐(Le Cong)与普林斯顿大学王梦迪(Mengdi Wang)领衔的AI科研团队,一直在做同一件事: 把越来越多的异质能力,纳入同一个协同视野。

来自主题: AI技术研报
5294 点击    2026-06-17 10:32
PaddleOCR:82k+ Stars的国产OCR天花板,0.9B小模型精度反超GPT-5.5

PaddleOCR:82k+ Stars的国产OCR天花板,0.9B小模型精度反超GPT-5.5

PaddleOCR:82k+ Stars的国产OCR天花板,0.9B小模型精度反超GPT-5.5

大模型再强,也读不懂你公司那一柜子的合同、发票和扫描件。在"纸张世界"和"LLM世界"之间,缺一座桥——而百度开源的 PaddleOCR,可能就是当下最稳的那座。

来自主题: AI技术研报
6830 点击    2026-06-17 10:32
从贝叶斯到大语言模型:一文详解「时序点过程」近年进展

从贝叶斯到大语言模型:一文详解「时序点过程」近年进展

从贝叶斯到大语言模型:一文详解「时序点过程」近年进展

机器学习已经习惯了处理序列:一句话中的词、视频中的帧、推荐系统中的点击、金融市场中的订单。但在很多真实场景里,数据并不是按固定步长排好队出现的。

来自主题: AI技术研报
7776 点击    2026-06-17 09:53
Anthropic 5.2万人调查大曝光!美国人对AI已达成共识

Anthropic 5.2万人调查大曝光!美国人对AI已达成共识

Anthropic 5.2万人调查大曝光!美国人对AI已达成共识

在一个什么都能吵翻天的国家,71%的美国人难得达成共识:AI必须有人管——但管它的,绝不能是造它的人。

来自主题: AI技术研报
5788 点击    2026-06-16 13:57
视觉latent reasoning为什么不稳?这篇论文从特征空间找到了关键缺口

视觉latent reasoning为什么不稳?这篇论文从特征空间找到了关键缺口

视觉latent reasoning为什么不稳?这篇论文从特征空间找到了关键缺口

导读:视觉 latent reasoning 希望让多模态模型在内部生成连续 latent token,用这些中间表示补充多模态理解和推理任务中缺失的视觉证据。但问题在于,模型生成出来的 latent token 可能并不落在它原本熟悉的视觉输入空间里;如果模型无法稳定读取这些 token,它们就很难成为有效的中间视觉证据。

来自主题: AI技术研报
5431 点击    2026-06-16 13:56
腾讯Robotics X开源HyVLA-0.5:基于亚毫米级指套UMI与真机强化,摆脱繁重遥操

腾讯Robotics X开源HyVLA-0.5:基于亚毫米级指套UMI与真机强化,摆脱繁重遥操

腾讯Robotics X开源HyVLA-0.5:基于亚毫米级指套UMI与真机强化,摆脱繁重遥操

6 月 15 日,腾讯 Robotics X、福田实验室与混元团队联合发布面向真实世界机器人操作任务的端到端具身智能模型 Hy-Embodied-0.5-VLA(简称 HyVLA-0.5)。

来自主题: AI技术研报
10159 点击    2026-06-16 10:21
给音视频生成打草稿!复旦&腾讯提出Baton:首创语义蓝图指引,实现音画逻辑精准同步

给音视频生成打草稿!复旦&腾讯提出Baton:首创语义蓝图指引,实现音画逻辑精准同步

给音视频生成打草稿!复旦&腾讯提出Baton:首创语义蓝图指引,实现音画逻辑精准同步

当用户给出一句简单提示词时,当前的音视频生成模型往往已经能够生成具有不错质量的视听内容。然而,一旦提示词变得复杂,问题便开始暴露出来。

来自主题: AI技术研报
9805 点击    2026-06-16 09:54
低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超

低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超

低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超

AI网关OrcaRouter最近上线了一套可编程路由策略Routing DSL,多个模型同时答题,自动仲裁出最优解。几个你现在就能调用的“常规模型”,给它来个组合编排,跑出来的综合胜率,直接掀翻了Fable 5的单体基准线。Opus 4.8打不过Fable 5,GPT-5.5也单挑不过,但这两个拼一组,结果就反超了。

来自主题: AI技术研报
9802 点击    2026-06-15 15:12
一夜反转!「杀进第一梯队」的巴西LLM竟「套壳缝合」了国产模型

一夜反转!「杀进第一梯队」的巴西LLM竟「套壳缝合」了国产模型

一夜反转!「杀进第一梯队」的巴西LLM竟「套壳缝合」了国产模型

昨天,AI 圈大都被这一新闻「刷屏」:巴西里约热内卢市政府旗下的一家 IT 公司,平地一声雷地推出一款名为「Rio 3.5」397B 的开源模型,甚至还一路逆袭杀进了全球第一梯队,超越 Qwen 3.7 Plus 等开源模型,在多项基准测试中斩获 SOTA 性能。

来自主题: AI技术研报
6428 点击    2026-06-15 14:50