AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为

OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为

OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为

就在今天,OpenAI 发布了一项新研究,使用新方法来训练内部机制更易于解释的小型稀疏模型,其神经元之间的连接更少、更简单,从而观察它们的计算过程是否更容易被人理解。

来自主题: AI技术研报
6762 点击    2025-11-15 17:47
GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验

GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验

GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验

华东师范大学智能教育学院发布OmniEduBench,首次从「知识+育人」双维度评测大模型教育能力。测评2.4万道中文题后,实验结果显示:GPT-4o等顶尖AI会做题,却在启发思维、情感支持等育人能力上远不及人类,暴露AI当老师的关键短板。

来自主题: AI技术研报
6463 点击    2025-11-15 10:15
NeurIPS Spotlight|GHAP:把3DGS“剪枝”变成“重建更小的高斯世界”

NeurIPS Spotlight|GHAP:把3DGS“剪枝”变成“重建更小的高斯世界”

NeurIPS Spotlight|GHAP:把3DGS“剪枝”变成“重建更小的高斯世界”

在三维视觉领域,3D Gaussian Splatting (3DGS) 是近年来大热的三维场景建模方法。它通过成千上万的高斯球在空间中“泼洒”,拼合成一个高质量的三维世界,就像是把一片空白的舞台,用彩色的光斑和粒子逐渐铺满,最后呈现出一幅立体的画卷。

来自主题: AI技术研报
7700 点击    2025-11-15 10:13
OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了

OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了

OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了

刚刚,在理解大模型复杂行为的道路上,OpenAI又迈出了关键一步。他们从自己训练出来的稀疏模型里,发现存在结构小而清晰、既可理解又能完成任务的电路(这里的电路,指神经网络内部一组协同工作的特征与连接模式,是AI可解释性研究的一个术语)。

来自主题: AI技术研报
7240 点击    2025-11-15 10:09
何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

一篇入围顶会NeurIPS’25 Oral的论文,狠狠反击了一把DiT(Diffusion Transformer)。这篇来自字节跳动商业化技术团队的论文,则是提出了一个名叫InfinityStar的方法,一举兼得了视频生成的质量和效率,为视频生成方法探索更多可能的路径。

来自主题: AI技术研报
7494 点击    2025-11-14 14:25
FDA对偶锚点:模型知识迁移的新视角——从参数空间到输入空间

FDA对偶锚点:模型知识迁移的新视角——从参数空间到输入空间

FDA对偶锚点:模型知识迁移的新视角——从参数空间到输入空间

研究者们提出了 FDA(Model Merging with Functional Dual Anchors)——一个全新的模型融合框架。与传统的参数空间操作不同,FDA 将专家模型的参数知识投射到输入-表征空间中的合成锚点,通过功能对偶的方式实现更高效的知识整合。

来自主题: AI技术研报
6733 点击    2025-11-14 13:57
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"

破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"

破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"

多模态大语言模型(MLLMs)在处理来自图像和文本等多种来源的信息时能力强大 。 然而,一个关键挑战随之而来:当这些模态呈现相互冲突的信息时(例如,图像显示一辆蓝色汽车,而文本描述它为红色),MLLM必须解决这种冲突 。模型最终输出与某一模态信息保持一致的行为,称之为“模态跟随”(modality following)

来自主题: AI技术研报
7251 点击    2025-11-14 13:54
不只是UI,都要下岗位了?新的AI UI+交互工具来了!飞书智能体+nanobanana也能生成UI了!

不只是UI,都要下岗位了?新的AI UI+交互工具来了!飞书智能体+nanobanana也能生成UI了!

不只是UI,都要下岗位了?新的AI UI+交互工具来了!飞书智能体+nanobanana也能生成UI了!

现在ai工具的发展真是日新月异,很多互联网从业者通过ai工具搭建工作流来帮助自己提高工作效率。不管怎么说吧,打不过就要加入,与其天天抱怨不如来看看用这些工具能不能帮你提高核心竞争力。

来自主题: AI技术研报
7483 点击    2025-11-14 10:56
AI产品的需求文档怎么写,与传统产品的PRD有何异同(附模版)

AI产品的需求文档怎么写,与传统产品的PRD有何异同(附模版)

AI产品的需求文档怎么写,与传统产品的PRD有何异同(附模版)

我们仍在用 10 年前的思维框架,描述10年后的产品形态 “AI产品革命”都快三年了,还没个像样的 PRD 模板出来,实在不像样。 这篇文章,或许可以“救命”: 1. 论述传统产品与 AI 产品的 P

来自主题: AI技术研报
8018 点击    2025-11-14 10:32
Memory和RAG的区别在哪?用「上下文工程」做出个性化 AI(谷歌白皮书精读)

Memory和RAG的区别在哪?用「上下文工程」做出个性化 AI(谷歌白皮书精读)

Memory和RAG的区别在哪?用「上下文工程」做出个性化 AI(谷歌白皮书精读)

谷歌在第三天发布了《上下文工程:会话与记忆》(Context Engineering: Sessions & Memory) 白皮书。文中开篇指出,LLM模型本身是无状态的 (stateless)。如果要构建有状态的(stateful)和个性化的 AI,关键在于上下文工程。

来自主题: AI技术研报
5633 点击    2025-11-14 10:22
RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

RAE+VAE? 预训练表征助力扩散模型Tokenizer,加速像素压缩到语义提取

近期,RAE(Diffusion Transformers with Representation Autoencoders)提出以「 冻结的预训练视觉表征」直接作为潜空间,以显著提升扩散模型的生成性能。

来自主题: AI技术研报
9886 点击    2025-11-14 10:21
LeCun在Meta的最后一篇论文

LeCun在Meta的最后一篇论文

LeCun在Meta的最后一篇论文

《LeJEPA:无需启发式的可证明且可扩展的自监督学习》。

来自主题: AI技术研报
5973 点击    2025-11-14 10:20
下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务

下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务

下一代目标检测模型:3B参数MLLM Rex-Omni首度超越Grounding DINO,统一10+视觉任务

多模态大语言模型(MLLM)在目标定位精度上被长期诟病,难以匹敌传统的基于坐标回归的检测器。近日,来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni,打破了这一僵局。

来自主题: AI技术研报
5421 点击    2025-11-14 10:18
只演示一次,机器人就会干活了?北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗

只演示一次,机器人就会干活了?北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗

只演示一次,机器人就会干活了?北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗

近日,来自北京大学与BeingBeyond的研究团队提出DemoHLM框架,为人形机器人移动操作(loco-manipulation)领域提供一种新思路——仅需1次仿真环境中的人类演示,即可自动生成海量训练数据,实现真实人形机器人在多任务场景下的泛化操作,有效解决了传统方法依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点。

来自主题: AI技术研报
7562 点击    2025-11-14 09:44
用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能

用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能

用155万模拟视频给模型上课!GVE模型一次学会9种视频检索技能

当前视频检索研究正陷入一个闭环困境:以MSRVTT为代表的窄域基准,长期主导模型在粗粒度文本查询上的优化,导致训练数据有偏、模型能力受限,难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求。

来自主题: AI技术研报
5374 点击    2025-11-14 09:41
AI 时代,印度崛起了

AI 时代,印度崛起了

AI 时代,印度崛起了

大家好,我是 Ai 学习的老章 最近 GitHub 发布了 2025 年度开发者趋势报告

来自主题: AI技术研报
5475 点击    2025-11-13 16:45
Claude Skills 新玩法:用 skill-creator 10 分钟搞定 Excel 报表自动化,职场人必学

Claude Skills 新玩法:用 skill-creator 10 分钟搞定 Excel 报表自动化,职场人必学

Claude Skills 新玩法:用 skill-creator 10 分钟搞定 Excel 报表自动化,职场人必学

skill‑creator 是 Anthropic 在 Claude Skills 体系中提供的“元技能”。它本身是一个可直接在 Claude 对话中调用的 Skill,专门用于 帮助用户快速创建、编辑、打包其他自定义 Skill,从而让 Claude 能够在特定业务场景下拥有专业化的能力。

来自主题: AI技术研报
6777 点击    2025-11-13 16:22
2M大小模型定义表格理解极限,清华大学崔鹏团队开源LimiX-2M

2M大小模型定义表格理解极限,清华大学崔鹏团队开源LimiX-2M

2M大小模型定义表格理解极限,清华大学崔鹏团队开源LimiX-2M

提到 AI 的突破,人们首先想到的往往是大语言模型(LLM):写代码、生成文本、甚至推理多模态内容,几乎重塑了通用智能的边界。但在一个看似 “简单” 的领域 —— 结构化表格数据上,这些强大的模型却频频失手。

来自主题: AI技术研报
8638 点击    2025-11-13 15:22
一句话,我用豆包 AI 做出《红楼梦》互动游戏

一句话,我用豆包 AI 做出《红楼梦》互动游戏

一句话,我用豆包 AI 做出《红楼梦》互动游戏

“一位老师,用 AI 做了个《林黛玉初进贾府》的互动游戏。”

来自主题: AI技术研报
9791 点击    2025-11-13 15:21
让AI精准操作网页:CAMEL Hybrid Browser Toolkit深度解析

让AI精准操作网页:CAMEL Hybrid Browser Toolkit深度解析

让AI精准操作网页:CAMEL Hybrid Browser Toolkit深度解析

本文档分析 CAMEL 项目中 hybrid_browser_toolkit 的技术实现,覆盖其架构设计、核心功能与通信协议。

来自主题: AI技术研报
9876 点击    2025-11-13 15:20
跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

我们都知道 LLM 中存在结构化稀疏性,但其底层机制一直缺乏统一的理论解释。为什么模型越深,稀疏性越明显?为什么会出现所谓的「检索头」和「检索层」?

来自主题: AI技术研报
8930 点击    2025-11-13 15:19
GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化

目前,GRPO 在图像和视频生成的流模型中取得了显著提升(如 FlowGRPO 和 DanceGRPO),已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。

来自主题: AI技术研报
7380 点击    2025-11-13 14:52
AI虚拟细胞诞生!科学家成功预测药物作用、细胞命运和器官发育

AI虚拟细胞诞生!科学家成功预测药物作用、细胞命运和器官发育

AI虚拟细胞诞生!科学家成功预测药物作用、细胞命运和器官发育

科学家用 AI 预测细胞未来的命运照进了现实——在虚拟世界中重塑生命系统,这对药物发现、早期筛选和疾病预防至关重要。

来自主题: AI技术研报
5852 点击    2025-11-13 09:39
清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?

来自主题: AI技术研报
5772 点击    2025-11-13 09:37
NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

华中科技大学团队推出首个水下多模态大模型NAUTILUS,支持8种水下场景理解任务,并开源145万图文对的NautData数据集。模型通过视觉特征增强模块解决水下图像模糊和颜色失真问题,性能超越现有模型,恶劣环境下表现更佳。

来自主题: AI技术研报
9999 点击    2025-11-12 17:16
阿里发了个简历AI神器,大小仅0.6B

阿里发了个简历AI神器,大小仅0.6B

阿里发了个简历AI神器,大小仅0.6B

复杂的简历,AI也能读懂了。

来自主题: AI技术研报
8945 点击    2025-11-12 17:15