AI资讯新闻榜单内容搜索-语言模型

NeurIPS 2025 Spotlight | NYU提出QSVD，仅数学压缩让模型更轻、更快、更稳

在多模态智能浪潮中，视觉语言模型（Vision-Language Models, VLM）已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统，它们让机器能够「看懂世界、说人话」。

来自主题: AI技术研报

9083 点击 2025-11-17 09:53

OpenAI新论文拆解语言模型内部机制：用「稀疏电路」解释模型行为

就在今天，OpenAI 发布了一项新研究，使用新方法来训练内部机制更易于解释的小型稀疏模型，其神经元之间的连接更少、更简单，从而观察它们的计算过程是否更容易被人理解。

来自主题: AI技术研报

7400 点击 2025-11-15 17:47

Jeff Dean盛赞姚班校友AI新研究，目前人已到Meta

谷歌AI掌舵人Jeff Dean点赞了一项新研究，还是出自清华姚班校友钟沛林团队之手。Nested Learning嵌套学习，给出了大语言模型灾难性遗忘这一问题的最新答案！简单来说，Nested Learning（下称NL）就是让模型从扁平的计算网，变成像人脑一样有层次、能自我调整的学习系统。

来自主题: AI资讯

8123 点击 2025-11-15 17:45

破解多模态大模型“选择困难症”！内部决策机制首次揭秘：在冲突信息间疯狂"振荡"

多模态大语言模型（MLLMs）在处理来自图像和文本等多种来源的信息时能力强大。然而，一个关键挑战随之而来：当这些模态呈现相互冲突的信息时（例如，图像显示一辆蓝色汽车，而文本描述它为红色），MLLM必须解决这种冲突。模型最终输出与某一模态信息保持一致的行为，称之为“模态跟随”（modality following）

来自主题: AI技术研报

7865 点击 2025-11-14 13:54

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

多模态大语言模型（MLLM）在目标定位精度上被长期诟病，难以匹敌传统的基于坐标回归的检测器。近日，来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni，打破了这一僵局。

来自主题: AI技术研报

6030 点击 2025-11-14 10:18

2M大小模型定义表格理解极限，清华大学崔鹏团队开源LimiX-2M

提到 AI 的突破，人们首先想到的往往是大语言模型（LLM）：写代码、生成文本、甚至推理多模态内容，几乎重塑了通用智能的边界。但在一个看似 “简单” 的领域 —— 结构化表格数据上，这些强大的模型却频频失手。

来自主题: AI技术研报

9273 点击 2025-11-13 15:22

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

在处理短文本时，大语言模型（LLM）已经表现出惊人的理解和生成能力。但现实世界中的许多任务 —— 如长文档理解、复杂问答、检索增强生成（RAG）等 —— 都需要模型处理成千上万甚至几十万长度的上下文。

来自主题: AI技术研报

6349 点击 2025-11-10 15:12

微信、清华连续自回归模型CALM，新范式实现从「离散词元」到「连续向量」转变

众所周知，大型语言模型（LLM）的根本运作方式是预测下一个 token（词元），能够保证生成的连贯性和逻辑性，但这既是 LLM 强大能力的「灵魂」所在，也是其枷锁，将导致高昂的计算成本和响应延迟。可

来自主题: AI技术研报

7396 点击 2025-11-09 10:21

LLM首次达到人类语言专家水平！OpenAI o1拿下拆解句法、识别歧义、推理音律

这说明o1不仅能够使用语言，还能够思考语言，具备元语言能力（metalinguistic capacity ）。由于语言模型只是在预测句子中的下一个单词，人对语言的深层理解在质上有所不同。因此，一些语言学家表示，大模型实际上并没有在处理语言。

来自主题: AI技术研报

8264 点击 2025-11-08 15:51

北大团队让AI学会考古！全球首个古希腊陶罐3D视觉问答数据集发布，还配了专用模型

现在AI都懂文物懂历史了。一项来自北京大学的最新研究引发关注：他们推出了全球首个面向古希腊陶罐的3D视觉问答数据集——VaseVQA-3D，并配套推出了专用视觉语言模型VaseVLM。这意味着，AI正在从“识图机器”迈向“文化考古Agent”。

来自主题: AI技术研报

8039 点击 2025-11-07 14:49