AI资讯新闻榜单内容搜索-LLM

从图像到视频的任意分割：X2SAM让MLLM 真正看懂像素级时空世界

为了解决这一问题，来自中山大学和美团的研究团队提出了 X2SAM，一个统一的图像与视频分割多模态大模型框架。它希望让模型不仅能「看懂」图像和视频，还能进一步「指出」目标在每个像素上的准确位置。

来自主题: AI技术研报

7946 点击 2026-05-16 10:50

当训练数据枯竭、训练成本飙升，大语言模型（LLM）训练之路该何去何从？

来自主题: AI技术研报

5962 点击 2026-05-15 09:54

在多模态大模型（MLLM）快速发展的浪潮中，融合多模型 “集体智慧” 已成为提升模型性能的关键路径，并催生了多教师知识蒸馏这一主流范式。然而，不同来源的教师模型在架构与优化上的差异，其在相似推理过程中呈现出不稳定甚至偏移的认知轨迹，即 “概念漂移”（Concept Drift）。

来自主题: AI技术研报

8060 点击 2026-05-14 09:30

随着大模型参数规模持续扩大，推理成本已经成为生产级 LLM 服务的核心瓶颈。投机解码（Speculative Decoding, SD）通过「小模型 draft + 大模型 verify」的方式，将多个候选 token 放到一次目标模型前向中并行验证，从而缓解自回归解码的串行瓶颈。

来自主题: AI技术研报

8447 点击 2026-05-13 15:01

“LLM 就是一条死路。”

来自主题: AI资讯

10077 点击 2026-05-12 14:32

随着语音、视频、多模态能力不断融入大语言模型（LLM），人与 AI 的交互正在越来越接近自然对话。今天的 LLM 不再只是回答问题的工具，也越来越多地出现在教育、客服、陪伴、心理健康等高度依赖情绪理解的场景中。

来自主题: AI技术研报

6471 点击 2026-05-12 14:31

近年来，大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架，Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。

来自主题: AI技术研报

6240 点击 2026-05-11 16:09

当多模态大语言模型（MLLMs）在面对科学、技术、工程和数学（STEM）领域的视觉推理题时频频「翻车」，一个根本性的问题摆在了所有研究者面前：大模型做不出理科题，究竟是因为「脑子笨」（推理能力受限），还是因为「眼神差」（视觉感知缺陷）？

来自主题: AI技术研报

7005 点击 2026-05-11 16:08

本文将深入探讨 Anthropic、OpenAI、Perplexity 和 LangChain 究竟在开发什么。我们将聊聊编排循环、工具、记忆、上下文管理，以及那些将“无状态”的大语言模型（LLM）转变为全能智能体（Agent）的底层机制。

来自主题: AI技术研报

8490 点击 2026-05-11 09:02

大家好，最近有人刚刚为电子产品开发了一个 Claude Code 工具。它叫做 Blueprint。输入你想要构建的内容，它就会为你的 Arduino 或树莓派项目生成接线图、物料清单和分步组装指南。能不能自己搭建一个呢？

来自主题: AI资讯

9094 点击 2026-05-10 12:50