AI资讯新闻榜单内容搜索-LLM

不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而，当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时，现有模型却常常「力不从心」。

来自主题: AI技术研报

10625 点击 2025-10-16 12:31

在这个新访谈中，Sutton 与多位专家一起，进一步探讨 AI 研究领域存在的具体问题。

来自主题: AI资讯

9410 点击 2025-10-16 11:47

“如果一个问题只需小模型就能回答，为什么还要让更贵的大模型去思考？”

来自主题: AI技术研报

9096 点击 2025-10-16 11:35

找AI帮忙不要再客气了，效果根本适得其反。宾夕法尼亚州立大学的一项研究《Mind Your Tone》显示，你说话越粗鲁，LLM回答越准。

来自主题: AI技术研报

7553 点击 2025-10-15 14:52

近日，蚂蚁集团正式开源业界首个高性能扩散语言模型（Diffusion Large Language Model，dLLM）推理框架 dInfer。

来自主题: AI技术研报

6717 点击 2025-10-15 11:46

在中国科学院计算技术研究所入选NeurIPS 2025的新论文中，提出了SpaceServe的突破性架构，首次将LLM推理中的P/D分离扩展至多模态场景，通过EPD三阶解耦与「空分复用」，系统性地解决了MLLM推理中的行头阻塞难题。

来自主题: AI技术研报

9075 点击 2025-10-13 16:08

InfLLM-V2是一种可高效处理长文本的稀疏注意力模型，仅需少量长文本数据即可训练，且性能接近传统稠密模型。通过动态切换短长文本处理模式，显著提升长上下文任务的效率与质量。从短到长低成本「无缝切换」，预填充与解码双阶段加速，释放长上下文的真正生产力。

来自主题: AI技术研报

9430 点击 2025-10-13 11:55

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人，是机器人学领域一个长期追逐的圣杯。近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，许多研究者将希望寄托于视觉 - 语言 - 动作（VLA）模型，期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。

来自主题: AI技术研报

9116 点击 2025-10-13 11:02

既然后训练这么重要，那么作为初学者，应该掌握哪些知识？大家不妨看看这篇博客《Post-training 101》，可以很好的入门 LLM 后训练相关知识。从对下一个 token 预测过渡到指令跟随；监督微调（SFT）基本原理，包括数据集构建与损失函数设计；

来自主题: AI技术研报

8540 点击 2025-10-12 14:59

当大语言模型生成海量数据时，数据存储的难题也随之而来。对此，华盛顿大学（UW）SyFI实验室的研究者们提出了一个创新的解决方案：LLMc，即利用大型语言模型自身进行无损文本压缩的引擎。

来自主题: AI技术研报

7234 点击 2025-10-12 11:00