AI资讯新闻榜单内容搜索-多模态大模型

HumanSense：探索多模态推理边界，打造「察言观色会共情」的全模态交互伙伴

在科幻作品描绘的未来，人工智能不仅仅是完成任务的工具，更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中，多模态大模型已展现出一定潜力，可以接受视觉、语音等多模态的信息输入，结合上下文做出反馈。

来自主题: AI技术研报

6807 点击 2025-10-24 10:51

随着多模态大模型的不断演进，指令引导的图像编辑（Instruction-guided Image Editing）技术取得了显著进展。然而，现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战，往往需要用户进行多次尝试和手动筛选，难以实现稳定、高质量的「一步到位」式编辑。

来自主题: AI技术研报

9283 点击 2025-10-23 12:28

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

5742 点击 2025-10-21 15:53

多模态大模型在根据静态截图生成网页代码（Image-to-Code）方面已展现出不俗能力，这让许多人对AI自动化前端开发充满期待。

来自主题: AI技术研报

6844 点击 2025-10-20 14:57

多模态大模型表现越来越惊艳，但人们也时常困于它的“耿直”。

来自主题: AI技术研报

7712 点击 2025-10-20 12:13

多模态大模型首次实现像素级推理，指代、分割、推理三大任务一网打尽！

来自主题: AI技术研报

8620 点击 2025-10-17 10:01

在多模态大模型的后训练浪潮中，强化学习驱动的范式已成为提升模型推理与通用能力的关键方向。

来自主题: AI技术研报

7366 点击 2025-10-17 09:26

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而，当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时，现有模型却常常「力不从心」。

来自主题: AI技术研报

9108 点击 2025-10-16 12:31

大家或许都有过这样的体验：看完一部喜欢的动漫，总会心血来潮地想去 “圣地巡礼”；刷到别人剪辑精美的旅行 vlog，也会忍不住收藏起来，想着哪天亲自走一遍同样的路线。旅行与影像的结合，总是能勾起人们的

来自主题: AI技术研报

8124 点击 2025-10-15 12:30

2B模型在多个基准位列4B参数以下开源第一。抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

来自主题: AI技术研报

6789 点击 2025-10-13 15:58