AI资讯新闻榜单内容搜索-视觉语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉语言模型
7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法

7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法

7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法

通过蒙特卡洛树搜索筛选高难度样本,ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力,无需知识蒸馏,为高效训练提供了新思路。

来自主题: AI技术研报
7734 点击    2025-04-24 14:38
物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

最近,来自大连理工和莫纳什大学的团队提出了物理真实的视频生成框架 VLIPP。通过利用视觉语言模型来将物理规律注入到视频扩散模型的方法来提升视频生成中的物理真实性。

来自主题: AI技术研报
6274 点击    2025-04-18 09:08
生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?

生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?

生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?

EgoNormia基准可以评估视觉语言模型在物理社会规范理解方面能力,从结果上看,当前最先进的模型在规范推理方面仍远不如人类,主要问题在于规范合理性和优先级判断上的不足。

来自主题: AI技术研报
7142 点击    2025-03-20 15:26
人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

当前,视觉语言模型(VLMs)的能力边界不断被突破,但大多数评测基准仍聚焦于复杂知识推理或专业场景。本文提出全新视角:如果一项能力对人类而言是 “无需思考” 的本能,但对 AI 却是巨大挑战,它是否才是 VLMs 亟待突破的核心瓶颈?

来自主题: AI技术研报
6303 点击    2025-03-15 15:05
武大等发布大型视觉语言模型最新安全综述:全面分类攻击策略、防御机制和评估方法

武大等发布大型视觉语言模型最新安全综述:全面分类攻击策略、防御机制和评估方法

武大等发布大型视觉语言模型最新安全综述:全面分类攻击策略、防御机制和评估方法

武汉大学等发布了一篇大型视觉语言模型(LVLMs)安全性的综述论文,提出了一个系统性的安全分类框架,涵盖攻击、防御和评估,并对最新模型DeepSeek Janus-Pro进行了安全性测试,发现其在安全性上存在明显短板。

来自主题: AI技术研报
6987 点击    2025-03-11 16:32
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!

来自主题: AI技术研报
6511 点击    2025-03-04 20:09
视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

模型安全和可靠性、系统整合和互操作性、用户交互和认证…… 当“多模态”“跨模态”成为不可阻挡的AI趋势时,多模态场景下的安全挑战尤其应当引发产学研各界的注意。

来自主题: AI技术研报
8058 点击    2025-01-18 10:48
小身板大能量:树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

小身板大能量:树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

小身板大能量:树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

你是否想过在自己的设备上运行自己的大型语言模型(LLMs)或视觉语言模型(VLMs)?你可能有过这样的想法,但是一想到要从头开始设置、管理环境、下载正确的模型权重,以及你的设备是否能处理这些模型的不确定性,你可能就犹豫了。

来自主题: AI技术研报
7991 点击    2024-12-30 16:53
9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

视觉价值模型(VisVM)通过「推理时搜索」来提升多模态视觉语言模型的图像描述质量,减少幻觉现象。实验表明,VisVM能显著提高模型的视觉理解能力,并可通过自我训练进一步提升性能。

来自主题: AI技术研报
7035 点击    2024-12-30 14:43
视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

对抗攻击,特别是基于迁移的有目标攻击,可以用于评估大型视觉语言模型(VLMs)的对抗鲁棒性,从而在部署前更全面地检查潜在的安全漏洞。然而,现有的基于迁移的对抗攻击由于需要大量迭代和复杂的方法结构,导致成本较高

来自主题: AI技术研报
7553 点击    2024-12-28 14:01