AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
别用Sora了,百度AI视频已杀疯!好莱坞级大片封神,短剧广告彻底颠覆

别用Sora了,百度AI视频已杀疯!好莱坞级大片封神,短剧广告彻底颠覆

别用Sora了,百度AI视频已杀疯!好莱坞级大片封神,短剧广告彻底颠覆

今天,百度AI Day上双杀全场!自研多模态大模型MuseSteamer携「绘想」平台重磅上线,视频创作直接杀进电影级AI时代。同时,百度搜索迎十年最大改版,体验全面开挂。

来自主题: AI资讯
6471 点击    2025-07-03 14:01
让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统

让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统

让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统

本文第一作者是上海交通大学计算机学院三年级博士生程彭洲,研究方向为多模态大模型推理、AI Agent、Agent 安全等。通讯作者为张倬胜助理教授和刘功申教授。

来自主题: AI技术研报
8281 点击    2025-07-03 11:03
超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

多模态对齐模型借助对比学习在检索与生成任务中大放异彩。最新趋势是用冻结的大语言模型替换自训文本编码器,从而在长文本与大数据场景中降低算力成本。LIFT首次系统性地剖析了此范式的优势来源、数据适配性、以及关键设计选择,在组合语义理解与长文本任务上观察到大幅提升。

来自主题: AI技术研报
5952 点击    2025-07-03 11:00
我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型,结果出人意料

我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型,结果出人意料

我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型,结果出人意料

2025年上半年,AI开源领域的竞赛异常激烈,主要围绕着几个核心方向展开:首先是效率竞赛,各路玩家不再单纯追求千亿、万亿参数的“巨无霸”模型,而是更专注于通过新架构和训练方法,用更小的参数实现更强的性能。其次,多模态已成标配,纯文本模型越来越少,新发布的旗舰模型几乎都具备了处理图像、视频等多种信息的能力。

来自主题: AI产品测评
8211 点击    2025-07-02 17:31
RAG已死,2025年RAG的重点新趋势

RAG已死,2025年RAG的重点新趋势

RAG已死,2025年RAG的重点新趋势

2023年至今,检索增强生成(RAG)经历了从备受瞩目到逐渐融入智能体生态的转变。尽管有人宣称“RAG已死”,但其在企业级应用中的重要性依然无可替代。RAG正从独立框架演变为智能体生态的关键子模块,2025年将在多模态、代理融合、行业定制化等领域迎来新的突破。

来自主题: AI技术研报
4585 点击    2025-07-02 17:01
RAG终极框架!港大开源RAG-Anything:统一多模态知识图谱

RAG终极框架!港大开源RAG-Anything:统一多模态知识图谱

RAG终极框架!港大开源RAG-Anything:统一多模态知识图谱

最近,由香港大学黄超教授团队发布的开源项目「一体化的多模态RAG框架」RAG-Anything,有效解决了传统RAG的技术局限,实现了「万物皆可RAG」的处理能力。

来自主题: AI资讯
5978 点击    2025-06-30 15:19
打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而,它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报
6018 点击    2025-06-30 10:24
中国首个海洋领域开源大模型OceanGPT(沧渊)发布!海洋精准感知技术全国重点实验室(浙江大学)牵头研发

中国首个海洋领域开源大模型OceanGPT(沧渊)发布!海洋精准感知技术全国重点实验室(浙江大学)牵头研发

中国首个海洋领域开源大模型OceanGPT(沧渊)发布!海洋精准感知技术全国重点实验室(浙江大学)牵头研发

该大模型由海洋精准感知技术全国重点实验室(浙江大学)牵头研发,具备基础的海洋专业知识问答,以及声呐图像、海洋观测图等海洋特色多模态数据的自然语言解读能力。其采用的领域知识增强“慢思考”推理机制,相较现有通用大模型能有效降低幻觉式错误。

来自主题: AI资讯
5559 点击    2025-06-29 17:03
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩

拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩

拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩

就在昨夜,阿里带着全新多模态模型Qwen-VLo开启炸场模式。据介绍,Qwen-VLo在阿里原有的多模态理解和生成能力上进行了全面升级,具备三大亮点:

来自主题: AI资讯
6633 点击    2025-06-28 17:57