AI资讯新闻榜单内容搜索-MLLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: MLLM
首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。

来自主题: AI技术研报
6870 点击    2025-04-10 10:20
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

该项目由忆生科技联合香港大学、上海科技大学共同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。

来自主题: AI技术研报
6409 点击    2024-11-25 15:51
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

当前,多模态大模型 (MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式Groma

来自主题: AI资讯
8105 点击    2024-05-27 16:31
ChemLLM化学大模型开源,wisemodel社区在线体验,助力化学研究

ChemLLM化学大模型开源,wisemodel社区在线体验,助力化学研究

ChemLLM化学大模型开源,wisemodel社区在线体验,助力化学研究

ChemLLM系列模型是由上海人工智能实验室开发的首个兼备推理、对话等通用能力和化学专业能力的开源大模型。相比于现有的其他大模型,ChemLLM对化学空间进行了有效建模,在产物预测、名称转化和化学性质预测等核心化学任务上表现优异。ChemLLM系列模型已经发布到了始智AI wisemodel.cn开源社区,并且无需任何代码,两步即可完成模型的在线体验。

来自主题: AI资讯
8802 点击    2024-05-27 09:09
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。

来自主题: AI技术研报
4937 点击    2024-05-20 18:56
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的 MLLM 由众所周知的 Transformer 网络构成,这种网络具有较低效的二次计算复杂度。

来自主题: AI技术研报
7145 点击    2024-04-22 17:42
文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题

文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题

文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题

近日,北大、斯坦福、以及Pika Labs发布了新的开源文生图框架,利用多模态LLM的能力成功解决文生图两大难题,表现超越SDXL和DALL·E 3

来自主题: AI技术研报
3581 点击    2024-02-17 11:00