AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

Aria-UI通过纯视觉理解,实现了GUI指令的精准定位,无需依赖后台数据,简化了部署流程;在AndroidWorld和OSWorld等权威基准测试中表现出色,分别获得第一名和第三名,展示了强大的跨平台自动化能力。

来自主题: AI技术研报
9234 点击    2025-01-09 10:54
前微软亚研院视觉专家胡瀚加入腾讯,负责混元多模态大模型

前微软亚研院视觉专家胡瀚加入腾讯,负责混元多模态大模型

前微软亚研院视觉专家胡瀚加入腾讯,负责混元多模态大模型

1 月 18 日,北京,聊聊 2025 如何加入技术开发? AI 科技评论消息称,前微软亚洲研究院视觉计算组首席研究员胡瀚,不久前加入腾讯,接替已离职的前腾讯混元大模型技术负责人之一的刘威,负责多模态大模型的研发工作。

来自主题: AI资讯
7500 点击    2025-01-09 10:22
AAAI 2025 | 多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!

AAAI 2025 | 多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!

AAAI 2025 | 多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!

计算机辅助设计(CAD)已经成为许多行业设计、绘图和建模的标准方法。如今,几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。

来自主题: AI技术研报
1926 点击    2025-01-03 16:07
多模态模型已落地多领域,OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

多模态模型已落地多领域,OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

多模态模型已落地多领域,OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

在 2024 年的 NeurIPS 会议上,Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点,尤其集中于 Scaling Law 的观点:「现有的预训练方法将会结束」,这不仅是一次技术的自然演进,也可能标志着对当前「大力出奇迹」方法的根本性质疑。

来自主题: AI资讯
6201 点击    2025-01-02 16:31
全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

近年来,视觉语言基础模型(Vision Language Models, VLMs)大放异彩,在多模态理解和推理上展现出了超强能力。现在,更加酷炫的视觉语言动作模型(Vision-Language-Action Models, VLAs)来了!通过为 VLMs 加上动作预测模块,VLAs 不仅能 “看” 懂和 “说” 清,还能 “动” 起来,为机器人领域开启了新玩法!

来自主题: AI技术研报
5958 点击    2025-01-02 16:29
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

GPT-4o仅得分64.5,其余模型均未及格! 全面、细粒度评估模型多模态长文档理解能力的评测集来了~ 名为LongDocURL,集成了长文档理解、数值推理和跨元素定位三个主任务,并包含20个细分子任务。

来自主题: AI技术研报
6084 点击    2025-01-02 14:19
理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

多模态理解与生成一体化模型,致力于将视觉理解与生成能力融入同一框架,不仅推动了任务协同与泛化能力的突破,更重要的是,它代表着对类人智能(AGI)的一种深层探索。

来自主题: AI技术研报
7121 点击    2024-12-31 14:19
设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

平面设计是一门艺术学科,它们致力于创造一些吸引注意力和有效传达信息的视觉内容。为了减轻人类设计师的负担,各种各样的海报生成模型相继被提出。它们只关注某些子任务,远未实现设计构图任务;它们在生成过程中不考虑图形设计的层次信息。为了解决这些问题,作者将分层设计原理引入多模态模型(LMM),并提出LaDeCo算法。

来自主题: AI技术研报
5276 点击    2024-12-31 13:02