AI资讯新闻榜单内容搜索-多模态模型

MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

开源模型上下文窗口卷到超长，达400万token！刚刚，“大模型六小强”之一MiniMax开源最新模型—— MiniMax-01系列，包含两个模型：基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。

来自主题: AI技术研报

9349 点击 2025-01-15 15:10

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

随着语言大模型的成功，视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速，但在长上下文场景下表现却不尽如人意，这一问题严重制约了多模态模型在实际应用中的潜力。

来自主题: AI技术研报

9596 点击 2025-01-15 14:23

纯视觉方案，精准操控电脑和手机！港大Aria-UI登顶，超越Claude 3.5

Aria-UI通过纯视觉理解，实现了GUI指令的精准定位，无需依赖后台数据，简化了部署流程；在AndroidWorld和OSWorld等权威基准测试中表现出色，分别获得第一名和第三名，展示了强大的跨平台自动化能力。

来自主题: AI技术研报

10893 点击 2025-01-09 10:54

多模态模型已落地多领域，OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

在 2024 年的 NeurIPS 会议上，Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点，尤其集中于 Scaling Law 的观点：「现有的预训练方法将会结束」，这不仅是一次技术的自然演进，也可能标志着对当前「大力出奇迹」方法的根本性质疑。

来自主题: AI资讯

8218 点击 2025-01-02 16:31

设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成，无需重训练！

平面设计是一门艺术学科，它们致力于创造一些吸引注意力和有效传达信息的视觉内容。为了减轻人类设计师的负担，各种各样的海报生成模型相继被提出。它们只关注某些子任务，远未实现设计构图任务；它们在生成过程中不考虑图形设计的层次信息。为了解决这些问题，作者将分层设计原理引入多模态模型（LMM），并提出LaDeCo算法。

来自主题: AI技术研报

7193 点击 2024-12-31 13:02

大家都说通义大模型好，究竟好在哪？

都说国产大模型“通义千问”能打，到底是真强还是智商税？今天就带你看看，这个国产“AI猛将”凭什么火出圈！ 2023年4月，阿里巴巴推出通义千问，选择了“全开源”的策略，成为全球开发者关注的焦点。而在2024年的云栖大会上，阿里云进一步发布了Qwen2.5系列，包括多个尺寸的大语言模型、多模态模型、数学模型和代码模型，涵盖从0.5B到72B的完整规模

来自主题: AI资讯

11376 点击 2024-12-25 08:52