AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
LiblibAI 正式推出2.0,十字路口第一时间评测:从 1.0 到 2.0,什么变了?

LiblibAI 正式推出2.0,十字路口第一时间评测:从 1.0 到 2.0,什么变了?

LiblibAI 正式推出2.0,十字路口第一时间评测:从 1.0 到 2.0,什么变了?

2 天前,国内最大的 AI 多模态模型社区之一的 LiblibAI 进行了一次大升级,正式推出了 2.0 版本。对许多创作者而言,这个平台并不陌生,LiblibAI 一直是国内开源绘画与 LoRA 文化的重要发源地,也常被称为中国版的 CivitAI (大家常说的 C 站)。

来自主题: AI资讯
8277 点击    2025-10-19 10:45
不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时,现有模型却常常「力不从心」。

来自主题: AI技术研报
9046 点击    2025-10-16 12:31
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

大家或许都有过这样的体验: 看完一部喜欢的动漫,总会心血来潮地想去 “圣地巡礼”;刷到别人剪辑精美的旅行 vlog,也会忍不住收藏起来,想着哪天亲自走一遍同样的路线。旅行与影像的结合,总是能勾起人们的

来自主题: AI技术研报
8066 点击    2025-10-15 12:30
谁是最强编程大模型?横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

谁是最强编程大模型?横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

谁是最强编程大模型?横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

模型众多,该如何选择? GPT-5:OpenAI的最新旗舰模型,统一智能系统,GPT-5 集成了多个模型,自动根据任务复杂度选择最适合的模型进行处理,多模态首选。 GPT-5 Thinking:GPT

来自主题: AI产品测评
11544 点击    2025-10-15 12:29
LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及,明显缩小了与顶级闭源模型的差距,标志着开源多模态范式的重要里程碑。

来自主题: AI技术研报
8523 点击    2025-10-15 12:12
前端危!Gemini 3内测结果获网友一致好评,“有史以来最强前端开发模型”

前端危!Gemini 3内测结果获网友一致好评,“有史以来最强前端开发模型”

前端危!Gemini 3内测结果获网友一致好评,“有史以来最强前端开发模型”

谷歌下一代旗舰模型Gemini 3未发布便已悄然走红!原因很简单:强,实在是太强了。在国外社交媒体平台𝕏上,一大波网友激动地分享了Gemini 3的内测结果——从曝光的这些案例来看,Gemini 3尤为擅长前端、SVG矢量图生成,而且多模态能力变得更强。

来自主题: AI资讯
7800 点击    2025-10-13 18:42
告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

在中国科学院计算技术研究所入选NeurIPS 2025的新论文中,提出了SpaceServe的突破性架构,首次将LLM推理中的P/D分离扩展至多模态场景,通过EPD三阶解耦与「空分复用」,系统性地解决了MLLM推理中的行头阻塞难题。

来自主题: AI技术研报
7615 点击    2025-10-13 16:08
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

2B模型在多个基准位列4B参数以下开源第一。 抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

来自主题: AI技术研报
6698 点击    2025-10-13 15:58