AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

尽管多模态大语言模型(MLLM)在简单任务上最近取得了显著进展,但在复杂推理任务中表现仍然不佳。费曼的格言可能是这种现象的完美隐喻:只有掌握推理过程的每一步,才能真正解决问题。然而,当前的 MLLM 更擅长直接生成简短的最终答案,缺乏中间推理能力。本篇文章旨在开发一种通过学习创造推理过程中每个中间步骤直至最终答案的 MLLM,以实现问题的深入理解与解决。

来自主题: AI技术研报
7224 点击    2025-02-07 16:16
LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

以 GPT-4o 为代表的实时交互多模态大模型(LMMs)引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens,并将其嵌入大语言模型(LLM)上下文来实现视觉信息理解。

来自主题: AI技术研报
4494 点击    2025-02-06 15:26
AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频

AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频

AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频

还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗?升级版技术方案来了,字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。

来自主题: AI技术研报
7727 点击    2025-02-06 13:11
世界级AI科学家加入阿里,出任集团副总裁

世界级AI科学家加入阿里,出任集团副总裁

世界级AI科学家加入阿里,出任集团副总裁

记者从多方获悉,全球顶尖人工智能科学家许主洪教授(Steven Hoi)正式加入阿里巴巴,出任阿里集团副总裁,负责AI To C业务的多模态基础模型及Agents相关基础研究与应用解决方案。

来自主题: AI资讯
8812 点击    2025-02-06 12:20
多模态DeepSeek来了,北大港科联合发布Align-DS-V

多模态DeepSeek来了,北大港科联合发布Align-DS-V

多模态DeepSeek来了,北大港科联合发布Align-DS-V

在当前AI领域的快速发展中,“强推理慢思考”已经成为主要的发展动向之一,它们深刻影响着研发方向和投资决策。如何将强推理慢思考进一步推广到更多模态甚至是全模态场景,并且确保和人类的价值意图相一致,已成为一个极具前瞻性且至关重要的挑战。

来自主题: AI技术研报
9481 点击    2025-02-06 12:13
回家过年,长辈不催婚,反向我“安利AI”

回家过年,长辈不催婚,反向我“安利AI”

回家过年,长辈不催婚,反向我“安利AI”

2024年春节,我其实已经尝试过用AI的介入,来完成一些原本长辈需要我才能完成、但实际上并没有什么难度的问题。例如帮助长辈学习如何用提示词(Prompt),使用类似“什么问题+细节描述+发生场景+附加需求”这样的结构来获得更准确的回复,或是发掘一些AI App中自带的例如一键P图等功能。

来自主题: AI资讯
8930 点击    2025-02-05 14:52
Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

就在除夕前的晚上(2025 年 1 月 27 日),Deepseek 发布了多模态模型 Janus-Pro-7B,该模型在图像生成和多模态理解方面都超过了OpenAI的DALL-E 3(虽然也一般般),我相信能文生图功能一定很优秀了,今天搞点特殊的,测试下图像理解能力对专业的医学影像有没有应用的可行性,以下是常见的五种医学影像测试。

来自主题: AI资讯
9069 点击    2025-02-01 19:58
梁文锋就是AI界的黄峥

梁文锋就是AI界的黄峥

梁文锋就是AI界的黄峥

梁文锋带领着DeepSeek,还在继续搅动大模型行业。继用R1模型炸场之后,1月28日凌晨,除夕夜前一晚,DeepSeek又开源了其多模态模型Janus-Pro-7B,宣布在GenEval和DPG-Bench基准测试中击败了DALL-E 3(来自 OpenAI)和Stable Diffusion。

来自主题: AI资讯
8742 点击    2025-01-30 12:40
新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

VARGPT是一种新型多模态大模型,能够在单一框架内实现视觉理解和生成任务。通过预测下一个token完成视觉理解,预测下一个scale完成视觉生成,展现出强大的混合模态输入输出能力。

来自主题: AI技术研报
8000 点击    2025-01-28 12:07
滚烫Deepseek一夜刀掉英伟达4万亿,除夕开源多模态新模型:7B超越DALL-E 3和StableDiffusion

滚烫Deepseek一夜刀掉英伟达4万亿,除夕开源多模态新模型:7B超越DALL-E 3和StableDiffusion

滚烫Deepseek一夜刀掉英伟达4万亿,除夕开源多模态新模型:7B超越DALL-E 3和StableDiffusion

DeepSeek大爆出圈,现在连夜发布新模型——多模态Janus-Pro-7B,发布即开源。在GenEval和DPG-Bench基准测试中击败了DALL-E 3和Stable Diffusion。

来自主题: AI资讯
11774 点击    2025-01-28 10:54