AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

多模态大模型虽然在视觉理解方面表现出色,但在需要深度数学推理的任务上往往力不从心,尤其是对于参数量较小的模型来说更是如此。

来自主题: AI技术研报
6044 点击    2025-03-19 09:43
首次,6人7天真人秀!南洋理工等发布第一视角AI生活管家数据EgoLife

首次,6人7天真人秀!南洋理工等发布第一视角AI生活管家数据EgoLife

首次,6人7天真人秀!南洋理工等发布第一视角AI生活管家数据EgoLife

通过收集六名志愿者一周的多模态生活数据,研究人员构建了300小时的第一视角数据集EgoLife,旨在开发一款基于智能眼镜的AI生活助手。项目提出了EgoButler系统,包含EgoGPT和EgoRAG两个模块,分别用于视频理解与长时记忆问答,助力AI深入理解日常生活并提供个性化帮助。

来自主题: AI技术研报
8492 点击    2025-03-19 09:31
全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开

全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开

全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开

全球首个开源多模态推理大模型来了!38B参数模型性能直逼DeepSeek-R1,同尺寸上横扫多项SOTA。而这家中国公司之所以选择无偿将技术思路开源,正是希望同DeepSeek一样,打造开源界的技术影响力。

来自主题: AI技术研报
11364 点击    2025-03-18 19:19
模态GAP不存在了?图文领域首个token级大一统基座诞生

模态GAP不存在了?图文领域首个token级大一统基座诞生

模态GAP不存在了?图文领域首个token级大一统基座诞生

CLIP、DINO、SAM 基座的重磅问世,推动了各个领域的任务大一统,也促进了多模态大模型的蓬勃发展。

来自主题: AI技术研报
9663 点击    2025-03-18 17:20
MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

尽管 DeepSeek-R1 在单模态推理中取得了显著成功,但已有的多模态尝试(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全复现其核心特征。

来自主题: AI技术研报
8589 点击    2025-03-14 15:32
刚刚,谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini

刚刚,谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini

刚刚,谷歌Gemma 3上线!单GPU最强多模态手机可跑,27B完胜o3-mini

就在刚刚,谷歌Gemma 3来了,1B、4B、12B和27B四种参数,一块GPU/TPU就能跑!而Gemma 3仅以27B就击败了DeepSeek 671B模型,成为仅次于DeepSeek R1最优开源模型。

来自主题: AI资讯
9704 点击    2025-03-12 18:43
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能

具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能

具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能

Magma是一个新型多模态基础模型,能够理解和执行多模态任务,适用于数字和物理环境:通过标记集合(SoM)和标记轨迹(ToM)技术,将视觉语言数据转化为可操作任务,显著提升了空间智能和任务泛化能力。

来自主题: AI技术研报
7599 点击    2025-03-11 10:49