AI资讯新闻榜单内容搜索-多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态大模型
阿里加速“抢人”:开放数百个招聘岗位,九成与AI相关

阿里加速“抢人”:开放数百个招聘岗位,九成与AI相关

阿里加速“抢人”:开放数百个招聘岗位,九成与AI相关

2月19日,界面新闻记者获悉,阿里AI To C业务近期开启大规模人员招聘,开放招聘岗位达到数百个,其中AI技术、产品研发岗位占比达到90%,所招聘人员将重点投入到文本、多模态大模型、AI Agent等前沿技术与应用的相关工作中。

来自主题: AI资讯
5099 点击    2025-02-19 14:51
全球最大开源视频模型,现在也Created in China了,阶跃出品

全球最大开源视频模型,现在也Created in China了,阶跃出品

全球最大开源视频模型,现在也Created in China了,阶跃出品

刚刚,阶跃星辰联合吉利汽车集团,开源了两款多模态大模型!新模型共2款:全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型,其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议,可任意编辑和商业应用。

来自主题: AI资讯
7180 点击    2025-02-18 14:43
北大彭宇新教授团队开源细粒度多模态大模型Finedefics

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

尽管多模态大模型在通用视觉理解任务中表现出色,但不具备细粒度视觉识别能力,这极大制约了多模态大模型的应用与发展。针对这一问题,北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力:对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力,发现了「视觉对象与细粒度子类别未对齐」

来自主题: AI资讯
8743 点击    2025-02-17 17:37
Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破

Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破

Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破

近年来,多模态大模型(MLLM)在视觉理解领域突飞猛进,但如何让大语言模型(LLM)低成本掌握视觉生成能力仍是业界难题!

来自主题: AI资讯
5302 点击    2025-02-17 09:37
全球首个「视频教学」基准!南洋理工、CMU发布Video-MMMU

全球首个「视频教学」基准!南洋理工、CMU发布Video-MMMU

全球首个「视频教学」基准!南洋理工、CMU发布Video-MMMU

人类通过课堂学习知识,并在实践中不断应用与创新。那么,多模态大模型(LMMs)能通过观看视频实现「课堂学习」吗?新加坡南洋理工大学S-Lab团队推出了Video-MMMU——全球首个评测视频知识获取能力的数据集,为AI迈向更高效的知识获取与应用开辟了新路径。

来自主题: AI技术研报
5933 点击    2025-02-12 12:01
LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

以 GPT-4o 为代表的实时交互多模态大模型(LMMs)引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens,并将其嵌入大语言模型(LLM)上下文来实现视觉信息理解。

来自主题: AI技术研报
2878 点击    2025-02-06 15:26
Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

就在除夕前的晚上(2025 年 1 月 27 日),Deepseek 发布了多模态模型 Janus-Pro-7B,该模型在图像生成和多模态理解方面都超过了OpenAI的DALL-E 3(虽然也一般般),我相信能文生图功能一定很优秀了,今天搞点特殊的,测试下图像理解能力对专业的医学影像有没有应用的可行性,以下是常见的五种医学影像测试。

来自主题: AI资讯
7142 点击    2025-02-01 19:58
新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

VARGPT是一种新型多模态大模型,能够在单一框架内实现视觉理解和生成任务。通过预测下一个token完成视觉理解,预测下一个scale完成视觉生成,展现出强大的混合模态输入输出能力。

来自主题: AI技术研报
6858 点击    2025-01-28 12:07
贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行

贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行

贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行

论文一作刘少腾,Adobe Research实习生,香港中文大学博士生(DV Lab),师从贾佳亚教授。主要研究方向是多模态大模型和生成模型,包含图像视频的生成、理解与编辑。作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。

来自主题: AI技术研报
4723 点击    2025-01-26 11:39