AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。

来自主题: AI技术研报
6005 点击    2024-11-22 14:41
发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型

发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型

发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型

一觉醒来,Mistral AI 又发力了。 就在今天,Mistral AI 多模态家族迎来了第二位成员:一个名为 Pixtral Large 的超大杯基础模型。

来自主题: AI资讯
5434 点击    2024-11-20 08:51
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等出品,首个多模态版o1开源模型来了—— 代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。 在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。

来自主题: AI技术研报
5399 点击    2024-11-19 21:01
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

以开源极客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。

来自主题: AI技术研报
5282 点击    2024-11-19 17:15
Kimi 首个多模态功能体验,AI 一键为音乐生成 MV,月之暗面不再只卷长文本

Kimi 首个多模态功能体验,AI 一键为音乐生成 MV,月之暗面不再只卷长文本

Kimi 首个多模态功能体验,AI 一键为音乐生成 MV,月之暗面不再只卷长文本

在闭着眼睛听一首歌的时候,你有没有在脑海里想象过,应该搭配什么画面? Kimi 内测的最新功能「创作音乐视频」,就是奔着当 MV 导演去的。长文本领先的 Kimi,默不作声地「跨界」了。APPSO 也受邀首批体验了这一新功能。

来自主题: AI产品测评
8000 点击    2024-11-18 14:44
集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?

集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?

集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?

MEGA-Bench是一个包含500多个真实世界任务的多模态评测套件,为全面评估AI模型提供了高效工具。研究人员发现,尽管顶级AI模型在多个任务中表现出色,但在复杂推理和跨模态理解方面仍有提升空间。

来自主题: AI技术研报
7255 点击    2024-11-15 15:37
一文读懂 CLIP:多模态 AI 的核心原理与应用

一文读懂 CLIP:多模态 AI 的核心原理与应用

一文读懂 CLIP:多模态 AI 的核心原理与应用

「多模态」这个词,相信各位开发者已经比较熟悉了,多模态的含义是让 AI 同时理解包含如图像和文本在内的多种类型的数据。

来自主题: AI资讯
8285 点击    2024-11-15 10:38
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代

全球首个支持多主体一致性的多模态模型,刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。

来自主题: AI资讯
6291 点击    2024-11-14 14:36
首个多模态连续学习综述,港中文、清华、UIC联合发布

首个多模态连续学习综述,港中文、清华、UIC联合发布

首个多模态连续学习综述,港中文、清华、UIC联合发布

连续学习(CL)旨在增强机器学习模型的能力,使其能够不断从新数据中学习,而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗忘:当任务按顺序训练时,新的任务训练会严重干扰之前学习的任务的性能,因为不受约束的微调会使参数远离旧任务的最优状态。

来自主题: AI技术研报
4143 点击    2024-11-13 16:02
谷歌推出教育AI产品“Learn About”,步步引导,多模态呈现

谷歌推出教育AI产品“Learn About”,步步引导,多模态呈现

谷歌推出教育AI产品“Learn About”,步步引导,多模态呈现

11月11日,谷歌推出了一款名为“Learn About” 的实验性的新 AI 工具,它不同于此前的聊天机器人,如 Gemini 和 ChatGPT。

来自主题: AI资讯
3338 点击    2024-11-13 10:39