AI资讯新闻榜单内容搜索-Vide

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Vide
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024

AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024

AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024

音视频大语言模型在处理视频内容时,往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新:音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准确性。

来自主题: AI技术研报
6881 点击    2024-07-31 15:05
“3D视频版Sora”来了

“3D视频版Sora”来了

“3D视频版Sora”来了

40秒生成3D视频,Stability AI开源首个视频生视频模型。

来自主题: AI资讯
10106 点击    2024-07-26 09:13
首个视频思维链推理框架Video-of-Thought来了:像人一样从感知到认知全面推理视频

首个视频思维链推理框架Video-of-Thought来了:像人一样从感知到认知全面推理视频

首个视频思维链推理框架Video-of-Thought来了:像人一样从感知到认知全面推理视频

最近,新加坡国立大学联合南洋理工大学和哈工深的研究人员共同提出了一个全新的视频推理框架,这也是首次大模型推理社区提出的面向视频的思维链框架(Video-of-Thought, VoT)。视频思维链VoT让视频多模态大语言模型在复杂视频的理解和推理性能上大幅提升。该工作已被ICML 2024录用为Oral paper。

来自主题: AI技术研报
10235 点击    2024-07-12 17:54
中小企业成AI落地企服市场主力军,阿里云AI创客松决赛结果出炉

中小企业成AI落地企服市场主力军,阿里云AI创客松决赛结果出炉

中小企业成AI落地企服市场主力军,阿里云AI创客松决赛结果出炉

几乎每一天,AI都在获得新的能力。在机器人、大模型等热门赛道涌现后,专注企业服务的AI技术成为后起之秀,在智能客服、营销获客、企业培训等企服领域大展拳脚。

来自主题: AI资讯
9977 点击    2024-07-01 15:31
首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

近日,首个多模态LLM视频分析综合评估基准Video-MME诞生!在这场全新的考试中,Gemini 1.5 Pro一路遥遥领先,谷歌首席科学家Jeff Dean更是愉快地连续转了3次推。

来自主题: AI资讯
4333 点击    2024-06-28 16:24
ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力

ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力

ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力

继Sora官宣之后,多模态大模型在视频生成方面的应用简直就像井喷一样涌现出来,LUMA、Gen-3 Alpha等视频生成模型展现了极佳质量的艺术风格和视频场景的细节雕刻能力,文生视频、图生视频的新前沿不断被扩展令大家惊喜不已,抱有期待。

来自主题: AI资讯
7025 点击    2024-06-21 13:34
Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

OpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。 但业界还缺少可以全面评估大模型视频推理能力的基准。 终于,多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。

来自主题: AI技术研报
7417 点击    2024-06-17 23:41