AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
拆解OpenAI技术报告:Sora是怎么生成视频的?

拆解OpenAI技术报告:Sora是怎么生成视频的?

拆解OpenAI技术报告:Sora是怎么生成视频的?

Sora面对的挑战就像是需要处理和理解来自世界各地、不同设备拍摄的数以百万计的图片和视频。这些视觉数据在分辨率、宽高比、色彩深度等方面都存在差异。为了让Sora能够像人类大脑那样理解和生成这么丰富的视觉内容,OpenAI开发了一套将这些不同类型视觉数据转换为统一表示形式的方法。

来自主题: AI资讯
7015 点击    2024-02-23 14:03
惊艳!四川博主用AI生成的《西游记》短片火了

惊艳!四川博主用AI生成的《西游记》短片火了

惊艳!四川博主用AI生成的《西游记》短片火了

一个名为“AI疯人院”的博主在网上发布了一部令人震撼的《猴王问世》动画短片。这部短片利用AI技术制作而成,全长约3分56秒,其令人身临其境的逼真视觉效果让众多网友惊叹不已。

来自主题: AI资讯
5303 点击    2024-02-20 17:27
Sora带来的四点启发

Sora带来的四点启发

Sora带来的四点启发

本文总结了关于Sora的四点启发,包括视觉数据训练出更强的泛化能力、OpenAI的Scaling Law路线、与AGI的第一次亲密接触以及OpenAI的宣传策略。

来自主题: AI资讯
3963 点击    2024-02-19 10:22
让视觉语言模型搞空间推理,谷歌又整新活了

让视觉语言模型搞空间推理,谷歌又整新活了

让视觉语言模型搞空间推理,谷歌又整新活了

视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。

来自主题: AI技术研报
8046 点击    2024-02-18 15:10
揭秘Sora:用大语言模型的方法理解视频,实现了对物理世界的“涌现”

揭秘Sora:用大语言模型的方法理解视频,实现了对物理世界的“涌现”

揭秘Sora:用大语言模型的方法理解视频,实现了对物理世界的“涌现”

简单粗暴的理解,就是语言能力足够强大之后,它带来的泛化能力直接可以学习图像视频数据和它体现出的模式,然后还可以直接用学习来的图像生成模型最能理解的方式,给这些利用了引擎等已有的强大而成熟的视频生成技术的视觉模型模块下指令,最终生成我们看到的逼真而强大的对物理世界体现出“理解”的视频。

来自主题: AI资讯
7851 点击    2024-02-17 12:52
语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型

来自主题: AI技术研报
4126 点击    2024-02-15 21:45
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。

来自主题: AI技术研报
6554 点击    2024-01-31 16:23
年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。

来自主题: AI技术研报
3035 点击    2024-01-27 12:19