GPT-4.5大泄露,支持视频3D、价格狂涨6倍?奥特曼亲自回应
GPT-4.5大泄露,支持视频3D、价格狂涨6倍?奥特曼亲自回应GPT 4.5疑似大泄漏: 一个是新模型将具备全新多模态能力,文本语音图片以及视频和3D信息全都能一并处理,并且还可以跨模态理解。
GPT 4.5疑似大泄漏: 一个是新模型将具备全新多模态能力,文本语音图片以及视频和3D信息全都能一并处理,并且还可以跨模态理解。
区别于其他智库和研究机构,量子位智库基于量子位长期以来对AI及其他前沿科技的追踪报道,积累了数年对前沿科技的深入洞察。
斯坦福吴佳俊团队打造AI版“爱丽丝梦游仙境”巨作!
本文介绍了一个名为Alph-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。通过替换原始CLIP的应用场景,Alpha-CLIP在图像识别、视觉-语言大模型、2D乃至3D生成领域都展现出强大作用。
在 3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。
本文中,上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM),开源 14B 多模态医疗基础模型,首次支持 2D/3D 放射影像输入。
Transformer大模型工作原理究竟是什么样的?一位软件工程师打开了大模型的矩阵世界。黑客帝国中,「矩阵模拟」的世界或许真的存在。
3D 生成是 AI 视觉领域的研究热点之一。本文中,来自 Adobe 研究院和斯坦福大学等机构的研究者利用基于 transformer 的 3D 大型重建模型来对多视图扩散进行去噪,并提出了一种新颖的 3D 生成方法 DMV3D,实现了新的 SOTA 结果。
Stable Diffusion官方终于对视频下手了——发布生成式视频模型Stable Video Diffusion(SVD)。
开源图像生成大模型 Stable Diffusion(SD) 的开发商 Stability AI 今天宣布了其 Stable Diffusion 平台的多项新增强功能。 这些更新不仅提供了令人兴奋的文本转图像新功能,而且还涉足 3D 内容创建领域。