AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建

3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建

3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建

受人类视觉系统的启发,MVDiffusion++结合计算方法高保真和人类视觉系统灵活性,可以根据任意数量的无位姿图片, 生成密集、高分辨率的有位姿图像,实现了高质量的3D模型重建。

来自主题: AI技术研报
6753 点击    2024-03-21 10:24
独家丨马毅加入大模型创业,已获真格投资

独家丨马毅加入大模型创业,已获真格投资

独家丨马毅加入大模型创业,已获真格投资

最近我们关注到,马毅教授下的一家科技公司发生了股权变动,著名的VC基金真格入股。

来自主题: AI资讯
8447 点击    2024-03-14 11:10
教授何恺明在MIT的第一堂课

教授何恺明在MIT的第一堂课

教授何恺明在MIT的第一堂课

作为麻省理工学院(MIT)电气工程与计算机科学系(EECS)副教授,何恺明第一节课讲授了卷积神经网络的基本知识。

来自主题: AI资讯
7395 点击    2024-03-09 15:02
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

半年多来,Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功(训练稳定、容易做 scaling)。

来自主题: AI技术研报
4176 点击    2024-03-07 14:01
谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。

来自主题: AI技术研报
9149 点击    2024-03-05 10:35
想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速

根据 OpenAI 披露的技术报告,Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式,并通过 Transformer 和扩散模型结合,展现了卓越的扩展(scale)特性。

来自主题: AI技术研报
6428 点击    2024-02-29 13:35
谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。

来自主题: AI技术研报
3307 点击    2024-02-25 15:39