AI资讯新闻榜单内容搜索-SOTA

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: SOTA
用扩散模型监督NeRF,清华文生3D新方法成新SOTA

用扩散模型监督NeRF,清华文生3D新方法成新SOTA

用扩散模型监督NeRF,清华文生3D新方法成新SOTA

近日,清华大学刘永进教授课题组提出了一种基于扩散模型的文生3D新方式。无论是不同视角间的一致性,还是与提示词的匹配度,都比此前大幅提升。

来自主题: AI资讯
9583 点击    2023-12-29 17:22
阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。

来自主题: AI资讯
2996 点击    2023-12-23 16:09
一套参数,狂揽160个SOTA!厦大等重磅开源「视觉感知基础模型」APE

一套参数,狂揽160个SOTA!厦大等重磅开源「视觉感知基础模型」APE

一套参数,狂揽160个SOTA!厦大等重磅开源「视觉感知基础模型」APE

由厦门大学等机构提出的全新视觉感知基础模型APE,只需一个模型外加一套参数,就能在160个测试集上取得当前SOTA或极具竞争力的结果。而且训练和推理代码以及模型权重全部开源,无需微调,开箱即用。

来自主题: AI资讯
9457 点击    2023-12-11 20:40
横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

哈工深发布全新多模态大语言模型九天(JiuTian-LION),融合细粒度空间感知和高层语义视觉知识,在13个评测任务上实现了sota性能。

来自主题: AI技术研报
8735 点击    2023-12-04 18:01
单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法

单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法

单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法

3D 生成是 AI 视觉领域的研究热点之一。本文中,来自 Adobe 研究院和斯坦福大学等机构的研究者利用基于 transformer 的 3D 大型重建模型来对多视图扩散进行去噪,并提出了一种新颖的 3D 生成方法 DMV3D,实现了新的 SOTA 结果。

来自主题: AI技术研报
7105 点击    2023-11-28 10:35
提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一LLM的输入能让LLM的视觉理解能力提升。

来自主题: AI技术研报
5142 点击    2023-11-24 15:10
北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。

来自主题: AI技术研报
5136 点击    2023-11-21 12:24