AI资讯新闻榜单内容搜索-研究

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 研究
ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型

ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型

ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型

三维数字人生成和编辑在数字孪生、元宇宙、游戏、全息通讯等领域有广泛应用。传统三维数字人制作往往费时耗力,近年来研究者提出基于三维生成对抗网络(3D GAN)从 2D 图像中学习三维数字人,极大提高了数字人制作效率。

来自主题: AI资讯
5218 点击    2024-08-12 17:55
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

近日,来自加州大学尔湾分校等机构的研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。

来自主题: AI资讯
8543 点击    2024-08-12 17:11
跨平台多模态智能体基准测试来了!但全班第一只考了35.26分

跨平台多模态智能体基准测试来了!但全班第一只考了35.26分

跨平台多模态智能体基准测试来了!但全班第一只考了35.26分

假如你目前正在使用和研究类似CAMEL的多智能体系统,现在已经有了扮演研究者的Agent和负责写论文的Agent,再添加一个事实核查Agent会改善结果吗?

来自主题: AI资讯
5140 点击    2024-08-09 20:44
GPT-4o模仿人类声音,诡异尖叫引OpenAI研究员恐慌!32页技术报告出炉

GPT-4o模仿人类声音,诡异尖叫引OpenAI研究员恐慌!32页技术报告出炉

GPT-4o模仿人类声音,诡异尖叫引OpenAI研究员恐慌!32页技术报告出炉

【新智元导读】五颗草莓到底指什么?盼了一天一夜,OpenAI只发来一份32页安全报告。报告揭露:在少数情况下,GPT-4o会模仿你的声音说话,或者忽然大叫起来……事情变得有趣了。

来自主题: AI资讯
7256 点击    2024-08-09 16:31
ICML 2024 | 人物交互图像,现在更懂你的提示词了,北大推出基于语义感知的人物交互图像生成框架

ICML 2024 | 人物交互图像,现在更懂你的提示词了,北大推出基于语义感知的人物交互图像生成框架

ICML 2024 | 人物交互图像,现在更懂你的提示词了,北大推出基于语义感知的人物交互图像生成框架

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 MIPL实验室,第一作者为博士生徐铸,通讯作者为博士生导师刘洋。MIPL 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项代表性成果发表,多次荣获国内外 CV 领域重量级竞赛的冠军奖项,和国内外知名高校、科研机构广泛开展合作。

来自主题: AI技术研报
5915 点击    2024-08-08 18:44
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。

来自主题: AI技术研报
9860 点击    2024-08-08 14:41
三「模」联盟,谷歌DeepMind缔造终身学习智能体!

三「模」联盟,谷歌DeepMind缔造终身学习智能体!

三「模」联盟,谷歌DeepMind缔造终身学习智能体!

打造终身学习智能体,是研究界以来一直追求的目标。最近,帝国理工联手谷歌DeepMind打造了创新联合框架扩散增强智能体(DAAG),利用LLM+VLM+DM三大模型,让AI完成迁移学习、高效探索。

来自主题: AI资讯
4011 点击    2024-08-07 19:06
李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型SpatialBot

李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型SpatialBot

李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型SpatialBot

李飞飞老师提出了空间智能 (Spatial Intelligence) 这一概念,作为回应,来自上交、斯坦福、智源、北大、牛津、东大的研究者提出了空间大模型 SpatialBot,并提出了训练数据 SpatialQA 和测试榜单 SpatialBench, 尝试让多模态大模型在通用场景和具身场景下理解深度、理解空间。

来自主题: AI技术研报
10962 点击    2024-08-07 14:12