下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳候选图像来实际改善生成的图像。
VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳候选图像来实际改善生成的图像。
Ichigo[1] 是一个开放的、持续进行的研究项目,目标是将基于文本的大型语言模型(LLM)扩展,使其具备原生的“听力”能力。
Segment Anything Model 2(SAM 2)在传统视频目标分割任务大放异彩,引起了众多关注。然而,港中文和上海 AI Lab 的研究团队发现 SAM 2 的贪婪选择策略容易陷入「错误累积」的问题,即一次错误的分割掩码选择将影响后续帧的分割结果,导致整个视频分割性能的下降。这个问题在长视频分割任务中显得更加严重。
OpenAI 不仅专注于软件,还要深入硬件研究。
来自生命科学的前沿研究,始终是化妆品行业创新的重要源泉。而在探索生命科学的边界中,人工智能 (以下简称:AI) 技术正成为一个不可或缺的研究工具,尤其是在蛋白质科学领域,AI技术的应用正在揭开蛋白质的神秘面纱。
Meta 发布新闻稿,介绍了旗下 FAIR(基础人工智能研究)团队对于机器人触觉感知能力的研究情况,这项研究旨在让机器人通过触觉方式进一步理解和操作外界物体。
来自中科大等单位的研究团队共同提出了用来有效评估多模态大模型预训练质量的评估指标 Modality Integration Rate(MIR),能够快速准确地评估多模态预训练的模态对齐程度。
39年来一个看似理所当然的数学理论,刚刚被数学家证伪!UCLA和MIT的研究者证实:概率论中众所周知的假设「上下铺猜想」是错的。有趣的是,他们用AI已经证明到了99.99%的程度,但最终,靠的还是理论论证。
斯坦福大学奥马尔(Omar)的DSPy研究团队最近更新了他们的项目文档,发了很多不错的案例,以及很多国际知名企业的DSPy用例,这些可能对您的项目有启发。
AI技术日新月异,像Netflix这样的大公司已经开始用AI制作特效,而新的AI模型也在游戏和科学研究中超越了人类。未来一年,我们可能会看到没有编程技能的人也能创造热门应用,甚至AI创作的歌曲也可能登上音乐排行榜前十。