
谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。
谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。
距离YOLOv8发布仅1年的时间,v9诞生了!
继 2023 年 1 月 YOLOv8 正式发布一年多以后,YOLOv9 终于来了!
近日,北大、斯坦福、以及Pika Labs发布了新的开源文生图框架,利用多模态LLM的能力成功解决文生图两大难题,表现超越SDXL和DALL·E 3
多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。
2024 年 1 月 29 日,波形智能(AIWaves)于杭州举办首个技术开放日(AIWaves DevDay),正式发布新一代自主研发的中文内容创作垂域 SOTA 大模型「Weaver」,及由其驱动的面向用户写作类 Agent 产品「蛙蛙写作 1.0」。
Mixtral 8x7B模型开源后,AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B,在主流基准测试中击败了Mixtral Instruct。
最近来自浙江大学ReLER实验室的研究人员提出SIFU模型,一种侧视图条件隐函数模型用于单张图片3D人体重建。模型通过引入人体侧视图作为先验条件,并结合扩散模型进行纹理增强,在几何与纹理重建测试中均达到SOTA,并且在真实世界中具有多种应用场景。
如何从一段视频中找出感兴趣的片段?时序行为检测(Temporal Action Localization,TAL)是一种常用方法。过去TAL中的建模是片段甚至实例级的,而现在只要视频里的一帧就能实现,效果媲美全监督。
一句话定位视频片段