
7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法
7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法通过蒙特卡洛树搜索筛选高难度样本,ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力,无需知识蒸馏,为高效训练提供了新思路。
通过蒙特卡洛树搜索筛选高难度样本,ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力,无需知识蒸馏,为高效训练提供了新思路。
这里介绍一下Vidu,Vidu是由生数科技联合清华大学正式发布的中国首个长时长、高一致性、高动态性视频大模型。Vidu在语义理解、推理速度、动态幅度等方面具备领先优势,并上线了全球首个“多主体参考”功能,突破视频模型一致性生成难题,开启了视觉上下文时代。最近上线了 Vidu Q1 的高质量视频大模型,不仅视频效果质感更高,而且性价比很不错。
Magi-1,开源于北京,五道口
人与AI不是对手,是“战友”。
去年4月播出的动画《转生贵族凭鉴定技能扭转人生》,其片头出现了“生成AI技术协力”字样。今年1月,一部完全由AI生成的动画《八云与SETSU的怪谈事件薄》登陆关西电视频道。2025年3月播出的番剧《Twins HinaHima》,也标注全片使用生成式AI辅助。
目前的视频生成技术大多是在短视频数据上训练,推理时则通过滑动窗口等策略,逐步扩展生成的视频长度。然而,这种方式无法充分利用视频的长时上下文信息,容易导致生成内容在时序上出现潜在的不一致性。
国产大模型Vidu Q1横空出世,荣登全球视频生成榜首!支持1080p高清画质,好莱坞级首尾帧运镜,细节逼真到爆。更惊艳的是,价格仅是同行1/10,每秒低至0.3元。
视频生成领域,又出现一位重量级开源选手。
新国产AI视频生成模型横空出世,一夜间全网刷屏。Magi-1,首个实现顶级画质输出的自回归视频生成模型,模型权重、代码100%开源。整整61页的技术报告中还详细介绍了创新的注意力改进和推理基础设施设计,给人一种视频版DeepSeek的感觉。
动画片和我们拍摄的视频其实还是有很大不一样的。一般来说,我们平时观看的大多数电视剧使用25帧/秒的帧率,大多数电影使用24帧/秒的帧率。对于摄像机而言,帧率的调节无非是改一改摄影设备的参数,即使是胶片时代,也仅仅是胶片使用量的区别,对人工影响不大。