汤晓鸥弟子带队:免调优长视频生成,可支持512帧!任何扩散模型都能用|ICLR'24
汤晓鸥弟子带队:免调优长视频生成,可支持512帧!任何扩散模型都能用|ICLR'24想要AI生成更长的视频?现在,有人提出了一个效果很不错的免调优方法,直接就能作用于预训练好的视频扩散模型。
想要AI生成更长的视频?现在,有人提出了一个效果很不错的免调优方法,直接就能作用于预训练好的视频扩散模型。
本文对思维链的推理步长进行了控制变量实验,发现推理步长和答案的准确性是线性相关的,这种影响机制甚至超越了问题本身所产生的差异。
爆肝7个月,谷歌祭出了AI视频大模型Lumiere,直接改变了游戏规则!全新架构让视频时长和一致性全面飞升,时长直接碾压Gen-2和Pika。
近日,小米集团新一代 Kaldi 团队关于语音识别声学模型的论文《Zipformer: A faster and better encoder for automatic speech recognition》被 ICLR 2024 接收为 Oral (Top 1.2%)。
目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。
去年,在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今,关于 Medusa 终于有了完整技术论文,还提供了新的版本。
根据消息人士曝料,微软调集了各组中的精英,组建了一支新的AI团队,专攻小模型,希望能够摆脱对于OpenAI的依赖。
前几天的 2024 达沃斯世界经济论坛上,Sam Altman 谈到了 GPT 发展的一些新的方向及可能性,对于当下大模型的一些现状的分析。
1月16日,AI知识智能技术开发商智谱AI举办了首届技术开放日(Zhipu DevDay),全面展示了其投身大模型事业三年多以来所积累的技术成果,并发布了新一代基座大模型GLM-4。
“AI 是否会取代软件工程师”是自大模型爆火以来程序员们最为关心的一大话题,事关编程的未来与我们每一位程序员。本文作者 Babel CEO、多年的资深程序员张海龙深入技术本质,为我们进行了答疑解惑。