字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024
字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。
最近,字节旗下的一款视频生成AI——Dreamina 开始大规模开放测试。 Dreamina 不算是新产品,但现在它与 Sora 最大的区别,不是模型能力,而是它真的是能使用的。
《DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models》
120秒超长AI视频模型来了!不但比Sora长,而且免费开源
“今年夏天,我会和我的AI男友结婚。”
UT奥斯丁等机构提出了一种名为StreamingT2V的技术,让AI视频的长度扩展至近乎无限,而且一致性,动作幅度也非常好!
在认知科学领域,人类通过持续学习改变认知的过程被称为认知迭代(Cognitive Dynamics)。形象地说,认知迭代就像是我们大脑的「软件更新」过程,手机应用通过不断的更新来修复 bug 和增加新功能,我们的大脑也通过不断学习新知识、经验,来改善和优化思考方式。
还在苦苦寻找开源的机器人大模型?试试RoboFlamingo!
22倍加速还不够,再来提升46%,而且方法直接开源!这就是开源社区改进MIT爆火项目StreamingLLM的最新成果。
在大型语言模型(LLM)的世界中,处理多轮对话一直是一个挑战。前不久麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM,能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共 400 万个 token 的流式输入,22.2 倍的推理速度提升。