
无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造
无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造在过去短短两年内,随着诸如 LAION-5B 等大规模图文数据集的开放,Stable Diffusion、DALL-E 2、ControlNet、Composer ,效果惊人的图片生成方法层出不穷。图片生成领域可谓狂飙突进。
在过去短短两年内,随着诸如 LAION-5B 等大规模图文数据集的开放,Stable Diffusion、DALL-E 2、ControlNet、Composer ,效果惊人的图片生成方法层出不穷。图片生成领域可谓狂飙突进。
在 AI 领域,近年来各个子领域都逐渐向 transformer 架构靠拢,只有文生图和文生视频一直以 diffusion + u-net 结构作为主流方向。diffusion 有更公开可用的开源模型,消耗的计算资源也更少。
“发光的水母从海洋中慢慢升起,”在 Morph Studio 中继续输入想看到的景象,“在夜空中变成闪闪发光的星座”。
年4月钉钉春季峰会上,钉钉“个人版”首次曝光,经过半年多时间的内测和改造,2024年1月4日钉钉个人版正式全量上线,iOS、安卓、Mac、Windows四端全面开放。
大型语言模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题。其中,LLM 的「幻觉(hallucination)」问题是一个重要缺陷。
Hyena处理长序列输入比FlashAttention速度高100倍!最新发布的StripedHyena模型可能成下一代AI架构的新标准?
前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相似,很多人将其形容为 GPT-4 的「缩小版」。
首个视觉、语言、音频和动作多模态模型Unified-IO 2来了!它能够完成多种多模态的任务,在超过30个基准测试中展现出了卓越性能。
比互联网时代机会规模大10倍,但三分之二机会可能是大公司的。面对此次以生成式AI掀起的产业创新浪潮,硅谷技术VC——Fusion Fund的创始人张璐给出这样的论断。
2023年即将过去,回想这一年,你有没有什么印象深刻的科技新闻关键词?遥遥领先、ChatGPT、Vision Pro……不论是在开发新产品,还是在提供新体验上,这一年,大大小小的科技公司动作不断。