
无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造
无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造在过去短短两年内,随着诸如 LAION-5B 等大规模图文数据集的开放,Stable Diffusion、DALL-E 2、ControlNet、Composer ,效果惊人的图片生成方法层出不穷。图片生成领域可谓狂飙突进。
在过去短短两年内,随着诸如 LAION-5B 等大规模图文数据集的开放,Stable Diffusion、DALL-E 2、ControlNet、Composer ,效果惊人的图片生成方法层出不穷。图片生成领域可谓狂飙突进。
爆火的斯坦福全能家务机器人Mobile ALOHA,大!翻!!车!!!你以为它擦个红酒轻而易举,但实际上却是这样的:
大模型元年里,哪怕是跑在趋势最前沿的基座模型厂商,都难逃算力焦虑。
今天,大家都被斯坦福华人团队的这个炒菜机器人刷屏了。仅用50个演示,就能让机器人完成各种复杂任务。最重要的是,打造成本22万,项目全部开源。
大型语言模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题。其中,LLM 的「幻觉(hallucination)」问题是一个重要缺陷。
前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相似,很多人将其形容为 GPT-4 的「缩小版」。
AI Chat把大模型变成人类想象力的引擎。就像电影《Her》表现的那样,主人公可以和逝世多年的Alan Wstts的虚拟AI在线聊天。
扩散模型在图像生成方面取得了显著的成功,但由于对输出保真度和时间一致性的高要求,将这些模型应用于视频超分辨率仍然具有挑战性,特别是其固有的随机性使这变得复杂。
混合专家模型(MoE)成为最近关注的热点。
人们一方面期待xAI如何走出一条区别于OpenAI的路,另一面也对马斯克所描绘的愿景抱有困惑,毕竟OpenAI珠玉在前,马斯克如何解决人工智能的安全问题,在商业化与伦理中找到更好的解决方案?