
画到哪,动到哪!字节跳动发布视频生成「神笔马良」ATI,已开源!
画到哪,动到哪!字节跳动发布视频生成「神笔马良」ATI,已开源!近年来,随着扩散模型(Diffusion Models)、Transformer 架构与高性能视觉理解模型的蓬勃发展,视频生成任务取得了令人瞩目的进展。从静态图像生成视频的任务(Image-to-Video generation)尤其受到关注,其关键优势在于:能够以最小的信息输入生成具有丰富时间连续性与空间一致性的动态内容。
近年来,随着扩散模型(Diffusion Models)、Transformer 架构与高性能视觉理解模型的蓬勃发展,视频生成任务取得了令人瞩目的进展。从静态图像生成视频的任务(Image-to-Video generation)尤其受到关注,其关键优势在于:能够以最小的信息输入生成具有丰富时间连续性与空间一致性的动态内容。
AI 行业的挖人大戏仍在继续上演。 据 The Information 报道,Anthropic Claude Code 的两位负责人被 AI 编程应用 Cursor 的开发商 Anysphere 挖走了。
在AI音乐创作工具日益涌现的当下,近期,一款叫作Mozart AI的应用闯进土耳其iOS音乐榜前十,引发了笔者的关注。它以“图生乐”这一模式切入AI音乐赛道,在过去一年的实现了400万下载量,并创造出超过170万美元的年收入(iOS与Google Play合计)。
AI 会计初创公司 Campfire 于 6 月 30 日宣布完成 3500 万美元 A 轮融资,由 Accel 领投,Foundation Capital、Y Combinator、Capital 49 以及 Mercury 首席财务官 Dan Kang 等天使投资人跟投。
6 月 17 日,一款 AI 占星产品 Starla-Call the Universe 进入了 iOS 美国下载总榜前 10,当笔者以为这又是一个昙花一现的产品时,它不仅能够持续坚守榜单 Top 10 长达半个月,而且到了 6 月 24 日,另一款产品 Astra-Life Advice 也进入了美榜前 10,两款同类产品相继进入 Top 10,并双双持续在榜超 1 周的时间。
过去几年,通用视觉模型(Vision Generalist Model,简称 VGM)曾是计算机视觉领域的研究热点。
清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直接判别优化(DDO)。
大约 7 年前,我发布了一个名为 SDK Monitor 的小工具应用,用来监控设备上安装的所有应用使用的 targetSDK API 级别。当时正值 Google 开始强制推行 targetSDK 最低版本限制(现在要求至少是去年的版本),于是我的原始应用很快就变旧了。随着时间的推移,我甚至已经无法再打开 Android Studio 去维护它了——开发环境和技术体系早已焕然一新。
扩散模型(Diffusion Models, DMs)近年来展现出巨大的潜力,在计算机视觉和自然语言处理等诸多任务中取得了显著进展,而异常检测(Anomaly Detection, AD)作为人工智能领域的关键研究任务,在工业制造、金融风控、医疗诊断等众多实际场景中发挥着重要作用。
近年来,随着视觉生成模型的发展,视觉生成任务的输入序列长度逐渐增长(高分辨率生成,视频多帧生成,可达到 10K-100K)。