
DanceGRPO:首个统一视觉生成的强化学习框架
DanceGRPO:首个统一视觉生成的强化学习框架R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。
R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。
红杉资本连续三年关注AI应用的盈利压力,指出当前AI市场规模已达万亿美元但面临挑战:智能体技术受限于串行任务瓶颈,行业渗透率差异显著,初创企业需深耕垂直领域或整合人工环节。大模型厂商向下游扩张挤压初创空间,部分企业通过收购强化竞争力,AI应用需从工具转向交付结果以突破盈利困境。
比起此前对生成时长、模型参数的强调,大半年来,不提Sora的AI视频玩家将这场“军备竞赛”的重点放在了三个维度上——卷一致性、卷可用性、卷可玩性。所谓的“一致性”指的是视频生成过程中帧与帧之间的过渡性、动作的连续性和场景的真实性等。
此次开源的 Wan2.1-VACE-1.3B 支持 480P 分辨率,Wan2.1-VACE-14B 支持 480P 和 720P 分辨率。通过 VACE,用户可一站式完成文生视频、图像参考生成、局部编辑与视频扩展等多种任务,无需频繁切换模型或工具,真正实现高效、灵活的视频创作体验。
热门法律AI 工具 Harvey 于 5 月 13 日在博客中宣布,将不再仅依赖 OpenAI 的基础模型,开始采用 Anthropic 和谷歌的基础模型。
字节拿出了国际顶尖水平的视觉–语言多模态大模型。
Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓!
最近ContextGem很火。它既不是RAG也不是Agent,而是专注于"结构化提取"的框架,它像一个"文档理解层",通过文档中心设计和神经网络技术(SAT)将非结构化文档转化为精确的结构化数据。它可作为RAG的前置处理器、Agent的感知模块,也可独立使用。
MICAS是一种专为3D点云上下文学习设计的多粒度采样方法,通过任务自适应点采样和查询特定提示采样,提升模型在点云重建、去噪、配准和分割等任务中的稳健性和适应性,显著优于现有技术。
随着生成式人工智能技术的飞速发展,合成数据正日益成为大模型训练的重要组成部分。未来的 GPT 系列语言模型不可避免地将依赖于由人工数据和合成数据混合构成的大规模语料。