长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman随着内容创作智能化需求的爆发,长时长、高质量数字人视频生成始终是行业痛点。近日,字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动人物视频生成模型 ——InfinityHuman,打破传统音频驱动技术在长视频场景中的局限性,开启 AI 数字人实用化新征程
随着内容创作智能化需求的爆发,长时长、高质量数字人视频生成始终是行业痛点。近日,字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动人物视频生成模型 ——InfinityHuman,打破传统音频驱动技术在长视频场景中的局限性,开启 AI 数字人实用化新征程
天啦噜,搞大模型的实在太疯狂了。
你有没有想过,AI 不仅能记住过去的一切,还能预见未知的未来?
大模型爆发以来,围绕AI陪伴、AI教育、AI玩具等领域的创业一茬接一茬。但对于什么是合适的硬件形态、交互模态,市场还未有一个PMF的成功样板。
豆包也不想演了。 这场疑似夺嫡的戏码,是从一个“送命题”开始的。
头部科技公司已经开始卡位新AI时代软硬件一体能力,一个判断是,只能做硬件或只能做软件的公司或许都会损失一部分竞争力
据申妈朋友圈报道,字节Seed大模型视觉基础研究团队负责人冯佳时已正式离职。根据其在字节的职级体系判断,他的级别应在4-1或4-2之间,属于公司最为稀缺的核心研究序列。冯佳时后续去向或是AI创业。
Memory 一直是 AI 产品的技术「痛点」和必争之地。因为决定用户留存,很多有野心的创业者在思考如何借助 AI 长期化时,都会聚焦 AI + Memory 领域。
进入 2025 年,GUI Agent 赛道热度逐渐抬升 —— OpenAI 推出 Operator 并发布了 ChatGPT Agent,字节则发布了 UI-TARS-1.5 定位 GUI 开源方案。但大多数产品依然依赖本地执行,难以 24h 稳定运行。
开源赛道也是热闹了起来。 就在深夜,字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型,包含三个版本: Seed-OSS-36B-Base(含合成数据) Seed-OSS-36B-Base(不含合成数据) Seed-OSS-36B-Instruct(指令微调版)