
ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频
ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频空间音频,作为一种能够模拟真实听觉环境的技术,正逐渐成为提升沉浸式体验的关键。
空间音频,作为一种能够模拟真实听觉环境的技术,正逐渐成为提升沉浸式体验的关键。
人工智能工具如何重塑教育科技行业版图?
R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。
要么成为自我颠覆者,要么沦为时代旁观者
红杉资本连续三年关注AI应用的盈利压力,指出当前AI市场规模已达万亿美元但面临挑战:智能体技术受限于串行任务瓶颈,行业渗透率差异显著,初创企业需深耕垂直领域或整合人工环节。大模型厂商向下游扩张挤压初创空间,部分企业通过收购强化竞争力,AI应用需从工具转向交付结果以突破盈利困境。
比起此前对生成时长、模型参数的强调,大半年来,不提Sora的AI视频玩家将这场“军备竞赛”的重点放在了三个维度上——卷一致性、卷可用性、卷可玩性。所谓的“一致性”指的是视频生成过程中帧与帧之间的过渡性、动作的连续性和场景的真实性等。
2025年的春天,硅谷弥漫着不安与躁动。#谷歌 的股价走势正在动摇投资者对这个帝国的信心——2月初GOOGL曾短暂触及206美元的历史高点,仿佛一切尽在掌握;但随后如自由落体般下滑,到4月初已跌至145美元附近。
此次开源的 Wan2.1-VACE-1.3B 支持 480P 分辨率,Wan2.1-VACE-14B 支持 480P 和 720P 分辨率。通过 VACE,用户可一站式完成文生视频、图像参考生成、局部编辑与视频扩展等多种任务,无需频繁切换模型或工具,真正实现高效、灵活的视频创作体验。
看了Dia的系统提示词,真的是细节狂魔啊!(提示词放文末了)每个细节都在优化用户的使用体验,这就是产品级AI和玩具级AI的区别。提示词整体结构遵循了"总-分-总"的结构,开头设定整体角色身份的基本认知,然后分项设定规则,最终设定总体的安全策略。
AI算力,卷到天上了!这12颗计算卫星,每一颗都具备太空计算和太空互联的能力,将组成全球首个太空计算星座。它们的背后,是商业航天企业国星宇航牵头发起的“星算”计划。
聊完就忘?当下多数AI助手和开发工具各自独立运行,会话结束上下文即消失,严重影响了使用体验和效率。
热门法律AI 工具 Harvey 于 5 月 13 日在博客中宣布,将不再仅依赖 OpenAI 的基础模型,开始采用 Anthropic 和谷歌的基础模型。
进入2025年,AI的打法逻辑变了。
苹果正试图让你「用脑子」刷 iPhone。
字节拿出了国际顶尖水平的视觉–语言多模态大模型。
美国AI监管或将暂停10年!共和党议员在预算法案中加入条款,禁止联邦和州政府监管AI,同时计划拨款5亿美元推动AI商业化。硅谷欢呼「创新得救」,但反对者警告:DeepFake泛滥、数据隐私失控、环境问题加剧……这场监管与自由的博弈,究竟是AI的黄金时代,还是潘多拉魔盒的开启?
昨晚的文章里,我介绍了一个 12 人团队做的 AI 社交伴侣产品做到 3000 万美金 ARR,它主要通过 AI 的能力释放了年轻人的娱乐和创作体验《12 个人做的 AI 社交产品 ARR 破 3000 万美金,Perplexity 最新估值 140 亿美金》。
Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓!
今年 37 岁的印奇,已经 AI 创业 14 年。他刚渡过了至暗时刻。
最近ContextGem很火。它既不是RAG也不是Agent,而是专注于"结构化提取"的框架,它像一个"文档理解层",通过文档中心设计和神经网络技术(SAT)将非结构化文档转化为精确的结构化数据。它可作为RAG的前置处理器、Agent的感知模块,也可独立使用。
千亿级AI工厂落地中东
OpenAI奥特曼:DALL·E先于ChatGPT,未来聚焦智能体与编程核心。
一觉醒来,听说海外又爆了一个 Agent 产品 ——「Lovart」。
最近,夸克在 AI 圈里的存在感很强。
今年的两篇最佳论文一作均为华人。
已和多家头部IP合作,为其提供智能模组解决方案。
2025年的理想智能体,是什么样子?就在昨天,两款「AI耳机」彻底打破了人们的想象!全新的viaim大脑,直接让贾维斯成真,成为打工人的万能办公搭子。
MICAS是一种专为3D点云上下文学习设计的多粒度采样方法,通过任务自适应点采样和查询特定提示采样,提升模型在点云重建、去噪、配准和分割等任务中的稳健性和适应性,显著优于现有技术。
4 月 25 日是一个特别的日子。
一年一度的折磨毕业生。