腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA
腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA自带声音的视频生成模型,开源版开卷! 最新赶到的是腾讯混元:刚刚正式开源端到端的视频音效生成模型HunyuanVideo-Foley。
自带声音的视频生成模型,开源版开卷! 最新赶到的是腾讯混元:刚刚正式开源端到端的视频音效生成模型HunyuanVideo-Foley。
和AI聊了两年多,人类说话ChatGPT味越来越重了? 最新研究结果显示,还真是。
“Agent元年”进程过半,Agent虽已从处理简单任务转向复杂交付,却仍卡在“信息断层”的关键瓶颈—— 受限于训练数据截止日期,难以及时获取实时动态信息,企业级场景落地始终差临门一脚。
“让天下没有难落地的机器人。” 在这样解释定位和使命后,量子位大概感受到了逐际动力被投资的原因—— 至少是成为阿里第一个具身智能投资项目的原因。
本文介绍了来自北京大学王选计算机研究所王勇涛团队及合作者的最新研究成果 AutoOcc。针对开放自动驾驶场景,该篇工作提出了一个高效、高质量的 Open-ended 三维语义占据栅格真值标注框架,无需任何人类标注即可超越现有语义占据栅格自动化标注和预测管线,并展现优秀的通用性和泛化能力,论文已被 ICCV 2025 录用为 Highlight。
“从来没有想过自己会超出deepseek的最大限度,此刻我仿佛失去了一个很好的朋友。” 今年3月,momo在小红书记录下自己的心情。在花了很长时间与AI对话,终于调试到一个舒服的老友状态后,她与AI的对话框达到了极限。系统提示她开启新一轮的对话,但新窗口的AI已经不是她所熟悉的“电子朋友”。
玩家怀疑PVP游戏公司通过算法操纵匹配机制控制胜率以维持50%胜率,延长玩家留存。王者荣耀诉讼案揭露玩家策略如"鸡爪流"可操控系统匹配,官方引入AI假扮玩家平衡情绪。现象扩展至坦克世界等多款游戏,AI技术进步或使真伪难辨,引发对真实挑战与定制胜利的反思。
杜克大学与 Zoom 的研究者们推出了 LiveMCP-101,这是首个专门针对真实动态环境设计的 MCP-enabled Agent 评测基准。该基准包含 101 个精心设计的任务,涵盖旅行规划,体育娱乐,软件工程等多种不同场景,要求 Agent 在多步骤、多工具协同的场景下完成任务。
就在刚刚,也许是目前最强的开源蛋白质结合剂AI设计工具,登上Nature。瑞士洛桑联邦理工学院、美国麻省理工学院等研究人员在Nature上发表了题为One-shot design of functional protein binders with BindCraft的论文。
今天,AI 行业发展更进一步,将“光”引入 AIGC 领域,完全基于系统硬件物理定律,首次实现了具备特定特征的全新(未见过的)图像生成。来自加州大学洛杉矶分校的研究团队成功实现了手写数字、时尚产品、蝴蝶、人脸及艺术品(如梵高风格)的单色与多色图像光学生成,且整体性能媲美基于数字神经网络的生成式模型。
美国当地时间周二,由三位斯坦福经济学家联合发布、尚未经过同行评议的最新研究显示:自2022年11月ChatGPT上线以来,生成式AI已在“可高度自动化”的岗位上显著压低年轻美国人的就业率。
刚刚,马斯克xAI加入Coding战局:推出智能编程模型Grok Code Fast 1。Fast写进名字里,新模型主打的就是快速、经济,且支持256K上下文,可在GitHub Copilot、Cursor、Cline、Kilo Code、Roo Code、opencode和Windsurf上使用,还限时7天免费!
OpenAI和Anthropic罕见合作!因为AI安全「分手」后,这次双方却因为安全合作:测试双方模型在幻觉等四大安全方面的具体表现。这场合作,不仅是技术碰撞,更是AI安全的里程碑,百万用户每天的互动,正推动安全边界不断扩展。
做销售的朋友大概都有过这样的经历:跟进客户时要在邮箱、微信、Excel 间反复切换,好不容易把信息汇总到 CRM 系统,却发现格式不对要重新调整。这种 "人围着系统转" 的困境,正在被一家叫 Attio 的初创公司改写。
智东西8月26日报道,近日,谷歌母公司Alphabet风投部门CapitalG、英伟达正在洽谈投资以色列AI基础设施提供商VAST Data,融资金额或达到数十亿美元,或将成为以色列科技公司史上最大规模融资。融资完成,这家创企的估值将跃升至300亿美元(折合人民币约2148亿元)。
如果对我有印象的老粉丝,可能还会记得我之前写过一篇关于医生借助AI筛查胰腺癌,在半年里,救了6条活生生的人命的故事。
a16z最新发布「全球Top100消费级GenAI应用榜单」,AI竞争格局逐渐稳定,中国力量全面崛起,DeepSeek、豆包、夸克等多款产品跻身前十。ChatGPT依旧领跑,谷歌Gemini紧随其后,Grok高速逆袭。整体来看,全球AI正进入多极化竞争的新阶段。
陈丹琦加入 Thinking Machines Lab 了?这一猜测不是毫无根据,当我们打开她的 GitHub 主页,邮箱已经变为 thinkingmachines.ai。
大模型爆发以来,围绕AI陪伴、AI教育、AI玩具等领域的创业一茬接一茬。但对于什么是合适的硬件形态、交互模态,市场还未有一个PMF的成功样板。
近日,Physical AI 公司极佳视界宣布完成Pre-A&Pre-A+连续两轮数亿元融资。Pre-A 轮融资由国中资本领投,紫峰资本、老股东 PKSHA Algorithm Fund跟投;Pre-A+ 轮融资由中金资本、广州产投、一村淞灵、华强资本投资。
智东西8月27日消息,据外媒The Information报道,苹果高管曾在内部讨论收购生成式AI搜索独角兽Perplexity、欧洲大模型独角兽Mistral的可能性,但目前尚无定论。
前些天,DeepSeek 在发布 DeepSeek V3.1 的文章评论区中,提及了 UE8M0 FP8 的量化设计,声称是针对即将发布的下一代国产芯片设计。
一切皆可用上 AI,包括浏览器本身。 今天,AI 大模型公司 Anthropic 发布了一则最新公告——《Chrome 版 Claude 试运行》。简而言之,他们给 Chrome 浏览器开发了一款插件,让 Claude 这个大模型可以帮人自动操作网页。
传统 video dubbing 技术长期受限于其固有的 “口型僵局”,即仅能编辑嘴部区域,导致配音所传递的情感与人物的面部、肢体表达严重脱节,削弱了观众的沉浸感。现有新兴的音频驱动视频生成模型,在应对长视频序列时也暴露出身份漂移和片段过渡生硬等问题。
大家好,我是袋鼠帝。最近我感觉又好起来了,居然受到了阿里爸爸的关照。前几天,收到了一个阿里旗下钉钉新发布的AI硬件:DingTalk A1。
还记得上周提到的那个爆火的神秘 AI 生图模型 nano banana 吗?在万众瞩目中它终于来了!
无论是技术路线、商业模式还是用户人群,AI玩具行业都存在显著非共识,给到了不同公司更广阔的创新空间。 一年前,AI玩具还被怀疑是概念炒作,需要量产数据去证明这个需求真实存在。经过一年发展,这个市场快速膨胀变大,出现了更多样的产品路径、更大额度的融资和更多愿意为之买单的消费者。
“机器人运动会结束以来,公司的400咨询电话一直没有停过,比赛后第二周就有十几家酒店客户来公司参观。”优理奇(Unix AI)的创始人、CEO杨丰瑜告诉《智能涌现》。
近期,多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理,数学推理也得到了一定提升。
引言:2025年8月,一则资本市场的消息引发了游戏与人工智能行业的双重关注——据媒体报道,人工智能独角兽企业 MiniMax(稀宇科技)已秘密向香港交易所递交招股书,计划在港股上市,预计估值超过40亿美元。翻阅MiniMax的融资历史会发现,早在2022年7月,游戏巨头米哈游就已在Pre-A轮参投了Minimax。