硅谷热议:最快语音转文字模型Scribe v2 Realtime
硅谷热议:最快语音转文字模型Scribe v2 Realtime来自AI语音独角兽公司ElevenLabs,刚刚发布了Scribe v2 Realtime实时语音转文本模型,网友表示:Next-Level。150毫秒的超低延迟,93.5%的高准确率,还覆盖了90多种语言。
来自AI语音独角兽公司ElevenLabs,刚刚发布了Scribe v2 Realtime实时语音转文本模型,网友表示:Next-Level。150毫秒的超低延迟,93.5%的高准确率,还覆盖了90多种语言。
没有直播,OpenAI一早放大招,让所有人猝不及防。就在刚刚,GPT-5.1正式发布,GPT-5系列重大升级版登场!一共有三个版本,目前已经上线了前两个: GPT-5.1 Instant :最常用的模型,语气更亲切、更智能,更善于遵循指令,GPT-5.1 Thinking :先进的推理模型,更易于理解,处理简单任务速度更快,处理复杂任务更具持久力。
最近,谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的「天书」账本,而且还修正了里面的格式错误和模糊表述,展现出的推理能力令历史学家震惊。
就在今天,罗福莉以C位之姿,首次对外官宣了小米任职。刚刚,罗福莉在X上高调宣布——正式加入小米,出任MiMo团队负责人。智能的进化必然会从语言世界走向物理世界,解锁多模态的空间智能——具备感知、推理、生成与行动的能力,这是实现真正通用人工智能(AGI)的关键一步。
曾在英伟达身上错过2500亿美金的孙正义,如今再次用脚投票,他赌的是:AI的未来,不在于制造铲子的英伟达,而在于定义金矿的OpenAI。
家人们,今天上午我被 Kimi 一个 0.99 元的订阅游戏给彻底“套头”了。。。。
华为在世界模型上又有新动作:投了一家物理AI公司。
在学校里,用白色字体凑字数,原本都是土到不能再土的招数了,现在都没什么人用了。没想到,2025 年了,居然还能派上用场。
AI To B 突围的新解法就在非共识里。
“我最近喉咙像刀割一样痛,还伴随鼻塞,但没有咳嗽……这是染上流感,还是又中招了?”
一位在互联网上近乎「隐形」的27岁创始人,却同时赢得奥特曼与孙正义的重注,豪言要打造一个「现代贝尔实验室」。
硅谷华人大三学生创立的教育类 AI 产品 VideoTutor,近日宣布完成 1100 万美元种子轮融资,成为硅谷学生创业中融资规模最高的项目。
创意工作流的“奇点”已经到来。曾经耗费团队数周的角色设计、风格探索和分镜绘制,如今在Nano Banana中被压缩到几分钟。高度一致的角色、一键迁移的风格、拖拽完成的复杂编辑。
这是一期慢慢碰撞出来,而且在录制完毕后仍然没有“结束”的播客。让我讲一讲它的缘起:
天下 AI Coding 产品如过江之鲫。正当我们在策划「Vibe Coding 产品千千万,谁是你的 No.1」活动时,我们发现了 ZOER.AI,让我们眼前一亮。ZOER.AI 是一个主打「Database-First」(数据库优先)的全栈应用构建平台,旨在解决当前 AI Coding 工具「前端能力强、后端能力弱」的结构性问题。
AMD半年发起4笔AI收购。
一场针对四五线城市老年人的“AI围猎”正在上演。
Kimi K2 Thinking训练真的只花了460万美元?杨植麟亲自带队,月之暗面创始团队出面回应了。这不是官方数据。训练成本很难计算,因为其中很大一部分用于研究和实验。他们还透露训练使用了配备Infiniband的英伟达H800,GPU数量也比巨头的少,但充分利用了每一张卡。
工具解放人,人去创造。
谷歌花27亿美元(约192亿人民币)挖来的Transformer“贡献最大”作者Noam Shazzer,现在点燃了火药桶。
11 月初,英伟达 CEO 黄仁勋在接受《金融时报》采访时称中国将在 AI 竞赛中击败美国,其中一个原因在于中国的能源成本更低。而在做出这样的直白表态之后,黄仁勋又在另一份简短声明中做了补充说明,他说中国在 AI 技术领域只落后美国一点点,并指出对于美国而言保持领先地位至关重要。
机器人觉醒:控制范式退场,认知时代降临
AI万丈高楼,终究要建在物理世界的地基之上。没有电,再强的GPU也只是一堆沙子。
「紫荆智康」日前完成近亿元天使轮融资,由星连资本领投,英诺天使和尚势资本跟投,本轮融资将主要用于紫荆AI医院(Agent Hospital)系统的研发、迭代与升级。紫荆智康成立于2024年9月,由清华大学智能产业研究院(AIR)孵化,清华大学计算机系教授、智能产业研究院执行院长刘洋发起
在7000多种人类语言中,只有少数被现代语音技术听见,如今这种不平等或将被打破。Meta发布的Omnilingual ASR系统能识别1600多种语言,并可通过少量示例快速学会新语言。以开源与社区共创为核心,这项技术让每一种声音都有机会登上AI的舞台。
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 忍无可忍,LeCun离职Meta。 金融时报消息,LeCun向同事透露了自己的离职计划,下一步打算创业。 数个月的重重挤兑之下,一忍再忍的LeC
编程模型最新卷王来了。就在今天,火山引擎推出了面向Agentic编程任务深度优化的全新代码模型Doubao-Seed-Code。价格,调用价格国内最低,火山引擎还配套推出9块9套餐,一杯咖啡钱,就能搞定各种摸鱼小游戏——比如办公室躲老板(doge)。
昨晚,商汤正式发布并开源SenseNova-SI系列空间智能大模型,涵盖2B与8B两个版本。该系列模型在多个空间智能基准测试中均表现突出,其中SenseNova-SI-8B模型在VSI-Bench、MMSI-Bench、MindCube-Tiny与ViewSpatial四个核心任务上获得60.99的平均成绩
淘金者可能一无所获,但只要有人去淘金,铲子就总有销路。
2020年,当Grant Lee决定从微软的高级产品经理岗位上抽身而出时,他心中有一个巨大的“冲突”:他服务过的企业用户,每年要花费数百万小时在PowerPoint上进行重复的、毫无美感可言的排版工作。这些沉重且效率低下的工具,似乎成为了现代办公中不可撼动的“数字官僚主义”。Lee相信,这种低效的、基于静态幻灯片的演示方式,在即将到来的AI时代将彻底终结。他需要一把“剃刀”,来切断这种低效的循环。