各家 AI 眼镜都在卷“看”,Sesame 赌“听”。
10 月 21 日,TechCrunch 报道,之前一直以 AI 语音初创公司示人的 Sesame,完成了 2.5 亿美元的 B 轮融资,投资方包括红杉资本、Spark Capital 及其他未公开的投资者。随后,Sesame 创始人 Brendan Iribe 也在个人社媒账号上发帖,证实该消息。

Brendan Iribe 为 Sesame 创始人兼 CEO|图源 X
我们最早关注到 Sesame 是在今年 3 月,其语音合成模型 Conversational Speech Model(CSM)因为“能像真人一样说话”,在 X 上引发热议。Sesame 推出的 2 个 AI 语音助手(女声 Maya、男声 Miles),在对话节奏、情感表达和上下一致性上表现都很出色(详见往期测评《ElevenLabs 的最强竞争对手,Sesame 的语音模型真能媲美真人?》)。
The Verge 评价“Sesame 做得比其他所有语音助手都要好”,公司也曾因此获得由 a16z 领投的 4750 万美元 A 轮融资,彼时,距其完成 1010 万美元的种子轮融资不过 3 个月。
近一年,AI 语音赛道上产品更新频繁,TTS 模型层出不穷,也有不少公司拿下融资。但 Sesame 的融资消息值得关注,是因为其融资金额远超于同行水平,同时,Sesame 这一次拿钱不仅是因为语音模型,还因为 AI 眼镜,这一大厂和创企都在争夺的流量入口。

报道明确将 Sesame 定位为 AI 创企
和智能眼镜制造商|图源 TechCrunch
其实,Sesame 从创立之初就开始了对智能眼镜的布局,目标是制造出可全天佩戴的轻便型眼镜。这一布局与其创始团队的基因也关系密切,Sesame 联创 Brendan Iribe 此前曾创立 Oculus,头戴式 VR 显示器 Oculus Rift 是其核心产品(Oculus 后被 Meta 收购,但 2017 年 Meta 宣布关闭 VR 内容制作部门)。另一位创始人 Ankit Kumar,则曾是 AR 初创公司 Ubiquity6 的首席技术官。
由于目前关于 Sesame 智能眼镜的公开信息较少,具体设计和功能暂无定论,但结合相关报道和官网显示的公司愿景来看,在智能眼镜中嵌入“使用自然人声、与用户互动的 AI Agent”,将是 Sesame 的重点。

图源|TechCrunch、Sesame
近半年,AI 眼镜赛道同样集中爆发,除了早就与 Ray-Ban 达成合作的 Meta,三星、苹果、小米、百度等厂商也纷纷入局,此前甚至不少传言称,字节去年就已经着手研发 AI 眼镜。以 Meta 和 Rokid 这 2 家国内外厂商为代表,纵观目前已发布的眼镜产品,大家似乎都把重点放在了视觉相关的功能上。
今年 9 月,Meta 在 Connect 开发者大会上推出了三款定位不同的智能眼镜。首款搭载了高解析度显示屏的 Meta Ray-Ban Display 作为核心产品被推出;第二代 Ray-Ban Meta 的升级集中在影像功能上;针对专业运动员推出的 Oakley Meta Vanguard 也搭载了广角镜头,还支持 3K 视频录制与防抖、慢动作等摄影模式。而众筹百万美元、5 天售空 4 万台的 Rokid,宣传重点也都放在 Micro LED 显示屏和支持 HDR 技术的摄像头上。

Meta Ray-Ban Display(左)和
Rokid(右)|图源 Meta 、Rokid 公众号
同时,相较于其他 AI 眼镜目前多将语音表现放在实用性功能上(如智能问答、通话、翻译、音乐播放等),Sesame 表示其智能眼镜以期通过声音,成为和用户“一起观察世界的 AI 伙伴”。也就是说,当大家时都在卷“看”时,Sesame 计划从“听”的角度切入,把“真正能对话的语音 Agent”作为智能眼镜的价值核心。
而红杉领投 2.5 亿美元,看重的就是 Sesame“切换入局角度”带来的可能。红杉表示,其团队曾花了几个小时与 Maya 和 Miles 交谈,对其个性和对话节奏印象深刻,并给出了“这种体验与我们之前使用过的任何产品都不同”的高度评价。

图源|红杉官网
目前,Sesame 已经向部分特定用户开放了其 iOS 应用,为其 AI Agent 做早期测试,官方称其具备“搜索、发短信和思考”功能。作为以语音功能为核心、追求成为富有人味 AI 伙伴的智能眼镜,Sesame 或将面临口语表达中的语义理解、上下文记忆、续航和轻量化设计等技术难点;使用过程中,如何识别场景,并在合适的时间提供信息提示,以及隐私安全上都有待考量。我们也将持续关注 Sesame 的后续发展。

关于硬件信息 Sesame 社区经理 Ben Rodrian
回复表示产品足够优秀,不担心竞争|图源 Discord
数据来自SimilarWeb、点点数据、Semrush、广大大等三方平台,可能与真实数据中存在一定误差,仅供参考。
文章来自于微信公众号 “AI无象限”,作者 “AI无象限”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales