
小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?
小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?本期《智者访谈》邀请到著名开源语音识别项目 Kaldi 的创始人、小米集团语音首席科学家 Daniel Povey 博士。作为推动全球智能语音处理产业化的关键人物,他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前,他在微软研究院的实习生,如今已成为 Google Gemini 等标志性项目的负责人。
本期《智者访谈》邀请到著名开源语音识别项目 Kaldi 的创始人、小米集团语音首席科学家 Daniel Povey 博士。作为推动全球智能语音处理产业化的关键人物,他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前,他在微软研究院的实习生,如今已成为 Google Gemini 等标志性项目的负责人。
谷歌推出的FACTS Grounding基准测试,能评估AI模型在特定上下文中生成准确文本的能力,有助于提升模型的可靠性;通过去除不满足用户需求的回复,确保了评分的准确性和模型排名的公正性。
智能体在模拟人类合作行为的捐赠者游戏中表现出不同策略,其中Claude 3.5智能体展现出更有效的合作和惩罚搭便车行为的能力,而Gemini 1.5 Flash和GPT-4o则表现得更自私,结果揭示了不同LLM智能体在合作任务中的道德和行为差异,对未来人机协同社会具有重要意义。
按照惯例,三星通常会在每年1月举行Galaxy Unpacked特别活动,Galaxy S系列旗舰新品也将在这场活动中发布。不过,今年的情况似乎有些特殊,或许是Galaxy S24系列销量太好,截至12月中旬,三星仍没有开启预热活动。
今天和大家分享一个我最近搞定的小工具,简单来说,它可以一句话生成一个完整的网页应用,成本低到不可思议——一毛钱就能实现一句话生成应用,甚至配合之前文章提到过的 open router[1] 上的开源 Google 的 Gemini2.0 免费大模型,完全 0 成本!
上线一周, gemini-2.0-flash-exp、gemini-2.0-flash-thinking-exp 已经成为了我日常对话频率最高的模型之一。
随着Gemini家族的日趋完善、阵容的发展壮大,谷歌大模型将可代表用户完成更多现实工作。
不仅能推理,还能明确展示自己「推理逻辑」的大模型出现了。 OpenAI 的 12 天连续发布已近尾声,但它的热度显然已经被谷歌夺去了许多。从 Gemini 2.0 Flash 到 Veo 2 到今天的 Gemini 2.0 Flash Thinking,谷歌端上来的菜真是一道比一道香。
谷歌版o1来了!在奥特曼“双十二”倒数第二天——他们发布Gemini 2.0 Flash Thinking,顾名思义,以闪电般的速度解决复杂问题并展示其思考过程的实验模型。
Gemini 2.0说说话就能一键P图的功能爆火,把玩不了的大伙儿都馋哭了!