
最懂医疗的国产推理大模型,果然来自百川智能
最懂医疗的国产推理大模型,果然来自百川智能就在本周,Kimi 的新模型打开了强化学习 Scaling 新范式,DeepSeek R1 用开源的方式「接班了 OpenAI」,谷歌则把 Gemini 2.0 Flash Thinking 的上下文长度延伸到了 1M。1 月 24 日上午,百川智能重磅发布了国内首个全场景深度思考模型,把这一轮军备竞赛推向了高潮。
就在本周,Kimi 的新模型打开了强化学习 Scaling 新范式,DeepSeek R1 用开源的方式「接班了 OpenAI」,谷歌则把 Gemini 2.0 Flash Thinking 的上下文长度延伸到了 1M。1 月 24 日上午,百川智能重磅发布了国内首个全场景深度思考模型,把这一轮军备竞赛推向了高潮。
就在国内各家大模型厂商趁年底疯狂卷的时候,太平洋的另一端也没闲着。 就在今天,谷歌发布了 Gemini 2.0 Flash Thinking 推理模型的加强版,并再次登顶 Chatbot Arena 排行榜。
模型蒸馏也有「度」,过度蒸馏,只会导致模型性能下降。最近,来自中科院、北大等多家机构提出全新框架,从两个关键要素去评估和量化蒸馏模型的影响。结果发现,除了豆包、Claude、Gemini之外,大部分开/闭源LLM蒸馏程度过高。
初创公司DeepWriter宣布:世界第一部完全由AI写作的10万字商业竞争书籍诞生了!全程没有人类参与工作,不到4小时,即可完成约10万单词的商业书籍创作。
本期《智者访谈》邀请到著名开源语音识别项目 Kaldi 的创始人、小米集团语音首席科学家 Daniel Povey 博士。作为推动全球智能语音处理产业化的关键人物,他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前,他在微软研究院的实习生,如今已成为 Google Gemini 等标志性项目的负责人。
谷歌推出的FACTS Grounding基准测试,能评估AI模型在特定上下文中生成准确文本的能力,有助于提升模型的可靠性;通过去除不满足用户需求的回复,确保了评分的准确性和模型排名的公正性。
智能体在模拟人类合作行为的捐赠者游戏中表现出不同策略,其中Claude 3.5智能体展现出更有效的合作和惩罚搭便车行为的能力,而Gemini 1.5 Flash和GPT-4o则表现得更自私,结果揭示了不同LLM智能体在合作任务中的道德和行为差异,对未来人机协同社会具有重要意义。
按照惯例,三星通常会在每年1月举行Galaxy Unpacked特别活动,Galaxy S系列旗舰新品也将在这场活动中发布。不过,今年的情况似乎有些特殊,或许是Galaxy S24系列销量太好,截至12月中旬,三星仍没有开启预热活动。
今天和大家分享一个我最近搞定的小工具,简单来说,它可以一句话生成一个完整的网页应用,成本低到不可思议——一毛钱就能实现一句话生成应用,甚至配合之前文章提到过的 open router[1] 上的开源 Google 的 Gemini2.0 免费大模型,完全 0 成本!
上线一周, gemini-2.0-flash-exp、gemini-2.0-flash-thinking-exp 已经成为了我日常对话频率最高的模型之一。