讯飞星火X1单挑满血版DeepSeek-R1,全国产算力单机部署!中国AI再下一城
讯飞星火X1单挑满血版DeepSeek-R1,全国产算力单机部署!中国AI再下一城就在昨天,全国产算力训出的讯飞星火X1全面升级!70B小身板在数学领域全面领先,性能直接对标OpenAI o1和DeepSeek-R1。单机部署成本骤降,彻底颠覆行业应用门槛。
就在昨天,全国产算力训出的讯飞星火X1全面升级!70B小身板在数学领域全面领先,性能直接对标OpenAI o1和DeepSeek-R1。单机部署成本骤降,彻底颠覆行业应用门槛。
给DeepSeek-R1推理指导,它的数学推理能力就开始暴涨。更令人吃惊是,Qwen2.5-14B居然给出了此前从未见过的希尔伯特问题的反例!而人类为此耗费了27年。研究者预言:LLM离破解NP-hard问题,已经又近了一步。
随着R1等先进推理模型展现出接近人类的推理能力,多代理系统(Multi-Agent Systems,MAS)的发展也出现了前所未有的机遇。然而,随着我们尝试构建越来越复杂的多代理系统,一个核心问题日益凸显:如何在保持系统灵活性的同时,降低开发和维护的复杂度?
今年在巴塞罗那的 MWC 上,有一家运营商宣布与顶级 AI 公司合作打造智能手机。而现在,德国电信Deutsche Telekom(DT)宣布正在构建一款“AI Phone”。这是一款与 Perplexity 以及 Picsart 等公司紧密合作打造的低成本手机,同时推出了一款名为“Magenta AI”的新 AI 助手应用。
上周DeepSeek连续5天开源硬核技术,阿里开源万相2.1,Qwen的推理模型推出预览版,但是肯定马上也要开源。而今天,智谱这个曾经的开源之光,在昨天官宣拿了杭州10亿融资之后,在官宣文章里如此写道:
今天想介绍一个 17 岁的华裔大学生,他最近做的一个 AI Wrapper 产品,发布 5 小时收入就突破了 1 万美金,随后在发布的推文火了之后又通过线上会议 Google Meet 的售后承诺在 24 小时赚到了 3 万美金。
国内首个原生AI IDE(集成开发环境),来自字节,实测在此:哪怕一点代码都不懂,只要能说出自己的需求,就能靠AI开发出一个功能完备的应用。例如如果你想做一个Flappy Bird游戏,那就用中文跟它说一声就行:
要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准,各家模型出街时人手一份,但局限性也开始暴露,比如覆盖范围狭窄(通常不足 50 个学科),不含长尾知识;缺乏足够挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。
在 DeepSeek 生成的文本中,有 74.2% 的文本在风格上与 OpenAI 模型具有惊人的相似性?这是一项新研究得出的结论。这项研究来自 Copyleaks—— 一个专注于检测文本中的抄袭和 AI 生成内容的平台。
AFFiNE,一个开源的 AI 协作知识库,集成了完整文档、白板和数据库的工作空间。累计融资 1000 万美元,开源项目在 Github 上超过 4.5 万 stars。创始人、CEO 贺嘉琛,连续创业者。创业前研究天体物理,毕业于格拉斯哥与香港科技大学。