
Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源
Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源深夜,沉寂已久的Kimi突然发布了新模型—— 开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA。
深夜,沉寂已久的Kimi突然发布了新模型—— 开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA。
在苹果AI中国版一片静默之际,阿里出牌了。
在开源模型领域,DeepSeek 又带来了惊喜。
如果你也在用 Cursor 或者类似的 AI 编程神器,我敢打赌,你每个月的 AI 调用次数(Request)至少浪费了90%!
你有没有想过,那些每天花费数千美元、耗时数月的市场调研项目,竟然可以在几天内完成,成本还能降低81%?当我看到Outset这家仅有14名员工的旧金山创业公司刚刚完成1700万美元A轮融资时,我意识到一个存在了几十年的行业正在被彻底颠覆。
假作真时真亦假,无为有处有还无。
未来AI路线图曝光!谷歌发明了Transformer,但在路线图中承认:现有注意力机制无法实现「无限上下文」,这意味着下一代AI架构,必须「从头重写」。Transformer的时代,真的要终结了吗?在未来,谷歌到底有何打算?
国产推理大模型又有重磅选手。MiniMax开源MiniMax-M1,迅速引起热议。
HR部门的AI“军备竞赛”已经打响
当碳基生物还在为写文献综述,打开了一百个浏览器窗口时,隔壁AI已经卷起来了。(doge)
Anthropic 前两天发了一篇文章,重点讨论了他们是如何通过多智能体系统来构建 claude 的“深度研究功能”。
图像生成界的“大魔王”Midjourney也来卷视频生成了?!
5月15日晚,区瀚楠、陈睿轩走进了上海浦东的一栋民宿。 这里没有食物、没有智能手机、没有浏览器、没有APP,只有一台预装AI工具的联网电脑、一部非智能手机、一瓶饮用水和100元生存资金,他们将在这个封闭房间里依靠AI工具生存72小时。
CVPR 2025,自动驾驶传来重大进展: Scaling Law,首次在这条赛道被验证!
AI 角色扮演、AI 情感陪伴……更多 AI 交互方式的出现正在重新定义“社交”。
“蔚公子,DeepSeek核对两个Excel表格怎么做啊?”小伙伴上周问我。
AI迈入经验时代,2025 年 6 月 6 日,第七届北京智源大会在北京正式开幕,强化学习奠基人、2025年图灵奖得主、加拿大计算机科学家Richard S. Sutton以“欢迎来到经验时代”为题发表主旨演讲
上周六,我受邀参加了由 TGO 鲲鹏会 举办的全球科技领导力大会(GTLC),回到了熟悉的深圳,做了一场题为《MCP 的发展与未来》的分享。
我们常把LangGraph、RAG、memory、evals等工具比作乐高积木,经验丰富的人知道如何搭配使用,就能迅速解决问题
思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型(MLLMs)中,CoT 同样展现出了巨大潜力。
近年来,链式推理和强化学习已经被广泛应用于大语言模型,让大语言模型的推理能力得到了显著提升。
近日,南京因克斯智能科技有限公司(以下简称“因克斯”)宣布,继2024年10月完成首轮天使轮融资之后,已连续完成两轮新的融资,新投资方包括锦秋基金、德石投资、深创投集团、复星创富等知名投资机构,同时绿洲资本、水木创投、拉尔夫创投等天使轮投资方持续追加投资。明论资本担任独家财务顾问。
百川智能、零一万物、智谱核心高管出走,京东悄悄挖人。 智东西6月16日报道,今年上半年,“大模型六小虎”中的智谱、MiniMax、零一万物、百川智能、阶跃星辰5家企业,共被曝13位AI高管变动,其中有12位出走、1位新入职
您有没有发现一个奇怪的现象:同样是Vibe coding,有些人轻松拿到完整的Flask应用,有些人却只得到几行if-else语句?剑桥大学计算机科学与技术系的研究者们最近发布了一项研究,用科学的方法证实了我们的直觉——AI确实会"看人下菜碟"。
从数字工具到数字队友的进化之路 神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。
特朗普政府的AI大计划还没正式亮相,就在GitHub泄露了!一个叫ai.gov的网站即将上线,要把AI塞进政府每个角落。聊天机器人、超级API、实时监控工具,野心大到吓人,但网友们已经开怼:这靠谱吗?
过去一段时间,“通用 Agent”成了 AI 应用的默认发展方向。无论产品叙事还是技术布局,大家似乎都在追求一个“什么都能做”的智能体。但现实逐渐显露:通用 Agent 在真实世界中并不那么“通用”。
推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限
未中顶会,没有发表arXiv,一篇博客却成为OpenAI速通票。天才科学家Keller Jordan仅凭Muon优化器博客加入OpenAI。甚至,它可能被用于训练下一代超级模型GPT-5。