想让LLM精确输出?试下XML格式Prompt语法约束解码GCD,帮你迭代收敛到稳定解
想让LLM精确输出?试下XML格式Prompt语法约束解码GCD,帮你迭代收敛到稳定解随着Agent的爆发,大型语言模型(LLM)的应用不再局限于生成日常对话,而是越来越多地被要求输出像JSON或XML这样的结构化数据。这种结构化输出对于确保安全性、与其他软件系统互操作以及执行下游自动化任务至关重要。
随着Agent的爆发,大型语言模型(LLM)的应用不再局限于生成日常对话,而是越来越多地被要求输出像JSON或XML这样的结构化数据。这种结构化输出对于确保安全性、与其他软件系统互操作以及执行下游自动化任务至关重要。
Nano Banana如此火爆,让谷歌DeepMind CEO哈萨比斯在最新访谈中又一次聊起了AGI。Nano Banana当然不是AGI,但它也体现了哈萨比斯认为AGI系统所需的一些关键能力和特征。
这个世界,终于魔幻到我看不懂的程度了。故事是这样的。我最近刷淘宝挺多,然后昨天,鬼使神差的,在淘宝上,搜了一下DeepSeek。没有特定的理由,就是心血来潮,就是单纯的,想看看现在的生态。
OpenAI o3的多轮视觉推理,有开源平替版了。并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到数十轮。
自动化修复真实世界的软件缺陷问题是自动化程序修复研究社区的长期目标。然而,如何自动化解决视觉软件缺陷仍然是一个尚未充分探索的领域。最近,随着 SWE-bench 团队发布最新的多模态 Issue 修复
最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的最后一个token上完成,而不是分散在所有token中。
为应对这些挑战,来自华为诺亚方舟实验室,德国达姆施塔特工业大学,英国伦敦大学学院,帝国理工学院和牛津大学的研究者们联合推出了 Ark —— 一个基于 Python 的机器人开发框架,支持快速原型构建,并可便捷地在仿真和真实机器人系统上部署新算法。
谷歌这只「香蕉」火得有些疯狂:Nano Banana(即 Gemini 2.5 Flash Image)自 8 月底上线以来,仅用几周就吸引了超过 1,000 万新用户,并在 Gemini 应用中完成了 2 亿次图像编辑请求
本文来自加州大学圣克鲁兹分校(UCSC)、苹果公司(Apple)与加州大学伯克利分校(UCB)的合作研究。第一作者刘彦青,本科毕业于浙江大学,现为UCSC博士生,研究方向包括多模态理解、视觉-语言预训
OpenAI Codex编程智能体大升级: 推出GPT-5-Codex特化版模型,支持独立连续编程7个小时。还有IDE插件版,在VS Code、Cursor中都可以使用Codex了。新模型最牛的地方在于“真·动态思考”能力。
最强不敢说,但最快实锤了! 刚刚,xAI发布Grok 4 Fast,生成速度高达每秒75个 token,比标准版快10倍! 从下面的动图中,我们可以直观地看出差距——当左边的Grok 4还在说“让我想一下的时候”,Grok 4 Fast已经在说:“下一个问题是什么了。”
就在刚刚,Anthropic 发布了一报告,名字听上去有点学术腔——《人类经济指数》。 但别被这个名字骗了,它是一份非常具体、非常当下的观察笔记,可以说和我们息息相关。 原文链接:https://ww
GPT-5 的发布,可以看作是一个分水岭。练习时长两年半的 GPT-5,并没有展现出和 GPT-4 本质上的差别,甚至因为模型的预设人格引发了用户的反感情绪。
时薪900美元的AI工程师正成为咨询界新贵,直接挑战麦肯锡等传统巨头。面对高达95%的企业AI项目失败率,传统MBA式顾问空有战略却难落地。为此,Hasura推出了一种新型「AI工程师顾问」应运而生,他们不仅能提供策略,更能亲手编码、部署,弥合了从构想到现实的鸿沟。
机器人叠衣服赚钱的第一个工作场地:洗衣房。从业者是Weave Robotic的Isaacs,专门为做家务打造的,目前已经在付费洗衣房Tumble Laundry上岗了。值得一提的是,Weave Robotic是前苹果团队创立的,在没有产品正式亮相时就已经完成了三轮融资。
没offer?大胆要求加试!OpenAI新员工Bas的求职之路:真诚是武器,直接问「我怎么才能通过」,至少救活一次面试。求职博弈,从头到尾都是艺术。
让AI生成的图像更符合人类精细偏好,在32块H20上训练10分钟就能收敛。腾讯混元新方法让微调的FLUX1.dev模型人工评估的真实感和美学评分提高3倍以上。
见过省电的模型,但这么省电的,还是第一次见。 在 《自然》 杂志发表的一篇论文中,加州大学洛杉矶分校 Shiqi Chen 等人描述了一种几乎不消耗电量的 AI 图像生成器的开发。
上周,漫剧的大量数据公布,让行业内外对这一内容形态的增速有了更全面的体感。但漫剧赛道无疑仍处于用数量博爆款的初期,什么样的漫剧更有爆相,怎样提高测出率乃至于爆款率——诸如此类的问题仍然难有定论。
霸榜苹果应用榜的ChatGPT,终于被真·超越了! Nano Banana掀起破圈热潮之后,谷歌Gemini登顶成新王。 并且不止美区,包括在印度、加拿大、摩洛哥等地,Gemini全部实现登顶。
卧槽!看到一个增长巨快的擦边赛道案例!巨吸金。
“氛围编码”留下的烂摊子,终究要让那些被裁掉的人回来收拾。
噫吁嚱! 那个昔日叱咤风云的开源框架——TensorFlow,已然是行将就木了。
华人 95 后“叫板”谷歌搜索,联合创办 AI 搜索公司融资 6 亿多元!2021 年,美国哈佛大学华人校友 Jeffrey Wang 和室友威尔·布莱克(Will Bryk)创办了一家名为 Exa 的 AI 搜索公司。经过几年的发展,其于当地时间 2025 年 9 月 3 日宣布已筹集到 8500 万美元的 B 轮融资(约等于 6.16 亿人民币),公司估值达到 7 亿美元。
你有没有想过,AI 陪伴这件事可能从一开始就走错了方向?当 Replika、Character.AI 这些平台让用户与 AI 聊天机器人建立一对一关系时,我们是在解决孤独问题,还是在加剧它?这个问题值得深思,因为一家来自柏林的创业公司 Born 刚刚用 1500 万美元的 A 轮融资,向整个行业提出了一个完全不同的答案:真正的 AI 陪伴不应该让人更孤立,而应该让人更好地连接。
今天咱们来聊一下,哪些AI办公产品真的能帮你干活?
你有没有想过,为什么那些最聪明、最赚钱的人,会突然放弃年薪百万美元的工作去创业?29岁的Harry Qi就做了这样一个决定。这位在23岁时就已经成为对冲基金顶级量化交易员的天才,放弃了接近7位数的年终奖金,和两个同样优秀的朋友一起创办了Motion。
近日,Gamma 创始人 Grant Lee 首次公开了公司的真实营收数据: 月经常性收入(MRR)已达到 480 万美元,折算年经常性收入(ARR)超过 5000 万美元。
在讨论 AGI 或者通用机器人定义时,人们往往会自然联想到一些直观的衡量标准,比如 AI 能否解出高考题、在国际数学奥林匹克(IMO,International Mathematical Olympiad)上获得金牌,或者机器人能否胜任家务。
AI正在以意想不到的方式进入现实政治舞台:阿尔巴尼亚成为全球首个任命「AI部长」的国家,虚拟系统Diella将全面负责公共采购项目,以对抗长期困扰该国的腐败问题。