
OpenAI最强模型惨遭剖脑,CoT写下作弊自白书!不写代码耍心机被当场抓包
OpenAI最强模型惨遭剖脑,CoT写下作弊自白书!不写代码耍心机被当场抓包如今的前沿推理模型,学会出来的作弊手段可谓五花八门,比如放弃认真写代码,开始费劲心思钻系统漏洞!为此,OpenAI研究者开启了「CoT监控」大法,让它的小伎俩被其他模型戳穿。然而可怕的是,这个方法虽好,却让模型变得更狡猾了……
如今的前沿推理模型,学会出来的作弊手段可谓五花八门,比如放弃认真写代码,开始费劲心思钻系统漏洞!为此,OpenAI研究者开启了「CoT监控」大法,让它的小伎俩被其他模型戳穿。然而可怕的是,这个方法虽好,却让模型变得更狡猾了……
2024年对我用AI来做独立开发,最大的意义就是回本了。谈到“回本”,主要是指我们作为Apple Developer,每年需要支付99美金的会员费。第一年的99美金,相当于我的学费。当时我发布了一个名为“裁切大师”的应用,带来了约40多美金的收入
最近,Manus 发布并迅速火遍了中文互联网。在深度使用了 Manus 以后,我觉得这个产品确实充满了启发。它抓住了 Agentic AI 产品竞争中非常重要的一方面,也就是复利效应。
下面这个,不是 Manus,是 OpenAI 新货:凌晨 1 点的时候,OpenAI 发布了全套 Agent 开发套件,让手搓 Manus 触手可及。套件包含 4 个主要内容Responses API:本次发布会的核心,可视作 Chat API 的上位升级
乙巳新春,中国的推理大模型DeepSeek R1火爆全球。作为一款在推理能力上媲美OpenAI的o1且收费标准远低于o1的国产大模型,DeepSeek一时间在国内刮起一股扑面而来的全民AI风潮,并不令人意外,但这款来自大厂体系外创业团队的开源大模型,经由数位外国商界领袖与技术大佬口碑相传并最终形成在外国新闻媒体上“刷屏”的效果,则是非常耐人寻味了。
日前,阿里国际站总裁张阔在接受《南华早报》等多家外媒专访时透露,面向海外买家推出的AI搜索引擎Accio企业用户已超百万。2月,阿里国际站的全线AI产品相继接入Qwen2.5、DeepSeek等先进推理模型,尤其是原生AI应用Accio的推出,让阿里国际站的AI应用引发全球高度关注。
2025年3月11日,AI智能体领域迎来惊天反转:Manus团队宣布与阿里通义千问达成战略合作,双方将基于国产开源模型重构Manus全部功能。这一决策直接回应了3月5日产品发布后遭遇的“破解危机”——因过度依赖Claude Sonnet模型,Manus被质疑为“工具集成商”,甚至开源社区迅速推出复刻版OpenManus。
今天凌晨,亚马逊云科技宣布在Amazon Bedrock平台上推出全托管、无服务器的DeepSeek-R1模型,是首个提供DeepSeek-R1作为全托管、正式商用模型的海外云厂商。
在32道高等数学测试中,LLM表现出色,平均能得分90.4(按百分制计算)。GPT-4o和Mistral AI更是几乎没错!向量计算、几何分析、积分计算、优化问题等,高等AI模型轻松拿捏。研究发现,再提示(Re-Prompting)对提升准确率至关重要。
斯坦福李飞飞团队在「保姆型」机器人上新突破!提出BRS综合框架,以后机器人执行日常家务更自主、更可靠。
百度再战AI社交。
每年开春的“新机潮”,今年出尽风头的是DeepSeek。
硅基智能开源数字人模型,1秒克隆生成4K视频,支持离线多语言。GitHub可部署。
o3-mini成功挑战图论中专家级证明,还得到了陶哲轩盛赞。经过实测后,他总结称LLM并非是数学研究万能解法,其价值取决于问题得性质和调教AI的方式。
和雇主用的AI招聘工具们来一场“中门对狙”
首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种!
从随机残基分布开始,逐步生成新的蛋白质结构
挑战多图数学推理新基准,大模型直接全军覆没?!
前段时间,幻方科技、DeepSeek 创始人梁文锋亲自挂名的一篇论文传遍了全球互联网。
没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗?
今天给大家看个新东西,聊一聊我在怎么防AI洗稿。。。
o1/o3这样的推理模型太强大,一有机会就会利用漏洞作弊,怎么办?
武汉大学等发布了一篇大型视觉语言模型(LVLMs)安全性的综述论文,提出了一个系统性的安全分类框架,涵盖攻击、防御和评估,并对最新模型DeepSeek Janus-Pro进行了安全性测试,发现其在安全性上存在明显短板。
为什么必须像评估劳动力一样评估LLM代理,而不仅仅是评估软件。
本文介绍了一项突破性的AI推理技术创新——思维草图(SoT)框架。该框架从人类认知过程中获取灵感,通过一个200M大小的路由模型将LLM引导到概念链、分块符号化和专家词汇三种推理范式,巧妙地解决了大语言模型推理过程中的效率瓶颈。
在 ICLR 2025 中,来自南洋理工大学 S-Lab、上海 AI Lab、北京大学以及香港大学的研究者提出的基于 Flow Matching 技术的全新 3D 生成框架 GaussianAnything,针对现有问题引入了一种交互式的点云结构化潜空间,实现了可扩展的、高质量的 3D 生成,并支持几何-纹理解耦生成与可控编辑能力。
自 2025 年伊始,Cursor、WindSurf、Trae 等 Agentic AI 编程工具开始席卷开发领域。然而与过往的 GenAI 技术类似,这些 Agentic AI 技术同样面临着小规模 demo 惊艳,产品化实战翻车的困境——它们生成一两千行的小型原型轻而易举。自我迭代、自动 Debug、快速交付,整个过程行云流水。
北京时间3月10日,彭博科技报道称,ServiceNow公司接近达成收购人工智能公司Moveworks的交易,交易价格接近30亿美元。
ChatGPT 平地一声雷,打乱了很多人、很多行业的轨迹和节奏。这两年模型发布的数量更是数不胜数,其中文本大模型就占据了 AIGC 赛道的半壁江山。关注我的家人们永远都是抢占 AI 高地的冲锋者。
随着推理模型能力提升,本周Agent也进入刷屏周。