下面这个,来自《人类的认知协议》的最后一个章节,写于一年前

发布于一年前,2024年12月3日
大致就是:AI 的输出,不应该止步于“文本”
《人类的认知协议》创作的时间背景:
Claude 已经出了 Artifacts,支持在 ChatBot 中渲染网页;Bolt.new 火的正当时,可以快速的构建各种应用
这也不是正儿八经的“协议”或“哲学”,纯粹就是信息带宽有限
所谓的 Prompt,是是我们把意图压缩成 .txt 传给机器,但当机器把结果传回给我们时,如果还是吐出一堆 .txt,那其实是在浪费人类的解码带宽
算账的时候,计算器比文字快看趋势的时候,图表比描述快做决策的时候,交互组件比对话框快
算效率的账:.txt 不如 .exe
过去两年,我们习惯了 Chatbot 的模式
但这种模式有个天然的局限:它是线性的
信息像水流一样逐字流出,是一个字符接着一个字符的 .txt。但我们遇到的问题,往往是结构化的、多维的你让模型对比两款房贷
它给你写几百字的分析,你得耐着性子看完,自己在脑子里画表

这就是现在的体验,读完这一大段话,我的脑子已经过载了
这种交互并没有解决问题,它只是把“计算过程”翻译成了“文字描述”。在很多场景下,这反而是把简单问题复杂化了
大家想要的其实很简单:别跟我废话,给我个工具,让我自己动手
从给答案(Answer),变成给制品(Artifact)从生成文本(Generation),变成渲染界面(Rendering)
这才是该有的样子
昨天发布的两个产品,刚好提供了两份比较典型的样本上午蚂蚁发的“灵光”,夜里 Google 发的 Gemini 3
灵光是蚂蚁的新产品,是业内首个能够生成全模态内容的 AI 助手(官方说法)
这么说看着有点玄乎,放几个官方的 case 吧


还有这种,可以直接做成应用

大致就是,AI 能够生成包括 3D 模型、音频、图标、动画、地图在内的多种模态,让信息传递更高效。就挺有意思的,可以看下他们官方的信息发布:给大家介绍个新朋友,「灵光」!
然后这东西...1天20万用户...

昨天晚上,Google 发布 Gemini 3,具体可以看这里:一文详解|Gemini-3,及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase..
其中,谷歌也把类似的能力加进了搜索,演示的案例是“三体问题”。当你搜这玩意儿的时候,Gemini 3 不再是给你推一堆 .html 的链接,而是利用 coding capabilities,现场编写并渲染一个模拟器
你可以拖动星球,看引力变化

Google 也是拼了,搜个物理题还得现场给你写个游戏引擎
Google 把它叫做“Generative UI”
也包括这个,当询问房贷利率的时候,不是给你示例文字,而是给你拖出来一个可视化计算器,自己摁着看

这是一种很新的搜索
这两家,前后一天,发布了差不多的思路:用户需求,被AI封装成了交互实体

App Store 的护城河,被 AI 被撕开了一个口子
在这里,我相信还有一个更深层的逻辑在发生变化:
长尾理论,正在被重写
长尾理论
这一理论由美国《连线》杂志主编克里斯·安德森提出,是一个描述网络时代商业模式的理论。
在《长尾理论》中,当商品存储、流通和展示的成本显著降低时,大量销量不高但种类繁多的“长尾”小众产品所汇聚的市场份额,可以与少数主流热门产品的市场份额相当甚至更大。
以前我们说长尾,是因为数字货架的存储成本为零。但我们忽略了一点:人类的检索成本,同样是高的
比如,你要去找一个“适合左撇子的番茄钟”得在 App Store 里翻找、下载、试用。这种由于检索摩擦带来的损耗,其实扼杀了绝大多数微小的需求
而现在的这种模式,把逻辑彻底反过来了:没有货架,没有库存,只有需求
当你说出需求的那一刻,方案才被构造出来。这构建了下一代的长尾:原子化的、无限的、即时编译的长尾
它不再是一个通用的 App 试图去满足 1000 个人,而是一个一次性软件,只为了满足你此时此刻的这一分钟
微信当年喊了很久的“用完即走”,最终被 AI 以一种更决绝的方式实现了:只解决需求,用完即焚
纯粹说点八卦,可以跳过
阿里系的两个兄弟,在深秋的同一周,不约而同地把枪口抬高了一寸,去尝试卡位未来的AI入口:
对了...这里我用的是阿里系,而不是阿里,划重点
具体原因是啥,咱也不合适讨论,你可以说“大棋局”或者“赛马机制”,也可以说就是单纯时间上的“撞车”,大概率就是各自的产品迭代节奏赶到这儿了
想看就看这里:始末|通义、千问、Qwen、Qwen Chat 的来龙去脉

注意...灵光属于蚂蚁,蚂蚁是阿里系,但不在阿里集团
巨头的产品矩阵总是拥挤的,多一张牌,多一种可能性
最后,聊个发布会之外的闲话,发布那天,我正好在中关村创业大街AGI Bar 知识蒸馏,在给攒一个具身智能的 after party(中关村具身智能机器人应用大赛),就很抽象、很开心

但看着它们,其实总还是少了点什么,逻辑大体还是“查库”。遇到任务,去数据库里匹配现成的技能。匹配不到,就尬住了
如果把昨天 Google 和蚂蚁展示的这种“现场生成工具”的能力,给到机器人呢?除了后空翻,也让机器人学着去敬酒,也学点商务技能

机器人,也得有业务能力
接个任务,不用查库,直接通过视觉分析环境,现场写一个专用的执行脚本,现场生成一套视觉反馈逻辑

比如...直接来个剪刀石头布
这才是软件和硬件该有的结合现在的 AI 已经能自己写 .exe 了,硬件也快能翻跟头,但这一眼看过去,总觉得中间还隔着层窗户纸
说句双关的玩笑话:现在的机器人,也就是脑子,还欠点“灵光”(os:灵光记得打钱)
文章来自于“赛博禅心”,作者 “金色传说大聪明”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0