大模型:从 .txt 到 .exe

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大模型:从 .txt 到 .exe
9758点击    2025-11-20 10:04

下面这个,来自《人类的认知协议》的最后一个章节,写于一年前


大模型:从 .txt 到 .exe

发布于一年前,2024年12月3日


大致就是:AI 的输出,不应该止步于“文本”


《人类的认知协议》创作的时间背景:


Claude 已经出了 Artifacts,支持在 ChatBot 中渲染网页;Bolt.new 火的正当时,可以快速的构建各种应用


这也不是正儿八经的“协议”或“哲学”,纯粹就是信息带宽有限


所谓的 Prompt,是是我们把意图压缩成 .txt 传给机器,但当机器把结果传回给我们时,如果还是吐出一堆 .txt,那其实是在浪费人类的解码带宽


算账的时候,计算器比文字快看趋势的时候,图表比描述快做决策的时候,交互组件比对话框快


算效率的账:.txt 不如 .exe


别给我 .txt


过去两年,我们习惯了 Chatbot 的模式


但这种模式有个天然的局限:它是线性的


信息像水流一样逐字流出,是一个字符接着一个字符的 .txt。但我们遇到的问题,往往是结构化的、多维的你让模型对比两款房贷


它给你写几百字的分析,你得耐着性子看完,自己在脑子里画表


大模型:从 .txt 到 .exe

这就是现在的体验,读完这一大段话,我的脑子已经过载了


这种交互并没有解决问题,它只是把“计算过程”翻译成了“文字描述”。在很多场景下,这反而是把简单问题复杂化了


大家想要的其实很简单:别跟我废话,给我个工具,让我自己动手


从给答案(Answer),变成给制品(Artifact)从生成文本(Generation),变成渲染界面(Rendering)


这才是该有的样子


两份样本


昨天发布的两个产品,刚好提供了两份比较典型的样本上午蚂蚁发的“灵光”,夜里 Google 发的 Gemini 3


先说灵光


灵光是蚂蚁的新产品,是业内首个能够生成全模态内容的 AI 助手(官方说法)


这么说看着有点玄乎,放几个官方的 case 吧


大模型:从 .txt 到 .exe


大模型:从 .txt 到 .exe


还有这种,可以直接做成应用


大模型:从 .txt 到 .exe


大致就是,AI 能够生成包括 3D 模型、音频、图标、动画、地图在内的多种模态,让信息传递更高效。就挺有意思的,可以看下他们官方的信息发布:给大家介绍个新朋友,「灵光」!


然后这东西...1天20万用户...


大模型:从 .txt 到 .exe


再说谷歌


昨天晚上,Google 发布 Gemini 3,具体可以看这里:一文详解|Gemini-3,及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase..


其中,谷歌也把类似的能力加进了搜索,演示的案例是“三体问题”。当你搜这玩意儿的时候,Gemini 3 不再是给你推一堆 .html 的链接,而是利用 coding capabilities,现场编写并渲染一个模拟器


你可以拖动星球,看引力变化


大模型:从 .txt 到 .exe

Google 也是拼了,搜个物理题还得现场给你写个游戏引擎


Google 把它叫做“Generative UI”


也包括这个,当询问房贷利率的时候,不是给你示例文字,而是给你拖出来一个可视化计算器,自己摁着看


大模型:从 .txt 到 .exe

这是一种很新的搜索


这两家,前后一天,发布了差不多的思路:用户需求,被AI封装成了交互实体


大模型:从 .txt 到 .exe

App Store 的护城河,被 AI 被撕开了一个口子


在这里,我相信还有一个更深层的逻辑在发生变化:


长尾理论,正在被重写


长尾理论


这一理论由美国《连线》杂志主编克里斯·安德森提出,是一个描述网络时代商业模式的理论。


在《长尾理论》中,当商品存储、流通和展示的成本显著降低时,大量销量不高但种类繁多的“长尾”小众产品所汇聚的市场份额,可以与少数主流热门产品的市场份额相当甚至更大。


以前我们说长尾,是因为数字货架的存储成本为零。但我们忽略了一点:人类的检索成本,同样是高的


比如,你要去找一个“适合左撇子的番茄钟”得在 App Store 里翻找、下载、试用。这种由于检索摩擦带来的损耗,其实扼杀了绝大多数微小的需求


而现在的这种模式,把逻辑彻底反过来了:没有货架,没有库存,只有需求


当你说出需求的那一刻,方案才被构造出来。这构建了下一代的长尾原子化的、无限的、即时编译的长尾


它不再是一个通用的 App 试图去满足 1000 个人,而是一个一次性软件,只为了满足你此时此刻的这一分钟


微信当年喊了很久的“用完即走”,最终被 AI 以一种更决绝的方式实现了:只解决需求,用完即焚


奇怪的番外


纯粹说点八卦,可以跳过


阿里系的两个兄弟,在深秋的同一周,不约而同地把枪口抬高了一寸,去尝试卡位未来的AI入口:


  • 通义突然改名,去掉了“通义”这个 B 端的抬头,直接叫“千问”
  • 蚂蚁反手掏出“灵光”,剑走偏锋,死磕 Agent 和工具生成


对了...这里我用的是阿里系,而不是阿里,划重点


具体原因是啥,咱也不合适讨论,你可以说“大棋局”或者“赛马机制”,也可以说就是单纯时间上的“撞车”,大概率就是各自的产品迭代节奏赶到这儿了


想看就看这里:始末|通义、千问、Qwen、Qwen Chat 的来龙去脉


大模型:从 .txt 到 .exe

注意...灵光属于蚂蚁,蚂蚁是阿里系,但不在阿里集团


巨头的产品矩阵总是拥挤的,多一张牌,多一种可能性


身体与脑子


最后,聊个发布会之外的闲话,发布那天,我正好在中关村创业大街AGI Bar 知识蒸馏,在给攒一个具身智能的 after party(中关村具身智能机器人应用大赛),就很抽象、很开心


大模型:从 .txt 到 .exe


但看着它们,其实总还是少了点什么,逻辑大体还是“查库”。遇到任务,去数据库里匹配现成的技能。匹配不到,就尬住了


如果把昨天 Google 和蚂蚁展示的这种“现场生成工具”的能力,给到机器人呢?除了后空翻,也让机器人学着去敬酒,也学点商务技能


大模型:从 .txt 到 .exe

机器人,也得有业务能力


接个任务,不用查库,直接通过视觉分析环境,现场写一个专用的执行脚本,现场生成一套视觉反馈逻辑


大模型:从 .txt 到 .exe

比如...直接来个剪刀石头布


这才是软件和硬件该有的结合现在的 AI 已经能自己写 .exe 了,硬件也快能翻跟头,但这一眼看过去,总觉得中间还隔着层窗户纸


说句双关的玩笑话:现在的机器人,也就是脑子,还欠点“灵光”(os:灵光记得打钱)


文章来自于“赛博禅心”,作者 “金色传说大聪明”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0