本文的第一作者(排名第一) 唐家祺 为香港科技大学 HKUST Visual Intelligence Lab博士生,共同第一作者包括严莹莹,王乾宙,夏宇阳,耿博同和陈建民。通信作者包括陈启峰教授(香港科技大学)和魏巍教授(西北工业大学)。
当你在手机地图上查看实时路况,当天气预报准确预警台风路径,当农业部门监测到作物病虫害——这一切背后,都离不开遥感技术。然而,传统的遥感数据分析更像是「眼睛」:它能看见,却很难理解;它能执行指令,却不会主动思考。
如今,一场由 AI 智能体驱动的变革正在发生。近日,来自香港科技大学、西北工业大学、清华大学等多家高校及研究机构的学者联合发布了遥感 AI 智能体领域系统综述。全文逾万字,首次为「遥感智能体」给出了严格定义,系统梳理了其架构、应用、数据集与未来方向。
这项研究宣告:遥感正从被动感知走向主动认知,从单一工具演变为能规划、会记忆、可协作的「地理空间智能体」。


图 1:展示了近十年来遥感智能体的发展脉络,从早期的单智能体探索到 2024-2026 年多智能体系统的爆发。
这篇综述的贡献可以概括为四点:
与通用大语言模型不同,遥感智能体不仅要会「说」,更要会「做」。论文给出了一个严谨的数学定义,但通俗地理解:它是一个能理解用户高层目标、自主拆解任务、调用专业工具(如 GIS 软件、气象数据、在线知识库),甚至指挥卫星或无人机去获取新数据的智能系统。

图 2:展示了智能体的核心模块:感知、规划、记忆、动作,以及与环境的交互。在 wildfire 示例中,智能体通过卫星影像感知火情,结合气象数据规划预测模型,调用无人机执行侦察任务,并将结果存入记忆库供后续使用。
比如,你不再需要告诉它「用 NDVI 指数分析这片农田」,而是可以直接问:「看看我负责的区域里,哪些田块最近可能缺水了?」智能体便会自己规划:获取多光谱影像、计算植被指数、比对历史数据、排除干扰因素,最后生成带地图的报告——全程无需人工干预。
这种能力的背后,是四个核心模块的协同工作:
规划策略:从「照剧本演戏」到「即兴演出」

图 3 左:开环规划在任务开始前生成固定流程,适合静态数据;右:闭环规划根据工具输出、环境变化和任务目标实时调整计划。
记忆机制:让智能体「越用越聪明」

图 4:展示了智能体如何通过上下文记忆和结构化状态存储维持工作流连贯性,并通过经验池和知识库实现跨任务复用。
动作执行:从「动嘴」到「动手」

图 5:动作执行
多智能体协作:1+1>2 的群体智慧

图 6 左:集中式协作中,中央控制器分配任务、汇总结果;右:分布式协作中,多个智能体通过共享内存和批评协商达成共识。
面对全球尺度的监测或复杂灾害响应,单一智能体力不从心。综述区分了两种协作模式:

AI 智能体在城市治理中实现感知、分析与行为生成的闭环。AirSpatialBot 通过空间感知 VLM 完成三维场景下的精细车辆识别与检索;ChatGeoAI 与 GeoGPT 将自然语言指令转化为 GIS 工具链,自动化空间分析与推理;LLMob 与 AgentMove 则利用个体记忆与集体模式模拟城市居民行为轨迹,LLMLight 通过语言推理优化交通信号控制,推动城市管理从被动响应向主动干预演进。
智能体将遥感分析与农业决策深度融合。GeoLLM-Squad 通过多智能体协作自动化 NDVI 等指标计算;AgriGPT 借助检索增强处理复杂农艺查询;ChatLeafDisease 基于思维链从图像直接诊断作物健康。同时,数据驱动的 ABM(如 Data-Driven ABM)学习政府与农户行为偏好,支持土地利用优化,为精准农业提供从感知到决策的完整支撑。
智能体赋能生态系统从定量评估到政策分析的全链条。REO-VLM 突破分类局限,直接回归预测地上生物量;TREE-GPT 集成林业知识库与 SAM 模型实现单木级结构提取;CLEAR 利用 LLM 检索摘要气候政策,提升决策可及性;EarthLink 与 DA4DTE 自动化气候科学研究工作流与数据发现,将卫星观测转化为可操作的生态叙事。
智能体在海洋科学推理与自主航行控制两大方向取得突破。WaterGPT 与 OceanGPT 分别针对水文与海洋科学,集成工具调用与多智能体协作,支持数据处理、知识问答与任务决策;Autonomous Vehicle Maneuvering 与 Agyei 等人的工作将视觉-LLM 嵌入航海仿真与水面无人艇闭环控制,实现动态环境下的路径规划与可解释决策,推动海洋监管向智能化、自主化发展。
智能体在灾害监测与建模决策中展现关键价值。RescueADI 通过规划-感知-识别链支持自适应多步解释;UAV-CodeAgents 利用多智能体 ReAct 协作动态重规划无人机任务;FIRE-VLM 在数字孪生中实现火线追踪。Knowledge-Guided wildfire、ESCAPE、FLARE 与 WildfireGPT 分别通过领域知识注入、认知智能体建模、行为理论结合 RAG 等,提升火势模拟、地震疏散与应急问答的精准度与时效性。
智能体将地质解释与勘探自动化推向新高度。PEACE 与 STA-CoT 通过领域知识注入与多智能体链式推理,实现全图信息提取与多影像地质推理;Geo-MMRAG 构建多模态地质知识库,利用检索增强缓解岩性识别歧义;MineAgent 与 GeoAgent 通过模块化框架与工具调用,自动化端到端勘探流程,并引入专用基准 MineBench,显著提升矿物勘探的智能化水平。
智能体的性能高度依赖数据和评测方法。综述系统整理了现有资源(详见正文):
尽管前景广阔,遥感智能体仍面临重重难关:
面向未来,论文指出了五个关键方向:
这篇万字综述不仅为遥感 AI 智能体搭建了统一的理论框架,更是一份面向实践的行动指南。它预示着未来的遥感系统将不再是沉默的「眼睛」,而是能思考、会行动、可对话的「地理空间智能体」。
当 AI 智能体真正理解地球的每一寸变化,一个更智慧、更可持续的未来或许就在眼前。
文章来自于微信公众号 “机器之心”,作者 “机器之心”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI