登录成功后会自动刷新界面
将任何LLM转变为计算机使用代理
OmniParser将UI截图从像素空间“标记化”为截图中的结构化元素,这些元素可由LLMs解释。这使得LLMs能够基于一组已解析的可交互元素进行检索,从而预测下一步操作。