摘要
本发明提供一种基于多模态AI的业务界面解析与交互方法及系统,该方法包括:首先,获取目标业务界面的第一界面截图、第一界面结构数据,以及用户的第一自然语言。然后,分别对第一界面截图、第一界面结构数据和第一自然语言进行预处理,得到第二界面截图、第二界面结构数据和第二自然语言。接下来,将第二界面截图、第二界面结构数据和第二自然语言输入多模态大语言模型,得到交互操作结果。最后,根据交互操作结果,在目标业务界面中执行对应的界面操作。该方法能够自动、高效、智能地解析业务界面结构和语义信息,实现用户需求的动态理解和跨平台的自动化交互操作,从而有效地提升业务系统的操作效率和用户使用体验。