基于多模态视觉检索的智能RPA交互方法、装置及系统
申请号:CN202411111532
申请日期:2024-08-14
公开号:CN118642810B
公开日期:2024-11-22
类型:发明专利
摘要
本发明公开了一种基于多模态视觉检索的智能RPA交互方法、装置及系统,该方法包括:构建图形用户界面GUI、网络应用程序和嵌入式应用程序;打开目标网页或者目标界面,获取当前页面的状态,捕获整个应用程序窗口或特定的区域;进行图像处理分析和定位GUI中的元素,获取对应元素的定位坐标信息;利用坐标信息,执行JavaScript模板代码;根据上述GUI上的操作效果,保存这一环节的RPA交互模板,添加监控报警环节,对整个RPA任务的状态进行监控,引入异常检测机制;重复前述步骤逐渐完善模板,直至RPA流程制作完成。其可以通过不同模态的交互方式轻松制作RPA流程,实现了与业务系统的自动化交互,提高工作效率。
技术关键词
嵌入式应用程序
图形用户界面
文本
梅尔频率倒谱系数
坐标
图像特征编码
元素
多模态
定位网页
交互方法
特征提取单元
模板
图像处理
语音特征
视觉
页面
监控模块
图像特征提取