基于多模态视觉检索的智能RPA交互方法、装置及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态视觉检索的智能RPA交互方法、装置及系统
申请号:CN202411111532
申请日期:2024-08-14
公开号:CN118642810B
公开日期:2024-11-22
类型:发明专利
摘要
本发明公开了一种基于多模态视觉检索的智能RPA交互方法、装置及系统,该方法包括:构建图形用户界面GUI、网络应用程序和嵌入式应用程序;打开目标网页或者目标界面,获取当前页面的状态,捕获整个应用程序窗口或特定的区域;进行图像处理分析和定位GUI中的元素,获取对应元素的定位坐标信息;利用坐标信息,执行JavaScript模板代码;根据上述GUI上的操作效果,保存这一环节的RPA交互模板,添加监控报警环节,对整个RPA任务的状态进行监控,引入异常检测机制;重复前述步骤逐渐完善模板,直至RPA流程制作完成。其可以通过不同模态的交互方式轻松制作RPA流程,实现了与业务系统的自动化交互,提高工作效率。
技术关键词
嵌入式应用程序 图形用户界面 文本 梅尔频率倒谱系数 坐标 图像特征编码 元素 多模态 定位网页 交互方法 特征提取单元 模板 图像处理 语音特征 视觉 页面 监控模块 图像特征提取