摘要
本公开涉及智能交互技术领域,尤其涉及一种视频播放互动方法、装置、设备及存储介质,该方法包括:响应于用户的实时互动指令,获取当前视频播放界面中所播放视频的画面截图;获取用户的语音提问信息;基于所述画面截图以及所述语音提问信息,生成所述语音提问信息对应的回答信息;将所述回答信息展示在所述视频播放界面中。本公开通过语音提问信息进行搜索,保证用户的视频观看体验,同时基于视频的画面截图以及用户的语音提问信息共同生成回答信息,利用多模态的信息使得所生成的回答信息更加丰富与准确,提高了互动过程的灵活性。