摘要
本发明涉及一种多模态数据驱动的社会工作领域建模优化方法,属于数据处理领域,优化方法包括:构建社会工作多模态数据,并进行数据预处理后将文本转换为嵌入向量;采用流行度偏差正则化处理器通处理社会工作领域的数据输入;动态选择降维维度,并采用UMAP算法将BERT嵌入空间中的向量降维;将文档聚类到相似的嵌入组中,通过计算数据点之间的密度关系形成层次化的聚类结构,并通过密度阈值划分最终的簇;计算每个词在主题集群中的词频和该词在整个语料库中的逆文档频率,并计算语义相似度来重新分配离群点。本发明优化BERTopic模型的多模态兼容性,支持从不同数据来源提取并融合主题信息,增强社会议题的分析深度。