摘要
本发明公开了一种基于稀疏自编码器的词元构造方法及系统,所述方法包括:获取物品的语义嵌入向量;采用权重共享策略,通过权重共享的码本计算码本向量与原始嵌入的相似度;对相似度执行top‑K稀疏化,保留相似度值最大的K个码本向量,其余置零,生成稀疏表征;根据稀疏表征中非零元素的位置及数值大小生成离散词元序列;通过解码器重建语义嵌入;联合重构损失、正交约束以及多样性正则化优化模型。本发明通过稀疏表示和正交约束优化,显著提升了物品表示的质量和推荐性能。本方法利用稀疏自编码器结合可训练的码本直接学习物品语义特征的稀疏表示,并通过正交约束确保码本向量的独立性和语义唯一性,从而有效缓解训练不平衡和嵌入坍塌问题。