摘要
本申请涉及数据处理技术领域,公开了基于大数据的文件解析存储划分方式及分布式存储系统,包括以下步骤:S1、文件解析:解析输入的大数据文件,提取其逻辑结构、字段内容及关联关系;S2、数据块生成:将解析结果划分为数据块,并生成其大小及关联性信息;S3、关联权重生成:建立数据块之间的相似性和联合访问频率的权重关系;S4、存储划分优化:基于关联权重,优化数据块在存储节点间的分布。本发明通过关联权重生成和动态决策模块的协同作用,优化数据块的分布,使关联度高的数据块优先分配到同一存储节点,极大地减少了跨节点的数据传输,使其可以实时调整存储策略,从而降低因跨节点访问导致的通信延迟和网络资源消耗。