应用于第一性原理材料模拟计算软件中GPU算法精确度的研究

概述

超级计算机的快速发展使得基于密度泛函理论(Density Functional Theory, DFT)的第一性原理材料模拟在凝聚态物理、材料科学、化学和生物等研究领域变得越来越重要,其中包括模拟并解释实验新现象，分析其本征物理机制，设计新型功能材料并预测新奇性质等，取得了很多重要的科研成果。但是，目前大部分第一性原理计算仅限于小型分子和固体材料体系，其主要原因是理论模拟的计算复杂度会随着材料尺度急剧增加。而且，传统的第一性原理方法的计算标度(即计算时间和内存随着电子数增加而增长的标度) 很高，比如基态电子结构DFT和Hartree-Fock (HF)方法的标度分别是和次方（是体系的电子总数），传统的材料计算软件只能处理数千个原子，而激发态电子结构Time-dependent density functional theory (TDDFT)和GW/Bethe-Salpeter Equation (BSE)方法的计算标度更是高达次方，计算复杂度更大，传统材料计算软件只能处理数百个原子。第一性原理计算的主要任务就是模拟计算分子和固体材料的电子结构性质及其应用。近年来，随着图形处理单元(GPU)硬件及其编程模型的快速发展，利用GPU加速科学计算以及KS-DFT计算已成为必然趋势。GPU尤其擅长计算密集型运算，具有超高的计算性能，非常适合高性能科学计算。GPU作为一种计算设备，可以同时并行执行多个线程，这些线程可以处理大量的并行操作。而由于GPU硬件本身的结构特点，其支路控制性能较弱，但其数学运算能力较强。因此，由GPU加速器驱动的异构架构已经成为现代超级计算机中最广泛使用的架构。

需求详情

技术参数

1.HSE杂化泛函的GPU版本与CPU版本总能量计算误差控制在0.1‰以下，HSE杂化泛函的GPU加速版应实现至少5倍加速相比较单线程CPU版本计算（以NVIDIA Tesla V100专业级显卡为例）。其中调用gpuArray与gather的CPU-GPU通讯次数不得超过Phi/SCF循环（默认30），GPU杂化泛函HSE计算应能够修正LDA交换关联能量不低于10%。2.LR-TDDFT激发态计算的GPU版本与CPU版本激发能量误差控制在1‰以下，LR-TDDFT激发态计算的GPU加速版应比CPU单线程版本加速至少15倍（以NVIDIA Tesla V100专业级显卡为例），要求Casida哈密顿矩阵对角化应同时支持CPU与GPU版本的对角化函数（包括LOBPCG与Davidson），GPU加速的LR-TDDFT计算的激发能应能修正LDA准粒子激发能不低于10%。3.GW准粒子能级修正的GPU版本与CPU版本自能（Self-Energy）能量误差控制在1‰以下，GW准粒子计算的GPU加速版应比CPU单线程版本加速至少10倍（以NVIDIA Tesla V100专业级显卡为例），要求优化响应函数和介电矩阵的构造内存在32GB以内（NVIDIA Tesla V100专业级显卡显存大小），Casida哈密顿矩阵对角化应同时支持CPU与GPU版本的对角化函数（包括LOBPCG与Davidson），GPU加速版GW准粒子计算应能够修正LDA交换关联能量不低于10%。4.要求进行KSSOLV-GPU 2.0的各类GPU显卡与CPU计算与测试，测试显卡由本公司提供，包括家用显卡NVIDIA RTX3090，测试系统为Windows 10，专业级NVIDIA Tesla V100显卡，测试系统种类为Linux，具体版本未定，以及专业级NVIDIA Tesla A100显卡，测试系统种类为Linux，具体版本未定。CPU测试版本为Intel(R) Xeon(R) CPU E5-2698 v4@2.20GHz，要求测试时应启用MATLAB启动参数-SingleCompThread。要求KSSOLV-GPU 2.0 能够在MATLAB R2016及以上版本兼容，并尽可能向下兼容，其中MATLAB测试版本为R2021a（适配A100安培架构）。参考测试性能NVIDIA Tesla A100＞NVIDIA Tesla V100＞NVIDIA RTX3090。

已过期：截止至2023-08-31

金额:50万元-100万元