答辩公告
我的位置在: 首页 > 答辩公告 > 正文
胡金宇博士生预答辩公告
浏览次数:日期:2026-04-22编辑:

学位论文简介

本文围绕GPU平台,系统研究稀疏BLAS Level-2算子稀疏矩阵-向量乘(SpMV)和Level-3算子稀疏矩阵-矩阵乘(SpMM的高性能优化方法。围绕数据加载优化,计算负载均衡优化展开系统研究,针对现有SpMV和SpMM算法中忽略了对密集向量和密集矩阵的数据加载优化,负载均衡欠缺等问题,论文提出了基于GPU平台,结合体系结构特性的性能优化方法,主要创新点包括:

(1) 提出了一种高效的SpMV数据加载优化算法FastLoad,用于加速现代GPU上稀疏矩阵与输入向量的数据加载过程。FastLoad通过利用合并内存访问机制,根据非零元素数量对稀疏矩阵的列以及输入向量元素进行排序,并将非零元素组织为块结构以减少线程分歧,从而在提升数据访问连续性的同时实现良好的负载均衡。


(1) 提出了一种高效算法Swift,用于加速现代GPU上SpMM中稀疏矩阵和稠密矩阵的数据加载过程。通过利用合并内存访问机制,Swift根据非零元素数量对稀疏矩阵的列以及稠密矩阵的元素进行排序,以提升数据加载效率。在此基础上,通过充分利用共享内存优化原子操作带来的负面影响。


(2) 提出了一种基于GPU平台的SpMM负载均衡优化策略。从稀疏矩阵非零元素分布特征出发,针对不规则部分提出了一种新的划分与调度策略,通过更加细粒度的任务分配方式,实现线程间负载的有效均衡。实验结果表明,所提出的负载均衡策略能够在保持算法稳定性的同时,进一步提升Swift算法在GPU平台上的整体性能表现。

主要学术成果

[1] Jinyu Hu, Huizhang Luo*, Hong, Jiang, Guoqing, Xiao, Kenli, Li (2024). FastLoad: Speeding up data loading of both sparse matrix and vector for SPMV on GPUs. IEEE Transactions on Parallel and Distributed Systems, 35(12), 2423-2434.CCF推荐A类期刊,第一作者)

[2] Jinyu Hu, Huizhang Luo*, Hong, Jiang, Marc Casas, Kenli, Li, Chubo, Liu. (2026). Swift: High-Performance Sparse-Dense Matrix Multiplication on GPUs. In 2026 IEEE International Symposium on High Performance Computer Architecture (HPCA) (pp. 1-16). IEEE.CCF推荐A类会议,第一作者)


Baidu
sogou