开发与工具 模型训练与部署 深度学习 矩阵乘法 CUDA 优化 高性能计算 开源 优质新品
使用场景在深度学习模型的训练过程中,使用DeepGEMM加速FP8格式的矩阵乘法运算,显著提升训练速度。在推理阶段,通过DeepGEMM的分组GEMM功能,优化...