Flexheadfa

使用场景在 A100 GPU 上,使用 (qk dim, v_dim) = (32,64) 配置,FlexHeadFA 显著提升了模型的推理速度。开发者可以通过...