T MAC

使用场景在Surface Laptop 7上使用T-MAC进行3B BitNet模型的推理,实现了显著的速度提升。在Snapdragon X Elite芯片上,...

  • T MAC

    类别:AI模型,AI模型推理训练,低比特推理,CPU优化,查找表,混合精度计算,优质新品,开源,
    官网:https://github.com/microsoft/T-MAC 更新时间:2025-08-01 18:50:28
  • 使用场景

    在Surface Laptop 7上使用T-MAC进行3B BitNet模型的推理,实现了显著的速度提升。

    在Snapdragon X Elite芯片上,通过T-MAC实现了与NPU相当的性能,同时减少了模型大小。

    在Jetson AGX Orin上,T-MAC与CUDA GPU相比,在特定任务上展示了能耗优势。

    产品特色

    支持1/2/3/4位量化的Llama模型在GPTQ格式下的推理。

    在最新的Snapdragon X Elite芯片上,T-MAC的令牌生成速度甚至超过了NPU。

    原生支持Windows ARM上的部署,T-MAC在Surface Laptop 7上展示了显著的5倍速度提升。

    通过使用查找表,T-MAC显著减少了CPU核心的使用,同时降低了功耗和能耗。

    与NPU相比,在Snapdragon X Elite芯片上,T-MAC的CPU性能优于高通骁龙神经处理引擎(NPE)。

    与CUDA GPU相比,在Jetson AGX Orin上,T-MAC的2位mpGEMM性能与CUDA GPU相当。

    使用教程

    安装Python环境,确保版本为3.8以满足TVM的要求。

    根据操作系统的不同,安装cmake>=3.22和其他依赖项。

    在虚拟环境中使用pip安装T-MAC,并激活相应的环境变量。

    使用提供的工具脚本进行端到端推理,或与llama.cpp集成进行特定任务的推理。

    根据需要调整参数,如使用-fa开启快速聚合以获得额外的速度提升。