产品特色
利用稀疏激活和 “热”/“冷” 神经元概念进行高效的 LLM 推理
无缝集成 CPU 和 GPU 的内存 / 计算能力,实现负载均衡和更快的处理速度
与常见的 ReLU 稀疏模型兼容
设计和深度优化用于本地部署在消费级硬件上,实现低延迟的 LLM 推理和服务
向后兼容性,支持与 llama.cpp 相同的模型权重进行推理,但不会有性能提升
产品特色
利用稀疏激活和 “热”/“冷” 神经元概念进行高效的 LLM 推理
无缝集成 CPU 和 GPU 的内存 / 计算能力,实现负载均衡和更快的处理速度
与常见的 ReLU 稀疏模型兼容
设计和深度优化用于本地部署在消费级硬件上,实现低延迟的 LLM 推理和服务
向后兼容性,支持与 llama.cpp 相同的模型权重进行推理,但不会有性能提升