使用场景
使用EasyContext在8块A100上训练Llama-2-7B模型,实现了700K词元的上下文长度
使用EasyContext在16块A100上训练Llama-2-13B模型,实现了1M词元的上下文长度
通过组合现有技术手段,EasyContext大幅提升了语言模型的上下文长度,为视频生成等应用奠定了基础
产品特色
序列并行
Deepspeed zero3离载
Flash注意力和融合交叉熵核心
激活checkpoint
使用场景
使用EasyContext在8块A100上训练Llama-2-7B模型,实现了700K词元的上下文长度
使用EasyContext在16块A100上训练Llama-2-13B模型,实现了1M词元的上下文长度
通过组合现有技术手段,EasyContext大幅提升了语言模型的上下文长度,为视频生成等应用奠定了基础
产品特色
序列并行
Deepspeed zero3离载
Flash注意力和融合交叉熵核心
激活checkpoint