混合专家模型

资讯

《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》论文解读与行业影响

一、论文主要内容《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Exper...

人工智能研究,大规模模型,机器翻译,条件计算,架构创新,模型扩展,深度学习,混合专家模型,神经网络架构,稀疏激活,自然语言处理,计算效率,语言建模 07月29日 0 0
资讯

华为开源盘古7B稠密和72B混合专家模型

6月30日，华为于正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE720亿参数的混合专家模型，以及基于升腾的模型推理技术。此次开源举措，是华为践行升腾生...

华为,开源,混合专家模型 07月31日 0 0
创作

Phixtral 2x2 8

使用场景在深度学习研究中使用phixtral-2x2_8模型进行文本生成利用phixtral-2x2_8模型进行模型评估在GPU上以4位精度运行phixtral...

AI模型,AI模型推理训练,混合专家模型,文本生成,模型评估,普通产品,开源, 08月01日 0 0
创作

Skywork MoE Base

使用场景用于生成关于中国各省份省会的详细描述进行多轮对话生成，如连续提问各省省会快速部署用于研究和开发新的语言模型应用产品特色具有1460亿参数的大规模混合专家...

AI模型,AI 模型推理训练,混合专家模型,大规模参数,文本生成,Hugging Face,vLLM,普通产品,开源, 08月01日 0 0
创作

Yuan2.0 M32 Hf Int8

使用场景用于开发复杂的编程项目，提高代码生成的准确性在数学问题求解中提供精确的计算和推理应用于专业领域的知识获取和文本生成产品特色32个专家中只有2个活跃，提高...

AI模型,AI语言模型,混合专家模型,注意力路由器,高效能,编程,数学,普通产品,开源, 08月01日 0 0
学习

GRIN MoE

使用场景在教育领域，用于开发自动编程教学助手，帮助学生学习编程和数学。在企业中，用于构建内部知识库的智能搜索系统，提高信息检索效率。在科研机构，用于加速语言模型...

AI模型,AI模型推理训练,人工智能,机器学习,自然语言处理,混合专家模型,优质新品,开源, 08月01日 0 0
视频

Aria

使用场景使用Aria模型为教育视频自动生成字幕。在医疗领域，利用Aria模型分析医疗影像和病例文档，以辅助诊断。在安全监控领域，使用Aria模型分析视频流，以识...

AI模型,AI模型推理训练,多模态,混合专家模型,视频理解,文档处理,开源模型,普通产品,开源, 08月02日 0 0
创作

Tencent Hunyuan Large

使用场景在自然语言处理任务中，如问答和阅读理解，混元大模型能够提供准确的答案和深入的理解。在长文本处理任务中，如文档摘要和内容生成，混元大模型能够有效处理大量文...

AI模型,模型训练与部署,人工智能,自然语言处理,计算机视觉,科学任务,混合专家模型,开源,普通产品,开源, 08月02日 0 0
学习

Deepseek VL2 Small

使用场景使用DeepSeek-VL2-Small进行图像中特定对象的识别和描述。在电子商务平台中，利用DeepSeek-VL2-Small提供商品图像的详细视觉...

AI模型,AI信息平台,视觉问答,光学字符识别,文档理解,视觉定位,多模态学习,混合专家模型,普通产品,开源, 08月02日 0 0
开发

Moonlight

使用场景使用Moonlight模型进行数学问题解答，如'1+1=2, 1+2='的推理。在Hugging Face平台上部署Moonlight模型，用于文本生成...

AI模型,开发与工具,自然语言处理,模型优化,大规模训练,混合专家模型,开源,高效推理,普通产品,开源, 08月02日 0 0

点击加载更多