要点:
1. Skywork-MoE模型参数量146B,激活参数量22B,包含16个Expert。
2. Skywork-MoE推理成本比Dense模型降低近3倍,性能接近70B Dense模型。
3. Skywork-MoE在8 x 4090服务器上可推理,吞吐率达2200 tokens/s(FP8量化)。
利好:
无
利空:
无
标签:Skywork-MoE、大语言模型、推理成本、性能、服务器、吞吐率
原文发布时间:2024-06-03T20:45:00
要点:
1. Skywork-MoE模型参数量146B,激活参数量22B,包含16个Expert。
2. Skywork-MoE推理成本比Dense模型降低近3倍,性能接近70B Dense模型。
3. Skywork-MoE在8 x 4090服务器上可推理,吞吐率达2200 tokens/s(FP8量化)。
利好:
无
利空:
无
标签:Skywork-MoE、大语言模型、推理成本、性能、服务器、吞吐率
原文发布时间:2024-06-03T20:45:00