Skywork-MoE拥有146B参数量，推理成本比Dense模型低近3倍，性能接近70B Dense模型，可在8 x 4090服务器上实现2200 tokens/s的吞吐率。

2024-06-03

要点：
1. Skywork-MoE模型参数量146B，激活参数量22B，包含16个Expert。
2. Skywork-MoE推理成本比Dense模型降低近3倍，性能接近70B Dense模型。
3. Skywork-MoE在8 x 4090服务器上可推理，吞吐率达2200 tokens/s（FP8量化）。

利好：
无