训推一体人工智能加速卡
一、板卡概述
MLU370-X8采用双芯思元370配置,为双槽位250w全尺寸智能加速卡,提供24TFLPOS(FP32)训练算力和256TOPS (INT8)推理算力,同时提供丰富的FP16、BF16等多种训练精度。基于双芯思元370打造的MLU370-X8整合了两倍于标准思元370加速卡的内存、编解码资源,同时MLU370-X8搭载MLU-Link多芯互联技术,每张加速卡可获得200GB/s的通讯吞吐性能,是PCIe 4.0带宽的3.1倍,可高效执行多芯多卡训练和分布式推理任务。
二、产品规格
板卡型号 |
MLU370-X8
|
计算架构
|
Cambricon MLUarch03
|
制程工艺
|
7nm
|
计算精度支持
|
FP32、FP16、BF16、INT16、INT8、INT4
|
峰值性能
|
256 TOPS (INT8)
|
128 TOPS (INT16)
|
96 TFLOPS (FP16)
|
96 TFLOPS (BF16)
|
24 TFLOPS (FP32)
|
内存类型
|
LPDDR5
|
内存容量
|
48GB
|
内存带宽
|
614.4 GB/s
|
vMLU实例
|
4个
|
视频编解码
|
最高可支持至8K;
264路HEVC全高清视频解码;
48路HEVC全高清视频编码;
|
图片编解码
|
图片编解码最高分辨率支持16384x16384;
8000 Frames/s 全高清图片解码;
6000 Frames/s 全高清图片编码;
|
系统接口
|
x16 PCIe Gen4
|
MLU-Link™接口
|
4 ports, 16 Lanes, 50 Gbps
|
MLU-Link™带宽
|
聚合带宽200GB/s Bi-direction
|
形态
|
全高全长双槽位
|
最大热功耗
|
250W
|
散热设计
|
被动
|
|