摘要:Mendelay: 我顺着DFX的思路,计算了一下DFX的延迟时间。在文中有一个这样的论述,Each of the FP16 multiplier and adder is mapped to one digital signal processing sli
Mendelay:
我顺着DFX的思路,计算了一下DFX的延迟时间。在文中有一个这样的论述,Each of the FP16 multiplier and adder is mapped to one digital signal processing slice (DSP) and two DSPs.The multiplier takes 6 cycles, and the adder
takes 11 cycles.
那这里计算至少需要17cycles. 从文中还可以看到200MHz,那实际上如果是16x64的一次计算,那么算力为:
200,000,000 × 16 × 64 / 17 = 12 GFLOPs(FP16)。也太低了吧,根本达不到标称的184GFLOPs。