C*****5 发帖数: 8812 | 1 DL说到底还是些矩阵运算。这个和图形处理高度相关。我瞎猜,很多高效的矩阵运算的
硬件专利都被nvda和amd瓜分的差不多了。别的厂商想杀进来会不会坑很大?
哪位懂行的大牛进来说说? |
l*******m 发帖数: 1096 | 2 在Volta之前,nvda并没有专门的矩阵加速单元。要靠软件写的。
【在 C*****5 的大作中提到】 : DL说到底还是些矩阵运算。这个和图形处理高度相关。我瞎猜,很多高效的矩阵运算的 : 硬件专利都被nvda和amd瓜分的差不多了。别的厂商想杀进来会不会坑很大? : 哪位懂行的大牛进来说说?
|
a*******g 发帖数: 3500 | 3 矩阵运算主要看算法,算法带来的加速是数量级的,这些都是数学的贡献,跟硬件关系
不大。 |
l*******m 发帖数: 1096 | 4 不能这么说,硬件的体系结构十分重要。Intel 是simd, NVDA 是simt, tpu是
systolic array. SIMD算矩阵io开销太大
【在 a*******g 的大作中提到】 : 矩阵运算主要看算法,算法带来的加速是数量级的,这些都是数学的贡献,跟硬件关系 : 不大。
|
m*****n 发帖数: 1631 | 5 算法如何加速?愿闻其详
【在 a*******g 的大作中提到】 : 矩阵运算主要看算法,算法带来的加速是数量级的,这些都是数学的贡献,跟硬件关系 : 不大。
|
C*****5 发帖数: 8812 | 6 转一篇systolic array的吐槽文,我没看懂,大牛给看看
http://chuansong.me/n/1815116452335
systolic
【在 l*******m 的大作中提到】 : 不能这么说,硬件的体系结构十分重要。Intel 是simd, NVDA 是simt, tpu是 : systolic array. SIMD算矩阵io开销太大
|
l*******m 发帖数: 1096 | 7 这篇基本上说的靠谱,现在的tpu是256x256, 基本上很难扩展了。不过也可以做多个,
multiple threads.
【在 C*****5 的大作中提到】 : 转一篇systolic array的吐槽文,我没看懂,大牛给看看 : http://chuansong.me/n/1815116452335 : : systolic
|
c******a 发帖数: 4400 | 8 我认为er后狂涨的主要原因其实不是earning牛,主要原因是这个Volta,华尔街认为
tpu带来的风险已经addressed |