由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Military版 - 太湖之光的CPU
相关主题
英特尔的衰落标志美国又一个黄金产业消融中国建成E级超算自主原型机,英特尔超算芯片停产
龙芯这个计划靠不靠谱?特朗普“神助攻” 中国自主技术有望迎来长足发展
龙芯当冤大头,4百万美元购买MIPS授权ws发动机技术科普和国产ws10简评 ZT
龙芯为何不行? 因为根本没有目标...ZT 龙芯产品发展路线图,龙芯8核今年6-7月完成实物流片
最新超级计算机500强排名出炉:日本K夺冠超级计算机五百强:中国“星云”傲居第二
xiaoju特大利好 日本研制世界最快计算机:每秒运算超1万万亿次没头脑和不高兴
中日两国高效能计算差距中国首台百万亿次计算机“魔方”满负荷运行
Re: 中国建成E级超算自主原型机,英特尔超算芯片停产美帝在讨论中国的HPC
相关话题的讨论汇总
话题: cpu话题: sw26010话题: 太湖话题: 内存话题: 之光
进入Military版参与讨论
1 (共1页)
P****R
发帖数: 22479
1
太湖之光的CPU sw26010在设计取向上是针对“暴力浮点”优化的,出现上面这个结果
(FLOPS强,某些其他测试不太好)意料之中。
比较显著的一个指标是这个CPU的内存带宽/浮点比率达到令人难以置信的1/22.4=0.
045 Byte/FLOP。作为对比(数据来源Yokota,J Algo Comp Tech, 7,3,2013):
INTEL Xeon E5 2690: 0.211
AMD Opteron 6284 SE: 0.235
NVIDIA Fermi GF110: 0.266
IBM PowerPC A2(BG/Q):0.208
Fujitsu Sparc64(FX10):0.359
相比较而言sw26010的内存带宽太小,很多操作都会卡在内存上。实际应用上,优化好
的FMM或者DGEMM大概需要0.2,使用特殊向量指令还可以更低,3D FFT大概需要0.6~0.
9, stencil大概2~3,spmv大概5。在x86上FMM/DGEMM是compute bound,后面几个都
是memory bound,而在sw26010上这些操作几乎全都是memory bound。
所以在Graph500里面太湖之光落后内存带宽有很大优势的Sparc64 K是很正常的结果。
这是设计取向问题。
作为一个HPC用户,sw26010这样的cpu很难优化,内存带宽小是一方面。另一方面计算
核有“The Computer Processing Element (CPE) is composed of an 8x8 mesh of 64
-bit RISC cores, supporting only user mode, with a 256-bit vector
instructions, 16 KB L1 instruction cache and 64 KB Scratch Pad Memory (SPM).
”只有很小的L1指令缓存,要靠手工维护scratch pad memory,这个内存结构有点像
Fermi架构之前的nvidia GPU,nbody这种简单暴力的写起来比较适合,想做点复杂的就
很麻烦。
从太湖之光官网的软件环境(国家超级计算无锡中心)里也可以看出,目前科学计算软
件里大量的都是比较适合这类CPU结构跑的nbody类型分子模拟程序,比如NAMD,LAMMPS
,Amber,GROMACS之类。
另一方面在缺乏Petsc/trilinos这样的并行计算基础库的条件下给太湖之光写代码是
成本非常高的事情,一般大学里只有极少数实力强大的组有这个条件(经费、时间、人
力)从底层开始写一套大程序,这也制约了这一套系统的潜在用户数量。用户数太少的
话软件基础设施永远停留在比较原始的阶段。
P****R
发帖数: 22479
2
中国的超算冠军是奥数冠军
P****R
发帖数: 22479
3
中国的超算软件不行是因为中国超算硬件有先天不足的死穴。
s******r
发帖数: 5309
4
你懂你抄的这段啥意思不?这逼装的。。。。
e****w
发帖数: 1565
5
王五不需要懂
王五只需要喷
就完成了霉宣部下达的任务了


: 你懂你抄的这段啥意思不?这逼装的。。。。



【在 s******r 的大作中提到】
: 你懂你抄的这段啥意思不?这逼装的。。。。
d*c
发帖数: 1
6
你懂你来说说他错在哪里

【在 s******r 的大作中提到】
: 你懂你抄的这段啥意思不?这逼装的。。。。
P****R
发帖数: 22479
7
中国超算不实用,尽管有世界第一的太湖,中国客户还是去美国橡树林上超算。
P****R
发帖数: 22479
8
核心问题是如何保持内存一致性,你没办法用魔法变出来几十倍内存带宽。(NVIDIA还
有内存压缩,这个的作用非常大)
推测intel、ibm、nvidia在多年前就对类似sw26010的架构做过仿真(IBM还做过类似
SW26010的Cell处理器,后来放弃),并且认为这东西根本做不了正常的超算产品。
换句话说就是:跑分可以,干活不行。分数很牛逼,客户不买帐。
类似的把戏龙芯也玩过。龙芯每次都用SPEC CPU的测试成绩说明自己多牛逼,然而你再
看下7zip测速结果,会发现龙芯3比Intel Atom、高通骁龙、华为麒麟、珠海全志H3(
整机售价65元)还要差劲。这把戏骗国民可以,骗行业客户没戏。
P****R
发帖数: 22479
9
所以中国的太湖之光是个假李逵
d*c
发帖数: 1
10
中国用这种玩意吹嘘国家实力,可想而知其依靠偷盗剽窃的技术储备已经耗尽。
在真正的超算争霸舞台上,已经没有中国的立足之地了。

【在 P****R 的大作中提到】
: 所以中国的太湖之光是个假李逵
P****R
发帖数: 22479
11
美国在超级计算机领域(实际上应该说是高性能计算领域,下称HPC)没有落后,我想
这是中国行内人士的基本共识(笑)。
廊坊五毛在所有领域都进行意淫,米帝不得不对中兴下手进行示范。
现在战狼变成癞皮狗,厉害国变成。。。。

【在 d*c 的大作中提到】
: 中国用这种玩意吹嘘国家实力,可想而知其依靠偷盗剽窃的技术储备已经耗尽。
: 在真正的超算争霸舞台上,已经没有中国的立足之地了。

P****R
发帖数: 22479
12
廊坊五毛

【在 e****w 的大作中提到】
: 王五不需要懂
: 王五只需要喷
: 就完成了霉宣部下达的任务了
:
:
: 你懂你抄的这段啥意思不?这逼装的。。。。
:

P****R
发帖数: 22479
13
他说不出来只能撒泼打滚。

【在 d*c 的大作中提到】
: 你懂你来说说他错在哪里
1 (共1页)
进入Military版参与讨论
相关主题
美帝在讨论中国的HPC最新超级计算机500强排名出炉:日本K夺冠
我们将从西班牙购进几千万美元的橄榄油、葡萄酒、火腿。xiaoju特大利好 日本研制世界最快计算机:每秒运算超1万万亿次
国产超级计算机2011年底将全部使用中国芯片中日两国高效能计算差距
核妖魔是那个混蛋科学家整出来的?Re: 中国建成E级超算自主原型机,英特尔超算芯片停产
英特尔的衰落标志美国又一个黄金产业消融中国建成E级超算自主原型机,英特尔超算芯片停产
龙芯这个计划靠不靠谱?特朗普“神助攻” 中国自主技术有望迎来长足发展
龙芯当冤大头,4百万美元购买MIPS授权ws发动机技术科普和国产ws10简评 ZT
龙芯为何不行? 因为根本没有目标...ZT 龙芯产品发展路线图,龙芯8核今年6-7月完成实物流片
相关话题的讨论汇总
话题: cpu话题: sw26010话题: 太湖话题: 内存话题: 之光