由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Hardware版 - 为什么大家这么黑NV呢?
相关主题
并行计算GPU>>CPU求助:买计算机做并行计算,是该买多台workstation还是server?
ATI的6870系列支持并行计算功能(GTX的CUBA那种)吗?Tesla C2050 还是3个GTX 480?
3000的预算在Dell能买到什么样的workstationR9-290X终于放出来了
实验室要配机器,不差钱的,搞这个双精度计算的话280X和7970是不是差不多?
这年头,还有这全新的Z卡卖想给我 i7-4770k 32GB的台式机升级一下独立显卡
Core i7-980X750 ti是不是性价比最高的CUDA卡?
求问一下GTX 580的双精度GFLOPS有多少?一个有关GPU的问题
高端神卡Nvidia K20。升级主机求大神们建议。。。弱问:G1830内置的HaswellGPU能力相当于NVidia的哪款?
相关话题的讨论汇总
话题: gpu话题: nv话题: cpu话题: hpc话题: 并行
进入Hardware版参与讨论
1 (共1页)
l***h
发帖数: 392
1
想想支持C/C++,以后也能支持Fortran,单双精度,带L1,L2,ECC的GPU 是多么强
大。
比如现在最快的cluster也才几P,一个Telsa就差不多1TGFLOPS。
intel最快的cpu也才几个G,还超贵。买一个16核的box,都得7k左右,还不是共享所有
内存。
parallel起来也才几个GFLOPS。对computing来说带L1,L2,单双精度,编程友好得
massive
cores GPU绝对是个milestone。以后就该叫General process unit了。NV把宝都压在
HPC上,贡献还是很大,intel太黑了。估计如果这一代的产品在HPC上挣了钱,下一
代NV就要退出Game market了。
至于对游戏得影响,我不是很了解,但结构变了,对现在结构得游戏能有多大提高很难
说,但以后得游戏如果相应得改变方式,会不会有很大提高呢。当然可能ATI得以后就
真得是Game process unit了。
d*****0
发帖数: 68029
2
你是站在程序员的角度说的,大家是站在玩家的角度说的
l***h
发帖数: 392
3
是呀,其实nv的方向已经改变了。但大家还是希望他继续做game而已。
NV已经不是游戏公司了。

【在 d*****0 的大作中提到】
: 你是站在程序员的角度说的,大家是站在玩家的角度说的
c****7
发帖数: 1245
4
n卡比a卡牛的时候也有好多黑a卡的呀, 难道只许黑a卡?
其实我觉得骂NV是应该的, 当年它不让玩游戏的随便搞sli就很不厚道.
现在就算它是自己主动改变方向, 结果把游戏市场留给a卡称霸, 对消费
者也很不厚道.
想想有多少人买显卡是来玩游戏的, 又才有几个人是买显卡搞计算用的
l***h
发帖数: 392
5
我对游戏不了解,我的意思是他对hpc有贡献。比intel好多了,至少价格上
没办法啊,hpc的利润太高了。
其实就是一般的cpu的利润也太高了,才几个g的cpu为什么要卖那么贵?
随便一个一般的GPU都有好几个百个G。个人的体会是在4核的CPU核9800GT上算1024*
1024
矩阵的对角化,差别很大的。
所以如果能直接在GPU上写系统。cpu就回退出历史舞台了。多核特别是massive cores
才是未来。
按硬件能来来说,ati的不错,但不友好啊。直接在ati上写操作系统还很远,但基于
cuda和fermi结构的软件和系统应该不远了。GPGPU 还是不够,cGPU才是王道。当然
还得几年。intel现在啥都集成到cpu里就是纯粹的垄断。打击对手而已。
在科学计算上来说,单个的cpu再强也没有意义了,大体系必须并行,并行就必须通讯。
所以想fermi这种结构肯定是必须的。不然intel也不会搞那么多x86的GPU了。如果编程
环境一样的化,谁会化几千刀才买十几个核呢。
至于AMD的推土机其实很鸡肋,质不行,量也不够,估计以后会被淘汰。很希望AMD能把
stream做好,但现在还

【在 c****7 的大作中提到】
: n卡比a卡牛的时候也有好多黑a卡的呀, 难道只许黑a卡?
: 其实我觉得骂NV是应该的, 当年它不让玩游戏的随便搞sli就很不厚道.
: 现在就算它是自己主动改变方向, 结果把游戏市场留给a卡称霸, 对消费
: 者也很不厚道.
: 想想有多少人买显卡是来玩游戏的, 又才有几个人是买显卡搞计算用的

l*******m
发帖数: 1096
6
nv supports 用gpu搞计算的公司可以收利润很高的service fee。其实nv想走ibm的路
,提供
services solutions,赚企业的钱比个人的钱利润更高

【在 c****7 的大作中提到】
: n卡比a卡牛的时候也有好多黑a卡的呀, 难道只许黑a卡?
: 其实我觉得骂NV是应该的, 当年它不让玩游戏的随便搞sli就很不厚道.
: 现在就算它是自己主动改变方向, 结果把游戏市场留给a卡称霸, 对消费
: 者也很不厚道.
: 想想有多少人买显卡是来玩游戏的, 又才有几个人是买显卡搞计算用的

k***i
发帖数: 462
7
谁说CPU推出舞台了,并行应用还是少数。

cores

【在 l***h 的大作中提到】
: 我对游戏不了解,我的意思是他对hpc有贡献。比intel好多了,至少价格上
: 没办法啊,hpc的利润太高了。
: 其实就是一般的cpu的利润也太高了,才几个g的cpu为什么要卖那么贵?
: 随便一个一般的GPU都有好几个百个G。个人的体会是在4核的CPU核9800GT上算1024*
: 1024
: 矩阵的对角化,差别很大的。
: 所以如果能直接在GPU上写系统。cpu就回退出历史舞台了。多核特别是massive cores
: 才是未来。
: 按硬件能来来说,ati的不错,但不友好啊。直接在ati上写操作系统还很远,但基于
: cuda和fermi结构的软件和系统应该不远了。GPGPU 还是不够,cGPU才是王道。当然

o******w
发帖数: 842
8
GPU计算还是有些局限性,关于gpu上的操作系统,难道费米已经有整数运算单元了?

cores

【在 l***h 的大作中提到】
: 我对游戏不了解,我的意思是他对hpc有贡献。比intel好多了,至少价格上
: 没办法啊,hpc的利润太高了。
: 其实就是一般的cpu的利润也太高了,才几个g的cpu为什么要卖那么贵?
: 随便一个一般的GPU都有好几个百个G。个人的体会是在4核的CPU核9800GT上算1024*
: 1024
: 矩阵的对角化,差别很大的。
: 所以如果能直接在GPU上写系统。cpu就回退出历史舞台了。多核特别是massive cores
: 才是未来。
: 按硬件能来来说,ati的不错,但不友好啊。直接在ati上写操作系统还很远,但基于
: cuda和fermi结构的软件和系统应该不远了。GPGPU 还是不够,cGPU才是王道。当然

l***h
发帖数: 392
9
那时理想状态,至少会便宜多。
cpu现在卖得太贵了,特别是计算得cpu。

【在 k***i 的大作中提到】
: 谁说CPU推出舞台了,并行应用还是少数。
:
: cores

l***h
发帖数: 392
10
才起步,不是说一定要用GPU做计算,是说massive cores的并行一定是趋势。
现在的cpu框架比较难搞到几百个cores集成。但GPU本来就有几百个cores。
intel,AMD是把核越做越多,NV是把核越做越来象cpu。个人认为至少从价格上来说
NV的方式比较好。

【在 o******w 的大作中提到】
: GPU计算还是有些局限性,关于gpu上的操作系统,难道费米已经有整数运算单元了?
:
: cores

相关主题
Core i7-980X求助:买计算机做并行计算,是该买多台workstation还是server?
求问一下GTX 580的双精度GFLOPS有多少?Tesla C2050 还是3个GTX 480?
高端神卡Nvidia K20。升级主机求大神们建议。。。R9-290X终于放出来了
进入Hardware版参与讨论
p****t
发帖数: 11416
11
屁股决定脑袋
这儿没几个人care N社对GPU计算有多大贡献,GPU计算有多大前途
大家只知道对于游戏显卡,N社不作为,A社就不降价
所以对于在这儿骂N社的人,你说得再多也没有任何说服力

【在 l***h 的大作中提到】
: 想想支持C/C++,以后也能支持Fortran,单双精度,带L1,L2,ECC的GPU 是多么强
: 大。
: 比如现在最快的cluster也才几P,一个Telsa就差不多1TGFLOPS。
: intel最快的cpu也才几个G,还超贵。买一个16核的box,都得7k左右,还不是共享所有
: 内存。
: parallel起来也才几个GFLOPS。对computing来说带L1,L2,单双精度,编程友好得
: massive
: cores GPU绝对是个milestone。以后就该叫General process unit了。NV把宝都压在
: HPC上,贡献还是很大,intel太黑了。估计如果这一代的产品在HPC上挣了钱,下一
: 代NV就要退出Game market了。

p****t
发帖数: 11416
12
怎么总有人跳出来鼓吹GPU能代替CPU呢?
皮卡搬家比sedan好用一万倍,大家还是没有说只买皮卡

cores

【在 l***h 的大作中提到】
: 才起步,不是说一定要用GPU做计算,是说massive cores的并行一定是趋势。
: 现在的cpu框架比较难搞到几百个cores集成。但GPU本来就有几百个cores。
: intel,AMD是把核越做越多,NV是把核越做越来象cpu。个人认为至少从价格上来说
: NV的方式比较好。

l***h
发帖数: 392
13
呵呵。 便宜才是王道。大游戏当然还是a卡好。

【在 p****t 的大作中提到】
: 屁股决定脑袋
: 这儿没几个人care N社对GPU计算有多大贡献,GPU计算有多大前途
: 大家只知道对于游戏显卡,N社不作为,A社就不降价
: 所以对于在这儿骂N社的人,你说得再多也没有任何说服力

l***h
发帖数: 392
14
不是替代,是intel太黑了,特别是在hpc上,出个GPU啥的,可以省好多money。
一般用用i7都不需要啊。

【在 p****t 的大作中提到】
: 怎么总有人跳出来鼓吹GPU能代替CPU呢?
: 皮卡搬家比sedan好用一万倍,大家还是没有说只买皮卡
:
: cores

p****t
发帖数: 11416
15
we don't care

【在 l***h 的大作中提到】
: 不是替代,是intel太黑了,特别是在hpc上,出个GPU啥的,可以省好多money。
: 一般用用i7都不需要啊。

l***h
发帖数: 392
16
ok, you got the point. my two cents.

【在 p****t 的大作中提到】
: we don't care
n**y
发帖数: 11447
17
大家用显卡都是玩游戏
NV出个显卡不中用,搞不过A卡,价格就下不来
c*******2
发帖数: 66
18
Hardware 被 gamers taken over 了?
Actually, GP-GPU will be big deal.

【在 p****t 的大作中提到】
: we don't care
p****t
发帖数: 11416
19
至少我敢说在本版出没的ID,关心游戏性能的远多于关心GPU计算的,不信
你可以让版主开个投票
N卡如果在保证游戏性能和低功耗的前提下发展GPU计算,当然没人说不可以
要以牺牲游戏性能,提高功耗为代价,当然会被骂
当年乔丹不打篮球跑去打棒球,除了崇拜偶像胜过喜欢篮球本身的人,有几
个会支持?

【在 c*******2 的大作中提到】
: Hardware 被 gamers taken over 了?
: Actually, GP-GPU will be big deal.

n*******0
发帖数: 2002
20
哥,NV主流是民用显卡,gpgpu那个相当于玩票。NV又贵有大又费电,你说这玩意儿怎
么能让人不黑阿?

【在 l***h 的大作中提到】
: 想想支持C/C++,以后也能支持Fortran,单双精度,带L1,L2,ECC的GPU 是多么强
: 大。
: 比如现在最快的cluster也才几P,一个Telsa就差不多1TGFLOPS。
: intel最快的cpu也才几个G,还超贵。买一个16核的box,都得7k左右,还不是共享所有
: 内存。
: parallel起来也才几个GFLOPS。对computing来说带L1,L2,单双精度,编程友好得
: massive
: cores GPU绝对是个milestone。以后就该叫General process unit了。NV把宝都压在
: HPC上,贡献还是很大,intel太黑了。估计如果这一代的产品在HPC上挣了钱,下一
: 代NV就要退出Game market了。

相关主题
双精度计算的话280X和7970是不是差不多?一个有关GPU的问题
想给我 i7-4770k 32GB的台式机升级一下独立显卡弱问:G1830内置的HaswellGPU能力相当于NVidia的哪款?
750 ti是不是性价比最高的CUDA卡?想买一块并行计算的GPU,求建议
进入Hardware版参与讨论
w***n
发帖数: 1137
21
你先搞清楚cuda的编程在发吧。gpu通用计算听起来很好,但是你自己编个程序就知道
了。

cores

【在 l***h 的大作中提到】
: ok, you got the point. my two cents.
l***h
发帖数: 392
22
本来不想回的,GPU能不能用,看个人。
但不是听起来就好听吧。我自己就在ubuntu下写matrix 相关的程序。
对角化,和sparse matrix multi的东西很成熟了。
我自己家得电脑测试 9800GT比我的Q9400快不是一点两点。价格是 75 vs 170。
至于MD的东西,GPU就更比CPU好得多了,相关得paper你去google一下就有好多。
(GPU,Folding@HOME,openMM)
这个双精度提高了8倍,还是很不错得。
当然不是这个现在就多么牛B了,只是说这个是个趋势,门槛会越来越低。到是
compiler
先进了,就可以按x86一样直接写东西了,不是很好么。
技术总是要进步的。这一步NV对不对不好说,不过对HPC来说觉得是limestone。
等技术成熟了,用GPU powerhouse 替代 纯cpu得cluster是必然得。


【在 w***n 的大作中提到】
: 你先搞清楚cuda的编程在发吧。gpu通用计算听起来很好,但是你自己编个程序就知道
: 了。
:
: cores

l****g
发帖数: 761
23
我之前写过一个简单的cuda程序, 在我们系的Quadro FX 5600上跑的
能提高一些 matrix 的运算到几百倍(对比 i7 CPU )
但是, 太难优化了, 一个语句不对, 性能就跌几十倍
( 一般都是 memory bank conflict )
问了一些专门做cuda 的同学, 感觉没有2,3年经验的人根本无法上手
而且同样一个程序, 不同的 NV 显卡可能得到的优化结果还完全不一样
看过一个 berkeley 的人的cuda paper, 搞了几年就搞出十几行代码
然后拿了一个nvidia fellowship还是什么的
a*****s
发帖数: 2663
24
为什么是limestone不是milestone? 石灰很NB吗?
r******y
发帖数: 3838
25
我就占在3年或5年后玩家的角度说,NV这样的显卡在游戏业(尤其是网游)也将会大有
做为的。
NV也在大力发展游戏相关的物理引擎。

【在 d*****0 的大作中提到】
: 你是站在程序员的角度说的,大家是站在玩家的角度说的
r******y
发帖数: 3838
26
不说别的,游戏中除了图形本身,其他很多的运算比如AI,物理也适合gpu并行运算,
只是现在相关引擎还在开发中。

【在 o******w 的大作中提到】
: GPU计算还是有些局限性,关于gpu上的操作系统,难道费米已经有整数运算单元了?
:
: cores

r******y
发帖数: 3838
27
试过简单的openCL程序,不算太难。当然,也许优化不容易。但在它之上专门的引擎出
来后,就不用搞这么底层了。

【在 w***n 的大作中提到】
: 你先搞清楚cuda的编程在发吧。gpu通用计算听起来很好,但是你自己编个程序就知道
: 了。
:
: cores

l***h
发帖数: 392
28
不好意思,写错了,呵呵

【在 a*****s 的大作中提到】
: 为什么是limestone不是milestone? 石灰很NB吗?
w***n
发帖数: 1137
29
matrix operations等linear algorithm的东西都是非常简单的而且比较容易parrelle。
所以这些都是basic的东西。如果你要写一个真正的application多余绝大多数的progra
mmer来说,是非常难的。folding是stanford的一个实验室在写,写了也很多年了。为了
这个project,他们还有专门的一个gpu的programing language叫brook,你也可想而知难
度了。opencl是一个方向,但是如果你不了解gpu的architecture,就算你能编出来程序
,performance也不会太好。
不要忘了,intel和amd都有fusion(AMD name)的计划。nv也有类似的计划,但是做cp
u对nv来说可不是一个easy job。
另外,hpc的利润率高,可是市场不是很大而且竞争极其激烈。sgi专攻hpc不也倒了吗?
完全压在这个市场上必死无疑,更何况并不是所有的apps都可以用gpu来加速的。

【在 l***h 的大作中提到】
: 不好意思,写错了,呵呵
r******y
发帖数: 3838
30
云计算兴起后,hpc市场就大多了。

parrelle。
progra
为了
知难
程序
cp
吗?

【在 w***n 的大作中提到】
: matrix operations等linear algorithm的东西都是非常简单的而且比较容易parrelle。
: 所以这些都是basic的东西。如果你要写一个真正的application多余绝大多数的progra
: mmer来说,是非常难的。folding是stanford的一个实验室在写,写了也很多年了。为了
: 这个project,他们还有专门的一个gpu的programing language叫brook,你也可想而知难
: 度了。opencl是一个方向,但是如果你不了解gpu的architecture,就算你能编出来程序
: ,performance也不会太好。
: 不要忘了,intel和amd都有fusion(AMD name)的计划。nv也有类似的计划,但是做cp
: u对nv来说可不是一个easy job。
: 另外,hpc的利润率高,可是市场不是很大而且竞争极其激烈。sgi专攻hpc不也倒了吗?
: 完全压在这个市场上必死无疑,更何况并不是所有的apps都可以用gpu来加速的。

相关主题
两块 Xeon E5-2687v3 CPU性能比一块 phi 5110p强啊ATI的6870系列支持并行计算功能(GTX的CUBA那种)吗?
我的机器提高计算速度的的潜力有多大?3000的预算在Dell能买到什么样的workstation
并行计算GPU>>CPU实验室要配机器,不差钱的,搞这个
进入Hardware版参与讨论
l******d
发帖数: 1633
31
同意这个.不能老拿gpgpu的最牛x的地方和cpu比.cuda上手太费劲了.
现在我都是cpu上写完了直接扔云里去算.根本话不了几个钱,省了无数时间

【在 l****g 的大作中提到】
: 我之前写过一个简单的cuda程序, 在我们系的Quadro FX 5600上跑的
: 能提高一些 matrix 的运算到几百倍(对比 i7 CPU )
: 但是, 太难优化了, 一个语句不对, 性能就跌几十倍
: ( 一般都是 memory bank conflict )
: 问了一些专门做cuda 的同学, 感觉没有2,3年经验的人根本无法上手
: 而且同样一个程序, 不同的 NV 显卡可能得到的优化结果还完全不一样
: 看过一个 berkeley 的人的cuda paper, 搞了几年就搞出十几行代码
: 然后拿了一个nvidia fellowship还是什么的

r******y
发帖数: 3838
32
写程序自己用也许不值,但对写引擎库的人来说,费点劲也值,用引擎的人就不用搞这
些底层了。

【在 l******d 的大作中提到】
: 同意这个.不能老拿gpgpu的最牛x的地方和cpu比.cuda上手太费劲了.
: 现在我都是cpu上写完了直接扔云里去算.根本话不了几个钱,省了无数时间

t**t
发帖数: 27760
33

NV牛的时候,自己也不怎么厚道。

【在 c****7 的大作中提到】
: n卡比a卡牛的时候也有好多黑a卡的呀, 难道只许黑a卡?
: 其实我觉得骂NV是应该的, 当年它不让玩游戏的随便搞sli就很不厚道.
: 现在就算它是自己主动改变方向, 结果把游戏市场留给a卡称霸, 对消费
: 者也很不厚道.
: 想想有多少人买显卡是来玩游戏的, 又才有几个人是买显卡搞计算用的

t**t
发帖数: 27760
34
谁没事自己掏钱买hpc。
都是公家的钱,管它贵不贵。
家里,游戏,好得自己掏钱买。

【在 l***h 的大作中提到】
: 不好意思,写错了,呵呵
w******s
发帖数: 16209
35
这么难? 没应用推广不起来呀.

【在 l****g 的大作中提到】
: 我之前写过一个简单的cuda程序, 在我们系的Quadro FX 5600上跑的
: 能提高一些 matrix 的运算到几百倍(对比 i7 CPU )
: 但是, 太难优化了, 一个语句不对, 性能就跌几十倍
: ( 一般都是 memory bank conflict )
: 问了一些专门做cuda 的同学, 感觉没有2,3年经验的人根本无法上手
: 而且同样一个程序, 不同的 NV 显卡可能得到的优化结果还完全不一样
: 看过一个 berkeley 的人的cuda paper, 搞了几年就搞出十几行代码
: 然后拿了一个nvidia fellowship还是什么的

r******y
发帖数: 3838
36
不一定比普通编程难很多,就是一般做程序的不习惯这种编程方式。其实,就是普通C
语言,用2年也不见得人人能用好。

【在 w******s 的大作中提到】
: 这么难? 没应用推广不起来呀.
v****e
发帖数: 10715
37
赞技术贴
u**d
发帖数: 211
38
gpu 作为通用性的平台,有很大的局限性
比如 cuda 里对于 thread 的概念
cuda 里的 thread 严格来说并不是像 cpu 一样一个独立的运算单位
它的 scheduling 是基于 warp 为单位的 (1 warp = 32 threads)
32 threads 必须执行相同的 instruction,彼此之间不能 concurrency,否则就是死锁
基本上,通用型的 concurrency 很难实现,而多数 application 偏偏用的很多
总的来说,gpu 所谓的 gflops,都是在平台上做了牺牲才换来的
(限制同步,并行效率当然高啦)
这些对于图形计算来说是合理的(比如像素之间很少需要同步)
但是对于其他的应用,能不能比 cpu 快还很难说呢
而且 gpu 和内存(进而磁盘)之间的带宽也是瓶颈
如果需要大规模的数据访问,还是很慢,又限制其应用范围。
要说 hpc,这个东西算算微分方程还行。一般应用实在不容易
根本还是并行算法不容易设计。很多即使写出来,同步太多,还是达不到效果。
一个简单的例子,写个并行排序的算法到不大困难,
可是要是并行最大流-

【在 l***h 的大作中提到】
: 想想支持C/C++,以后也能支持Fortran,单双精度,带L1,L2,ECC的GPU 是多么强
: 大。
: 比如现在最快的cluster也才几P,一个Telsa就差不多1TGFLOPS。
: intel最快的cpu也才几个G,还超贵。买一个16核的box,都得7k左右,还不是共享所有
: 内存。
: parallel起来也才几个GFLOPS。对computing来说带L1,L2,单双精度,编程友好得
: massive
: cores GPU绝对是个milestone。以后就该叫General process unit了。NV把宝都压在
: HPC上,贡献还是很大,intel太黑了。估计如果这一代的产品在HPC上挣了钱,下一
: 代NV就要退出Game market了。

r******y
发帖数: 3838
39
好象Fermi支持多指令并行,单元也有栈?
当然,这个平台更适合计算密集型应用,不适合需要大存储的海量数据型应用。

死锁

【在 u**d 的大作中提到】
: gpu 作为通用性的平台,有很大的局限性
: 比如 cuda 里对于 thread 的概念
: cuda 里的 thread 严格来说并不是像 cpu 一样一个独立的运算单位
: 它的 scheduling 是基于 warp 为单位的 (1 warp = 32 threads)
: 32 threads 必须执行相同的 instruction,彼此之间不能 concurrency,否则就是死锁
: 基本上,通用型的 concurrency 很难实现,而多数 application 偏偏用的很多
: 总的来说,gpu 所谓的 gflops,都是在平台上做了牺牲才换来的
: (限制同步,并行效率当然高啦)
: 这些对于图形计算来说是合理的(比如像素之间很少需要同步)
: 但是对于其他的应用,能不能比 cpu 快还很难说呢

s****c
发帖数: 11300
40
这个最大的问题在于软件方面的匮乏
你说的那个早就有名字了 叫做GPGPU
这个的问题就是理论峰值计算能力和实际能得到的相差太远 更不要说适用的范围也有
限了
至于支持C的效率如何 这个还要进一步实验验证 而且就算在游戏的物理特效上来看 如
果不用nv自家的physicX 只有几个GFlops的cpu甚至比显卡的效果还好
nv的问题跟当初3dfx很像,由于市场面比较窄很想开拓一片独占市场 结果往往不难么
动人
这次新的gpu核心太大 功耗太大 性能并不达到很多人的预期 已经可以说是接近失败的
一款产品了

【在 l***h 的大作中提到】
: 想想支持C/C++,以后也能支持Fortran,单双精度,带L1,L2,ECC的GPU 是多么强
: 大。
: 比如现在最快的cluster也才几P,一个Telsa就差不多1TGFLOPS。
: intel最快的cpu也才几个G,还超贵。买一个16核的box,都得7k左右,还不是共享所有
: 内存。
: parallel起来也才几个GFLOPS。对computing来说带L1,L2,单双精度,编程友好得
: massive
: cores GPU绝对是个milestone。以后就该叫General process unit了。NV把宝都压在
: HPC上,贡献还是很大,intel太黑了。估计如果这一代的产品在HPC上挣了钱,下一
: 代NV就要退出Game market了。

相关主题
实验室要配机器,不差钱的,搞这个求问一下GTX 580的双精度GFLOPS有多少?
这年头,还有这全新的Z卡卖高端神卡Nvidia K20。升级主机求大神们建议。。。
Core i7-980X求助:买计算机做并行计算,是该买多台workstation还是server?
进入Hardware版参与讨论
s****c
发帖数: 11300
41
就是在科学计算领域 也不是所有的计算都是矩阵啊
遇到分支比较多的线性流程gpgpu就有点傻眼 这方面还是传统冯诺体系的cpu强一点

cores

【在 l***h 的大作中提到】
: 不好意思,写错了,呵呵
s****c
发帖数: 11300
42
同意这个 gpgpu的计算能力 其实并不想大家想象的那么强 主要是应用领域受限制比较


死锁

【在 u**d 的大作中提到】
: gpu 作为通用性的平台,有很大的局限性
: 比如 cuda 里对于 thread 的概念
: cuda 里的 thread 严格来说并不是像 cpu 一样一个独立的运算单位
: 它的 scheduling 是基于 warp 为单位的 (1 warp = 32 threads)
: 32 threads 必须执行相同的 instruction,彼此之间不能 concurrency,否则就是死锁
: 基本上,通用型的 concurrency 很难实现,而多数 application 偏偏用的很多
: 总的来说,gpu 所谓的 gflops,都是在平台上做了牺牲才换来的
: (限制同步,并行效率当然高啦)
: 这些对于图形计算来说是合理的(比如像素之间很少需要同步)
: 但是对于其他的应用,能不能比 cpu 快还很难说呢

l***h
发帖数: 392
43
可能你没有明白我的意思,我的意思是说massive cores computing
(不是说几十个核)会越来越好。
象intel,amd的fusion如果能把500个cores连在一起,那当然厉害。
当然如果这样的化,那肯定超贵。
但是我说了,intel,amd是把cpu的核越做越多,但nv是把GPU的core越做越象
CPU(它叫cuda core)。就是说大家的目的都是集成n多个核,提高计算能力。
个人认为NV的这个现在来说比较容易些。价格也便宜多了。
不是说cuda core要一定变成x86核,是要完成特定的计算能力就行。
这也是为什么cuda core现在加入L1,L2,ECC,scheduler这些元素的原因。
特别是双精度的提高,cuda core变成了一个完整的 computing core。
当然如果要完全取代cpu还是要很长很长的时间,而且也没有必要啊。如果GPU的
核可以参与计算了,cpu的中心地位就降低了,那是一个一般的cpu负责总指挥就行了
general process unit + command process unit
其实问题是多核 和 使用(编程)的

【在 w***n 的大作中提到】
: matrix operations等linear algorithm的东西都是非常简单的而且比较容易parrelle。
: 所以这些都是basic的东西。如果你要写一个真正的application多余绝大多数的progra
: mmer来说,是非常难的。folding是stanford的一个实验室在写,写了也很多年了。为了
: 这个project,他们还有专门的一个gpu的programing language叫brook,你也可想而知难
: 度了。opencl是一个方向,但是如果你不了解gpu的architecture,就算你能编出来程序
: ,performance也不会太好。
: 不要忘了,intel和amd都有fusion(AMD name)的计划。nv也有类似的计划,但是做cp
: u对nv来说可不是一个easy job。
: 另外,hpc的利润率高,可是市场不是很大而且竞争极其激烈。sgi专攻hpc不也倒了吗?
: 完全压在这个市场上必死无疑,更何况并不是所有的apps都可以用gpu来加速的。

l***h
发帖数: 392
44
那是,呵呵,自己打游戏当然买ati了

【在 t**t 的大作中提到】
: 谁没事自己掏钱买hpc。
: 都是公家的钱,管它贵不贵。
: 家里,游戏,好得自己掏钱买。

l***h
发帖数: 392
45
有道理,不过,没有要gpu什么都比cpu强啊
对于能够并行的,GPU比CPU强,对于不能并行的,只要不差太多就行了啊。
现在很少有intensive的单核应用把。有的化,intel,amd的方式也解决不了问题啊。
提高不了几倍,还超贵。

我觉得主要是cpu的中心地位削弱了,以后cpu会降价了。

死锁

【在 u**d 的大作中提到】
: gpu 作为通用性的平台,有很大的局限性
: 比如 cuda 里对于 thread 的概念
: cuda 里的 thread 严格来说并不是像 cpu 一样一个独立的运算单位
: 它的 scheduling 是基于 warp 为单位的 (1 warp = 32 threads)
: 32 threads 必须执行相同的 instruction,彼此之间不能 concurrency,否则就是死锁
: 基本上,通用型的 concurrency 很难实现,而多数 application 偏偏用的很多
: 总的来说,gpu 所谓的 gflops,都是在平台上做了牺牲才换来的
: (限制同步,并行效率当然高啦)
: 这些对于图形计算来说是合理的(比如像素之间很少需要同步)
: 但是对于其他的应用,能不能比 cpu 快还很难说呢

l***h
发帖数: 392
46
不是GPGPU,是cGPU,呵呵。
fermi算是个完整的计算单元,不是以前的辅助单元。

【在 s****c 的大作中提到】
: 这个最大的问题在于软件方面的匮乏
: 你说的那个早就有名字了 叫做GPGPU
: 这个的问题就是理论峰值计算能力和实际能得到的相差太远 更不要说适用的范围也有
: 限了
: 至于支持C的效率如何 这个还要进一步实验验证 而且就算在游戏的物理特效上来看 如
: 果不用nv自家的physicX 只有几个GFlops的cpu甚至比显卡的效果还好
: nv的问题跟当初3dfx很像,由于市场面比较窄很想开拓一片独占市场 结果往往不难么
: 动人
: 这次新的gpu核心太大 功耗太大 性能并不达到很多人的预期 已经可以说是接近失败的
: 一款产品了

l***h
发帖数: 392
47
现在cpu的提高不也是focus在多核么,单核的东西,i7核duo core能有多大区别呢?
2倍估计都没有吧

【在 s****c 的大作中提到】
: 就是在科学计算领域 也不是所有的计算都是矩阵啊
: 遇到分支比较多的线性流程gpgpu就有点傻眼 这方面还是传统冯诺体系的cpu强一点
:
: cores

w***t
发帖数: 428
48
cpu的多核是独立的多个内核,cuda core的所谓“并行计算”不能真的像多核cpu那么
并行的。可以说是数据并行,但是指令无法并行
以前看过nv的白皮书,大概说cpu还会在一般程序的效率上提高,gpu在一些特殊的
应用上更有优势,而不会取代cpu。没有说到底多少应用能有这个优势,百分比什么的,
似乎一直在回避这个问题。。
最大的问题是,越高效率的算法,就包含越多的精巧结构,就越无法在gpu上实现。跟
指令集什么的无关,根本架构就限制住了

【在 l***h 的大作中提到】
: 现在cpu的提高不也是focus在多核么,单核的东西,i7核duo core能有多大区别呢?
: 2倍估计都没有吧

p****t
发帖数: 11416
49
你说了那么多,有个关键的问题从来没有给出令人信服的答案
你坚持说 GPU通用计算能力提高 -> CPU地位下降
其实这并没有必然成立的逻辑关系,因为除非特殊的project,否则一个计算
任务肯定是混合了大量可以并行计算和不可以并行计算的成分。即使你把可以
并行计算的部分都让GPU完成,为了不让不可并行部分成为瓶颈,对CPU性能的
要求也只会不断提高。这就是我一直坚持说GPU永远不可能取代CPU的原因。我
看即使是N社最wild的daydream里面也不敢说这种瞎话,你这论调和果轮说iPhone
取代PSP/NDSL一统掌上游戏世界一样滑稽
还举汽车的例子,pickup比sedan能装货,那么pickup出来了之后,sedan的
地位下降了么?sedan降价了么?
又,CPU的核越做越多其实也根本不能证明并行计算才是未来的趋势。之所以
出现这样的结果,完全是因为单核性能的提高hit thermal wall。假如CPU不
发热的话,我们可能永远不会在普通PC上面看到多核的CPU,因为家用/Office
的应用大多数要么是不适合并行计算的,要么就是采用并行计算在程序员一端
的代价太高


【在 l***h 的大作中提到】
: 现在cpu的提高不也是focus在多核么,单核的东西,i7核duo core能有多大区别呢?
: 2倍估计都没有吧

r******y
发帖数: 3838
50
最新GPU应该可以指令并行和分支结构。
包含很多的精巧结构算法,就目前多数应用来说,计算量一般不很大,不像媒体游戏明
显计算速度不够用。

的,

【在 w***t 的大作中提到】
: cpu的多核是独立的多个内核,cuda core的所谓“并行计算”不能真的像多核cpu那么
: 并行的。可以说是数据并行,但是指令无法并行
: 以前看过nv的白皮书,大概说cpu还会在一般程序的效率上提高,gpu在一些特殊的
: 应用上更有优势,而不会取代cpu。没有说到底多少应用能有这个优势,百分比什么的,
: 似乎一直在回避这个问题。。
: 最大的问题是,越高效率的算法,就包含越多的精巧结构,就越无法在gpu上实现。跟
: 指令集什么的无关,根本架构就限制住了

相关主题
Tesla C2050 还是3个GTX 480?想给我 i7-4770k 32GB的台式机升级一下独立显卡
R9-290X终于放出来了750 ti是不是性价比最高的CUDA卡?
双精度计算的话280X和7970是不是差不多?一个有关GPU的问题
进入Hardware版参与讨论
w***t
发帖数: 428
51
新的fermi是每16个cuda core共享一套指令机构,所以号称480核,也就能同时跑30个
独立线程。当然是跑的很慢的。。
很多需要并行算法的应用在gpu上都不比cpu快,甚至天然并行的monte carlo
simulation,我们也见过别人在gpu上做了效率损失很大的。
如果要增加指令机构,计算内核的数量就会少,那么图形加速就更差了。。总之就是个
tradeoff。这个东西前途怎样,可能就看媒体应用的市场了

【在 r******y 的大作中提到】
: 最新GPU应该可以指令并行和分支结构。
: 包含很多的精巧结构算法,就目前多数应用来说,计算量一般不很大,不像媒体游戏明
: 显计算速度不够用。
:
: 的,

r******y
发帖数: 3838
52
关于多核仅为散热好象不太对。有人为了降温把多余的核屏蔽掉。

【在 p****t 的大作中提到】
: 你说了那么多,有个关键的问题从来没有给出令人信服的答案
: 你坚持说 GPU通用计算能力提高 -> CPU地位下降
: 其实这并没有必然成立的逻辑关系,因为除非特殊的project,否则一个计算
: 任务肯定是混合了大量可以并行计算和不可以并行计算的成分。即使你把可以
: 并行计算的部分都让GPU完成,为了不让不可并行部分成为瓶颈,对CPU性能的
: 要求也只会不断提高。这就是我一直坚持说GPU永远不可能取代CPU的原因。我
: 看即使是N社最wild的daydream里面也不敢说这种瞎话,你这论调和果轮说iPhone
: 取代PSP/NDSL一统掌上游戏世界一样滑稽
: 还举汽车的例子,pickup比sedan能装货,那么pickup出来了之后,sedan的
: 地位下降了么?sedan降价了么?

w***t
发帖数: 428
53
应该是在设计上,做更大的核会有散热问题,所以不再增加内核规模而是增加数量
还有一个原因就是instruction level parallism已经做到极限,更大更复杂的内核对
性能提高也有限了

【在 r******y 的大作中提到】
: 关于多核仅为散热好象不太对。有人为了降温把多余的核屏蔽掉。
b**e
发帖数: 492
54
因为现在NV太挫了,连ATI都干不过...我觉得黑的还不够!

【在 l***h 的大作中提到】
: 想想支持C/C++,以后也能支持Fortran,单双精度,带L1,L2,ECC的GPU 是多么强
: 大。
: 比如现在最快的cluster也才几P,一个Telsa就差不多1TGFLOPS。
: intel最快的cpu也才几个G,还超贵。买一个16核的box,都得7k左右,还不是共享所有
: 内存。
: parallel起来也才几个GFLOPS。对computing来说带L1,L2,单双精度,编程友好得
: massive
: cores GPU绝对是个milestone。以后就该叫General process unit了。NV把宝都压在
: HPC上,贡献还是很大,intel太黑了。估计如果这一代的产品在HPC上挣了钱,下一
: 代NV就要退出Game market了。

s****c
发帖数: 11300
55
这样的计算通用性不高 某些特定场合当然可以

【在 l***h 的大作中提到】
: 现在cpu的提高不也是focus在多核么,单核的东西,i7核duo core能有多大区别呢?
: 2倍估计都没有吧

s****c
发帖数: 11300
56
不能并行的差很多

【在 l***h 的大作中提到】
: 现在cpu的提高不也是focus在多核么,单核的东西,i7核duo core能有多大区别呢?
: 2倍估计都没有吧

s****c
发帖数: 11300
57
你先看看x86体系 学习一些基本的计算知识 不难理解的

【在 l***h 的大作中提到】
: 现在cpu的提高不也是focus在多核么,单核的东西,i7核duo core能有多大区别呢?
: 2倍估计都没有吧

s****c
发帖数: 11300
58
其实我印象深刻的还是gpu的矩阵运算 其他的 soso吧
nv现在危险 3dfx的杯具要重新上演了

【在 w***t 的大作中提到】
: 新的fermi是每16个cuda core共享一套指令机构,所以号称480核,也就能同时跑30个
: 独立线程。当然是跑的很慢的。。
: 很多需要并行算法的应用在gpu上都不比cpu快,甚至天然并行的monte carlo
: simulation,我们也见过别人在gpu上做了效率损失很大的。
: 如果要增加指令机构,计算内核的数量就会少,那么图形加速就更差了。。总之就是个
: tradeoff。这个东西前途怎样,可能就看媒体应用的市场了

T*******i
发帖数: 4992
59
看来这个话题要成月经了
gpgpu的hype得过头了

【在 l***h 的大作中提到】
: 想想支持C/C++,以后也能支持Fortran,单双精度,带L1,L2,ECC的GPU 是多么强
: 大。
: 比如现在最快的cluster也才几P,一个Telsa就差不多1TGFLOPS。
: intel最快的cpu也才几个G,还超贵。买一个16核的box,都得7k左右,还不是共享所有
: 内存。
: parallel起来也才几个GFLOPS。对computing来说带L1,L2,单双精度,编程友好得
: massive
: cores GPU绝对是个milestone。以后就该叫General process unit了。NV把宝都压在
: HPC上,贡献还是很大,intel太黑了。估计如果这一代的产品在HPC上挣了钱,下一
: 代NV就要退出Game market了。

a***e
发帖数: 27968
60
你的这个太一厢情愿了
GPU并行的要求很高,可能就是和矩阵一类的东西
你要真地实现通用化,得有很NB的调度算法
这样的结果,你会发现一个普通的CPU会忙不过来
管理500个core的准通用进程要求很高
当你把每个core做的越来越复杂,自然而然一个chip上
能装下的core就越来越少,这个trade-off没有办法的
没有免费午餐,指望cuda core变成一个独立的computing core
还不如鼓吹apple把256 ARM core搞在一起
其实最近一个NB的东西是intel的die间飞线
这个东西搞定了才能实现超大核的生产成本问题

【在 l***h 的大作中提到】
: 现在cpu的提高不也是focus在多核么,单核的东西,i7核duo core能有多大区别呢?
: 2倍估计都没有吧

相关主题
弱问:G1830内置的HaswellGPU能力相当于NVidia的哪款?我的机器提高计算速度的的潜力有多大?
想买一块并行计算的GPU,求建议并行计算GPU>>CPU
两块 Xeon E5-2687v3 CPU性能比一块 phi 5110p强啊ATI的6870系列支持并行计算功能(GTX的CUBA那种)吗?
进入Hardware版参与讨论
k********e
发帖数: 702
61
哥,GPU可以大量并行单元搞点简单的重复运算,不等于它可以运行windows,
怎么给联想到代替CPU了?
r******y
发帖数: 3838
62
还好吧。现在网络比当年发达,这个东西用在网络服务端,不会像个人机那样把很多比
较特殊的计算资源闲置。

【在 s****c 的大作中提到】
: 其实我印象深刻的还是gpu的矩阵运算 其他的 soso吧
: nv现在危险 3dfx的杯具要重新上演了

S*******E
发帖数: 2498
63
哈哈,老黄会被这句话吓死的
n就是个gpu研发公司,就研究这么一个东西,现在已经6000员工了,巨额的研究费用,全靠
消费市场来填坑呢, 如果退出普通消费市场, 立马就杯具了, 要么大规模裁员, 研发能
力下降, 要么gpu天价,比intel还黑
所以, n要选择退出一个市场,也肯定是退出科学计算市场, 不会退出娱乐消费市场的

【在 l***h 的大作中提到】
: 现在cpu的提高不也是focus在多核么,单核的东西,i7核duo core能有多大区别呢?
: 2倍估计都没有吧

r******y
发帖数: 3838
64
NV快成游戏引擎软件公司了。

【在 S*******E 的大作中提到】
: 哈哈,老黄会被这句话吓死的
: n就是个gpu研发公司,就研究这么一个东西,现在已经6000员工了,巨额的研究费用,全靠
: 消费市场来填坑呢, 如果退出普通消费市场, 立马就杯具了, 要么大规模裁员, 研发能
: 力下降, 要么gpu天价,比intel还黑
: 所以, n要选择退出一个市场,也肯定是退出科学计算市场, 不会退出娱乐消费市场的

k**0
发帖数: 19737
65
这样其实很好,不然现在提起PC GAME, 别人马上就想到NV. 可怜的ATI,以前被DINMOND
压,现在被NV压.

【在 r******y 的大作中提到】
: NV快成游戏引擎软件公司了。
S*******E
发帖数: 2498
66
还真不知道,n出过什么成名的游戏引擎?

【在 r******y 的大作中提到】
: NV快成游戏引擎软件公司了。
r******y
发帖数: 3838
67
physX物理引擎是用的最多的,效果似乎比Intel买的Hovok好一点。

【在 S*******E 的大作中提到】
: 还真不知道,n出过什么成名的游戏引擎?
r******y
发帖数: 3838
68
AMD想支持open source 物理引擎bullet,排在physx,hovok后居第三。搞笑的是bullet开发用NV的卡,而不是ATI。

DINMOND

【在 k**0 的大作中提到】
: 这样其实很好,不然现在提起PC GAME, 别人马上就想到NV. 可怜的ATI,以前被DINMOND
: 压,现在被NV压.

S*******E
发帖数: 2498
69
physx是阿三开发的吧,n买的现成货

【在 r******y 的大作中提到】
: physX物理引擎是用的最多的,效果似乎比Intel买的Hovok好一点。
l******n
发帖数: 1683
70
我拿我自己的程序测试过, amd方面, 04年的754针的sempron和去年的x4同频率性能几乎
完全一样, intel方面的情况也基本类似. 不过工艺方面和编译器发展还是蛮快的.

【在 l***h 的大作中提到】
: 现在cpu的提高不也是focus在多核么,单核的东西,i7核duo core能有多大区别呢?
: 2倍估计都没有吧

相关主题
ATI的6870系列支持并行计算功能(GTX的CUBA那种)吗?这年头,还有这全新的Z卡卖
3000的预算在Dell能买到什么样的workstationCore i7-980X
实验室要配机器,不差钱的,搞这个求问一下GTX 580的双精度GFLOPS有多少?
进入Hardware版参与讨论
i****a
发帖数: 36252
71
其實上 nvidia 只是想報復 CPU 製造商造 graphics into CPU
r******y
发帖数: 3838
72
收购以前以硬件物理卡为主。现在与NV的GPGPU结合在一起。

【在 S*******E 的大作中提到】
: physx是阿三开发的吧,n买的现成货
1 (共1页)
进入Hardware版参与讨论
相关主题
弱问:G1830内置的HaswellGPU能力相当于NVidia的哪款?这年头,还有这全新的Z卡卖
想买一块并行计算的GPU,求建议Core i7-980X
两块 Xeon E5-2687v3 CPU性能比一块 phi 5110p强啊求问一下GTX 580的双精度GFLOPS有多少?
我的机器提高计算速度的的潜力有多大?高端神卡Nvidia K20。升级主机求大神们建议。。。
并行计算GPU>>CPU求助:买计算机做并行计算,是该买多台workstation还是server?
ATI的6870系列支持并行计算功能(GTX的CUBA那种)吗?Tesla C2050 还是3个GTX 480?
3000的预算在Dell能买到什么样的workstationR9-290X终于放出来了
实验室要配机器,不差钱的,搞这个双精度计算的话280X和7970是不是差不多?
相关话题的讨论汇总
话题: gpu话题: nv话题: cpu话题: hpc话题: 并行