第4页 - 关于cuda的讨论汇总 - 话题女王

全部话题 - 话题: cuda

O*******d
发帖数: 20343

来自主题: Programming版 - 我写的CUDA屏保软件 (转载)

多谢。机器上需要下载CUDA runtime cudart_32.dll

s*w
发帖数: 729

来自主题: Programming版 - 我写的CUDA屏保软件-公开源码 (转载)

不是我的，是看到了一篇投稿，一看人都已经做了发表一系列文章了，卖点就是 CUDA,
号称提高10倍速度，我总不大相信，今天顺便问问专家

S*********g
发帖数: 5298

来自主题: Programming版 - 我写的CUDA屏保软件-公开源码 (转载)

看你做的多好了。berkeley有个研究生做的在CUDA上面对角化的算法
比nvidia他们自己的快了好几倍。发了几片文章，最后被nvidia直接招去做算法了

N*****m
发帖数: 42603

来自主题: Programming版 - 我写的CUDA屏保软件-公开源码 (转载)

你信不信我不知道，反正我是信了
说正经的，还是看应用，有的方面确实有优势

CUDA,

t****t
发帖数: 6806

来自主题: Programming版 - 我写的CUDA屏保软件-公开源码 (转载)

快10倍太正常了.CPU才几个ALU, GPU多少ALU, 根本不是一个量级的么.

CUDA,

O*******d
发帖数: 20343

来自主题: Programming版 - 我写的CUDA屏保软件-公开源码 (转载)

现在最新的是OpenCL。 NVidia把CUDA加了一个包裹，就变成OpenCL了，ATI把Stream
SDK加了一个套子，也成了OpenCL了。 OpenCL的目的是可以在任何处理器上运行。

O*******d
发帖数: 20343

来自主题: Programming版 - 我写的CUDA屏保软件-公开源码 (转载)

我的这个图形计算，以前在CPU上做过。 GPU比CPU快了几乎50倍都不止。

CUDA,

i******t
发帖数: 22541

来自主题: Programming版 - 严肃的问大家一个问题我想转cuda，可行吗

真诚请教
想转cuda方面的编程
这方面值不值得转
真诚请教！、
thx

s********i
发帖数: 145

来自主题: Programming版 - 严肃的问大家一个问题我想转cuda，可行吗

工作中用过一段时间CUDA，说实在的，没有觉得有太多的地方需要用到这玩意，感觉还
是非常小众。

c*******9
发帖数: 9032

来自主题: Programming版 - opencl vs cuda

一般还是opencl省事，特别追求效率用cuda。

c*******9
发帖数: 9032

来自主题: Programming版 - opencl vs cuda

it业opencl会更多吧，专门搞科学计算的cuda多。

f******o
发帖数: 27

来自主题: Programming版 - 内推机会：HPC Cuda in a medical device company in Fremont, CA

There is an open position in our company that needs to be filled right now.
If you have experience in HPC, specifically CUDA programming, then you can
send me a message and I'll recommend you.
The position is in a medical device company in south Fremont, CA.

f**********n
发帖数: 258

来自主题: Programming版 - 有熟悉CUDA的吗？不胜感谢赐教

1，多GPU并行的情况下，我要从GPU0拷贝数据到GPU1，使用cudaMemcpy（）必须要在当
前选中的GPU1下执行么？还是0和1都可以？
cudaMemcpy只能在CPU执行, neither 0 or 1 can execute this.
2，我使用了SPMD并行模式，每一个计算机核下挂了一个GPU，照理来说数据都是独立的
，各个GPU内的同名变量其实数据不同且相互不可见，但如果是在unified address
space下呢，这些相同变量名的变量相互冲突吗？
啥叫unified address space？ Global memory 和 shared memory 在一个GPU share a
common memory space. If on different machine or cluster, their data is
independent.
我在matlab环境下用mexfunction编写的cuda，主程序是一个matlab program是一个
SPMD结构，SPMD结构里面调用mexfunction来实现GPU0内的数据传给GPU1，GPU1... 阅读全帖

s******e
发帖数: 2181

来自主题: Programming版 - 有熟悉CUDA的吗？不胜感谢赐教

谢谢你，总算遇到行家了。
关于第一个问题，我手上的参考材料是CUDA C Programming Guide。里面的sample
code在拷贝数据from GPU0 到GPU1的前一步，会先cudaSetDevice（1），然后才是ｃｕ
ｄａＭｅｍｃｐｙ。所以比较费解。
第二个问题，那个是Ｇｕｉｄｅ里的说法，就是统一地址的意思，ＣＰＵ和所有的ＧＰ
Ｕ只用一个地址表。但我们知道ＳＰＭＤ在启动的时候会给每个ｄｅｖｉｃｅ或每个核
分配内存空间，所以当它和统一地址两种模式揉一起的时候，就不知道到底是咋回事了。

a

v*******e
发帖数: 11604

来自主题: Programming版 - 搞AI是不是一定需要学习cuda?

几个词老是搞混，duta, cuda, dura

x***4
发帖数: 1815

来自主题: Programming版 - 搞AI是不是一定需要学习cuda?

同意。我觉得来这里问的人都不需要学。需要学的都不会来问。把数学搞清楚，cuda需
要的时候再学。

e***e
发帖数: 3872

来自主题: Computation版 - CUDA

有人用这个Nvidia的SIMD新东东么？
http://developer.nvidia.com/object/cuda.html

l***g
发帖数: 1035

来自主题: Computation版 - CUDA?

any one used cuda ? pros? cons?

h**f
发帖数: 149

来自主题: Computation版 - 关于Matlab+CUDA问题求教

想在机器上装CUDA,系统是Linux的。但compile的时候报错，找不到cufft.h和cuda_
runtime.h。
搜了搜网上似乎没什么类似的错误，有人知道怎么回事么？
GeForce 9800GTX，Ubuntu8.04

h**********c
发帖数: 4120

来自主题: Computation版 - 这里有没有玩CUDA的?

现在有把lapac, linpac啥做到cuda里的吗？

p*****o
发帖数: 40

来自主题: Computation版 - 请问new macbook pro能不能用cuda sdk?

可以
http://en.wikipedia.org/wiki/CUDA

a********r
发帖数: 150

来自主题: Computation版 - 请问玩cuda的童鞋大家都用什么ＧＰＵ啊

想玩玩CUDA，苦于手里的电脑GPU太烂。想换一太笔记本，特来征求意见，大概在一下
几款显卡里选吧：GeForce GTX 260, GeForce GT 330M, Quadro 2800M Quadro 880M.
但觉Quadro系列是专业级别的显卡，稳定性应该不错的，可是计算能力好像都是1.1，1
.2的。或者更有什么其他性价比更好的笔记本的显卡我不知道的，大家有什么建议吗？

l*****0
发帖数: 15

来自主题: Computation版 - 关于CUDA

就是说常理上来说GPU都是靠CPU来进行协调和控制，我的想法是用arm或者fpga来完成
以前cpu的任
务。
那你觉得现在关于CUDA哪个方向比较好呢？或者做的人挺多的

g**********t
发帖数: 475

来自主题: Computation版 - 如何用CUDA同时计算几百个实对称矩阵的eigenvalues/eigenvecot

我有一个程序要反复计算几百个（约500个）64 x 64的实对称矩阵的所有的
eigenvalues/eigenvectors。自己用CUDA实现了一个Jacobi algorithm with chess
tournament ordering。具体来说，每个block(含有32个threads)处理一个矩阵，这32
个threads并行消去一个矩阵中的32个off-diagonal elements，直到算法收敛。结果无
误，计算单个矩阵所花的时间也和最近的一篇paper里的数据接近。但是这个算法和CPU
上的library比没有太大的优势。在同时处理这500个矩阵的情况下，和GSL里面高度优
化的函数比较(用单CPU)，用GPU仅仅快了一倍。我觉得主要是Jacobi algorithm对于这
个大小的矩阵效率太差，而GSL里面的函数用的好像是QR decomposition，虽然只有一
个thread但是效率很高。有没有比较适合我的问题的能在GPU上高效执行的算法？有没
有什么paper/code可以参考的？先谢谢了。

s*****e
发帖数: 10

来自主题: Computation版 - 如何用CUDA同时计算几百个实对称矩阵的eigenvalues/eigenvecot

如果单个计算GPU是CPU的1／6，那么throughput就大概是
GPU SM ＃／ CPU core ＃＊ ratio ＊ 8 ＝
16 ／4 ＊ 1／6 ＊ 8 ～＝ 5。所以如果你把memory access hide 好的话，应该是4
到5倍。我做过这个类似的计算，实际就是大概3到4倍。你的程序还需要好好优化。特
别是这个8 blocks per sm.
从你下面的回帖，可以看出你对occupation没有很好的优化。
如果你是用CUDA 4.0的话，compiler帮你做了一些优化，所以你的效率大概是
5／8 ＊ 2 ～＝ 2 倍。make sense to your observation。：－）
Good luck

Jacobi

a***y
发帖数: 117

来自主题: EE版 - 请问，哪些学校的Research group在做CUDA相关研究

Nvidia CUDA Centers of Excellence include: Harvard, Georgia Tech, UIUC, ,
Maryland, etc.

l***g
发帖数: 1035

来自主题: EE版 - 请问，哪些学校的Research group在做CUDA相关研究

uiuc. i think one of the cuda founder co-host a CS class with a taiwanese pr
ofessor there..

a*****u
发帖数: 157

来自主题: EE版 - 请问，哪些学校的Research group在做CUDA相关研究

是说UIUC的Wen-Mei Hwu教授吧。他的关于CUDA的中文课程可以在网上下到。

l***g
发帖数: 1035

来自主题: EE版 - 请问，哪些学校的Research group在做CUDA相关研究

en.. and Kirk, he's the PI of cuda at nvidia... my info is old may be three
four yrs ago..

j******g
发帖数: 1098

来自主题: EE版 - 请问，哪些学校的Research group在做CUDA相关研究

你觉得你这个说法对吗？
按照你的理解，只有做体系结构，做编译的才叫research。
其他的都算工程应用？
比如做networking的，machine learning，database的统统只算工程应用？
好奇地问一下，在CUDA上面设计的一些并行算法，就不是research了？
我想这样的paper也不少了吧。

TUTORIAL

a***y
发帖数: 117

来自主题: EE版 - 请问，哪些学校的Research group在做CUDA相关研究

Nvidia CUDA Centers of Excellence include: Harvard, Georgia Tech, UIUC, ,
Maryland, etc.

l***g
发帖数: 1035

来自主题: EE版 - 请问，哪些学校的Research group在做CUDA相关研究

uiuc. i think one of the cuda founder co-host a CS class with a taiwanese pr
ofessor there..

a*****u
发帖数: 157

来自主题: EE版 - 请问，哪些学校的Research group在做CUDA相关研究

是说UIUC的Wen-Mei Hwu教授吧。他的关于CUDA的中文课程可以在网上下到。

l***g
发帖数: 1035

来自主题: EE版 - 请问，哪些学校的Research group在做CUDA相关研究

en.. and Kirk, he's the PI of cuda at nvidia... my info is old may be three
four yrs ago..

j******g
发帖数: 1098

来自主题: EE版 - 请问，哪些学校的Research group在做CUDA相关研究

I***a
发帖数: 704

来自主题: EE版 - 会CUDA programming的请给我发站内信或留个QQ/MSN

会CUDA programming的请给我发站内信或留个QQ/MSN
谢谢。

x********o
发帖数: 519

来自主题: Quant版 - How do you think about CUDA?

Do you think CUDA will be the trend for future quant jobs?
it is growing so fast.

h****e
发帖数: 2125

来自主题: Quant版 - How do you think about CUDA?

first there are fewer and fewer quant jobs. second if a job requires u to
know CUDA its a developer job.

g******s
发帖数: 310

来自主题: _Graphics版 - CUDA FFT

cuda 算fft应该是优化好的了， cpu的版本优化不够或者内存太小？感觉1G 内存太
少了。

e**c
发帖数: 195

来自主题: _ZST版 - CUDA FFT

这个CUDA是什么东东？
为什么它家的2-D FFT比INTEL的要快那么多？都是硬件(并行CACHE)的功劳吗？

e***e
发帖数: 3872

来自主题: _ZST版 - CUDA FFT

并行CACHE是一个方面，本身8800就有128或者96个1.3G的计算单元，而且卡上
内存到计算部分的数据宽度是128位的，内存传输速度可以到8G/s，（这个数字
是我的机器上实测的）。
不过逻辑复杂的程序就远没这么大的优势了，按CUDA的手册，分支、循环语句
很多都会被串行化的。

a****a
发帖数: 5763

来自主题: Apple版 - Mac OS X 背后的故事（九）半导体的丰收（下）zz

随着CPU与GPU合并成技术发展的趋势，苹果开发出了OpenCL框架，能够进行高速并行处
理的能力使OpenCL成为了业界标准，被广泛应用。
最近几年，GPU的发展吸引了很多来自科学计算界人士的目光。GPU有稳定的市场推动力
—公众喜闻乐见的电子游戏产生了源源不断的升级GPU的需求—因此比CPU的更新步伐更
快。从技术上讲，GPU本身就是多核架构，高端显卡往往有五百多个核心，即使低端的
集成GPU也有二三十个核心，所以能够通过并行来高效处理成千上万的线程。同时，对
于科学技算中的浮点计算，GPU往往通过硬件加速使其效率比传统CPU更高，因为图形渲
染等工作基本都是浮点计算。
GPGPU浮出水面
早期的GPU只能执行固定的程序，而不开放给程序员编程。随着时代的发展，图像处理
有时需要对着色器进行编程以实现一些特效，因此需要程序员可以使用GPU的汇编语言
写简单的着色程序。这自然对程序员要求过高，所以一些高阶的着色语言又被GPU厂商
开发出来。比如微软和NVIDIA共同开发的Cg语言，就能为顶点和像素编写专门的着色程
序。这类技术虽然面向图形渲染工作者，却吸引了一小簇科学计算研究者的兴趣。... 阅读全帖

发帖数: 1

来自主题: DataSciences版 - 大包子请教显卡选择问题

1. 目前Nvidia主要是领先在CUDA平台上面还是领先在显卡硬件上？
硬件上N记和A记其实差别不大，看看玩游戏的评测就知道基本。在并行计算（深度学习
是其中之一）方面，N家进入的早，投入的资源也很多，现在是市场绝对主导。A家动作
慢了，已经来不及自立门户，所以只能和其他一些小伙伴推公开标准的opencl。
CUDA和opencl其实底层差别不大都是基于C的，但是有大公司大投入开发的情况下，
CUDA生态圈还是比opencl丰富多了。
2. Nvidia顶级卡比其他几家顶级卡领先多少？换句话说，如果其他几家显卡想要达到
Nvidia目前的水平，估计大概需要多久？
上面已经说了，N记的显卡纯硬件性能并不比其他player强多少，价钱也没有因为CUDA
的优势就charge premium，当然你要做冤大头买K系是另一回事。优势是软件生态系统
。这个一时半会没有被谁超过的可能性，A记和I记都太不给力了。现在硬件都是白菜价
，更新换代又快，从现有的非N记硬件换到N记，再用现有的CUDA周边资源做开发，远比
自造车轮便宜和快捷。
3. 据说今年要出opencl针对ML的平台。如果想从CUDA... 阅读全帖

S******n
发帖数: 5022

来自主题: Hardware版 - GPU computing比CPU快几倍？

NVIDIA正式宣布CUDA 6：支持统一寻址！
NVIDIA今天(2013-11-15)正式宣布了最新版并行计算开发工具CUDA 6，相比此前的CUDA
5.5有着革命性的巨大进步。
NVIDIA表示，CUDA 6可以让并行编程前所未有的轻松，能够显著节省开发人员的时间和
精力，而通过GPU加速可带来最多8倍于CPU模式的性能提升。
CUDA 6的关键新特性包括：
1、统一寻址(Unified Memory)：
可直接访问CPU内存、GPU显存，无需在彼此之间手动拷贝数据，可在大量编程语言中更
简单地添加GPU加速支持。
其实CUDA 4就开始支持统一虚拟寻址，x86 CPU、GPU内存池可在同一空间内进行寻址，
但那仅仅是简单的内存管理，摆脱不了手动数据转移。
CUDA 6则在现有的内存池结构上增加了一个统一内存系统，程序员可以直接访问任何内
存/显存资源，或者在合法的内存空间内寻址，而不用管涉及到的到底是内存还是显存。
不过注意，CUDA 6并不是完全不需要数据拷贝，只不过将这个工作从程序员那里接过来
自动执行而已，它仍然受制于PCI-E的带宽和延迟，因此和AMD hUMA异构统... 阅读全帖

j*y
发帖数: 320

来自主题: Hardware版 - 自己配机器之我见

如果是需要较大内存但是对整体计算性能要求不大，主要是一些服务器的应用，
一般建议淘个二手的Xeon的带大内存的服务器或者工作站，很多公司升级机器会淘汰一
些前代的Xeon系统，不带OS。没关系，对华人而言自己装个OS不是难事。
如果对计算性能有要求，可以配一张Tesla计算卡或者Xeon Phi卡。前一些时候，Xeon
Phi卡很便宜，$150-$300能搞定，但是就是没有散热，如果自己能DIY水冷散热系统，
无疑还是很强大的。Nvidia 的Tesla则比较贵。如果你用的CPU不是Xeon系统，对ECC校
验不是那么追求，可以有相对廉价的替代方案，那就是用GTX titan卡。现在很多打游
戏的升级显卡，淘张便宜的二手GTX titan卡做计算还是蛮实用的，titan卡自己带有散
热装置，不必自己另配，也算省了很多事情。不管Tesla计算卡、Xeon Phi卡还是GTX
titan卡，都是双精度计算 1 TFlops量级的。如果这个量级的计算性能还不能满足你的
需求，那么你只能搞个大型机或者去买超算中心的服务了。
如果计算任务不重，特别是没什么双精度类型的那些科学计算，一般而言，4核... 阅读全帖

q*******i
发帖数: 353

来自主题: JobHunting版 - 求内推湾区CS职位

美国CS master毕业，现在relocate 到湾区，希望在这边能找CS相关职位，希望哪位好
心人内推（尤其看到amazon最近出了很多湾区职位，不知道有没有amazon的兄弟姐妹帮
个忙）。
CS基础课程基本满分GPA，硕士的thesis是用CUDA做金融方面VaR(value at risk)的加
速，除了CS master的课程学习和project经验，还自己学习了coursea上面几个web
programming还有andriod的课程，做过数个project，附上自己的project 简介，所有
代码都可以在https://github.com/zzMOM查看。使用过的语言包括Java, JavaScript,
C,HTML, CSS, SQL,使用过的platform包括Android, GitHub, HeroKu, Node.js, AWS,
Bootstrap, CUDA (GPU programming), MySQL, PostgreSQL, ArcGIS, ERDAS,
Eclipse, Emacs, Vim, 目前也在刷leetcode和CC150.... 阅读全帖

h**********9
发帖数: 3252

来自主题: Stock版 - 显卡GPU

NVDA is no doubt far ahead in this area. But CUDA is proprietary and only
support NVDA GPU. OpenCL is an open standard that both NVDA and AMD support.
If you are using NVDA cards, CUDA has better performance than OpenCL. On
the other hand, if your program is coded with OpenCL, it will support more
hardwares. In some sense, it's like iOS app (more optimized to apple
hardware) vs Android app (runs on more devices from different vendors).
http://create.pro/blog/open-cl-vs-cuda-amd-vs-nvidia-better... 阅读全帖

d****p
发帖数: 685

来自主题: Apple版 - 关于OpenCL－苹果，Intel，AMD，NVIDIA和MSFT

苹果OpenCL规范出来了，目前三大显卡生产商NVIDIA/AMD/Intel都宣布支持。三家各自
的出发点都不同：
1。NVIDIA已经有自己的CUDA，所以本质上更偏向自己的CUDA；但是看到竞争对手都在
捣鼓，怕自己被丢下。好在
OpenCL到实用至少1年2年，加上CUDA已经初步建立自己的用户群，所以心里有底。估计
其对OpenCL的支持会留一
手，最新的功能一定先上到CUDA上，两者性能会有差别。
2。AMD。对OpenCL全力支持。由于已经在GPGPU领域落后于NVIDIA，所以就等着雪豹早
点出来。我估计Raedon
系列显卡对雪豹／OpenCL支持最好。
3。Intel。开始进军高端显卡（Larrabee）。由于Larrabee采取和传统独立图形显卡不
同的体系结构，加上这是Intel
从未涉足的领域，开发员可能不会马上跟进，所以Intel对OpenCL的支持有不确定性。
微软基本不会理会OpenCL而专著DirectX11。未来10年就看这两者如何争夺嵌入移动图
形市场了。
有一篇很好的文章分析CUDA和OpenCL如下。
http://group.zol.com.c

a****a
发帖数: 5763

来自主题: Apple版 - OpenCL：图形处理领域的革新【14/23】

http://bbs.weiphone.com/read-htm-tid-527192.html
OpenCL
截至到现在，我们在《Snow Leopard：宝刀已铸成关二爷请砍人(连载8/23)》
中探讨了程序开发者们究竟该如何充分利用现有的硬件资源来进一步提升计算机整体性
能，在《Snow Leopard充满活力的心脏——LLVM和Clang(连载9/23)》中了解了更为新
颖与现代的编译构建，在《持续完善，构建编程友好型环境(连载10/23)》中谈到了
Snow Leopard中新添加的编程语言扩展功能，并且在《Grand Central Dispatch：迎接
挑战(连载12/23)》中认识了基于这些新编译器的更强大更务实的并行API。所有这些都
意在帮助开发者和操作系统本身最大限度地利用已有硬件资源。
然而CPU却不是唯一镶满晶体管的元件。当涉及独立计算引擎时，每一台Mac中
都有另一块硅片无疑是更为显要的，那就是GPU。
引用
图形处理单元(graphics processing unit,GPU)：是一种专门进行图形处理的
处理... 阅读全帖

e*c
发帖数: 395

来自主题: Military2版 - F-35内置12枚中距弹的话，还是很可观的吧

从模型和AMRAAM实物对比上看，CUDA的直径与AMRAAM相差不大。
CUDA载弹量增加主要一是长度减半，二是舵面缩小。小舵面的机动能力不足，由姿控火
箭阵列补上，甚至能更上一个台阶。另一方面，小舵面阻力较小，也是好处。
总之CUDA雷达口径与AMRAAM相仿。考虑到AMRAAM技术已经20年了，CUDA的锁定距离更远
也有可能。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天