由买买提看人间百态

topics

全部话题 - 话题: cuda
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
l********e
发帖数: 82
1
来自主题: shopping版 - 分析评论:NVIDIA、CUDA与x86 [zz]
著名市场调研机构John Peddie Research近日撰文,对NVIDIA日前宣布的CUDA-x86编译
器进行了分析和评论,并探讨了CUDA、x86技术的彼此关系,特别是NVIDIA究竟为什么
要这么做。
其实事情并没有现象得那么简单。NVIDIA上周在GTC 2010图形技术大会上宣布的CUDA-
x86编译器与其获取x86知识产权并没有任何关系。虽然这种说法在过去今年中从来没有
停止过。事实上,这个所谓的CUDA-x86跨平台编译器只是用于在x86架构硬件上运行
CUDA编写的应用程序。
乍一看,这似乎和NVIDIA的长期策略相抵触。NVIDIA一直在努力将应用程序的运行从
x86 CPU转移到GPU上,那么为什么又要将自家硬件专属的CUDA程序移植到x86平台上呢?
其实,NVIDIA此番并不是要帮助CUDA开发人员,而是有新的目标。
NVIDIA官方宣称,CUDA-x86编译器的目的是降低开发人员CUDA入门的难度。现在绝大部
分的计算基础架构都是基于 x86处理器的,想一下子转入GPU并行计算并没有那么简单
,CUDA-x86就在两者中间搭建了这么一座桥梁。通过帮助程
kn
发帖数: 2446
2
我部分同意你的观点,即CUDA本身只是一种并行计算平台,和其他并行计算并无矛盾。
但是虽说CUDA本身只是一个软硬件平台,他代表的是一种GPGPU计算的可能性。
在CUDA出来之前,并没有一个方便的平台让人们进行这种并行信号处理,
不论是硬件还是软件开发环境。
但是CUDA就提供了一种可能性,使人可以花很少钱,就能拥有一套并行处理研究平台。
近期看到一些较新paper,讨论使用CUDA实现并行LDPC,Turbo Decoding,
也有使用CUDA做ralay或者detection的。
另外,因为CUDA本身基于通用GPU,
个人PC或者服务器上很可能已经安装了支持CUDA的显卡,
这些显卡平时大部分时候可能处于idle状态,也就是一种性能闲置和浪费的状态,
这样就提供了一些可能性,就是在GPU处于比较空闲的状态下,
可以分配一部分GPU资源协助进行信号处理,
无论是用来协助无线通信部件做detection或ralay,
或者进行其他一些computation-intensive的计算。
因为这部分硬件资源已经在那里了,不用也是一种浪费,
怎么发挥GPU的余热,榨干剩余的性能,
如何
kn
发帖数: 2446
3
我部分同意你的观点,即CUDA本身只是一种并行计算平台,和其他并行计算并无矛盾。
但是虽说CUDA本身只是一个软硬件平台,他代表的是一种GPGPU计算的可能性。
在CUDA出来之前,并没有一个方便的平台让人们进行这种并行信号处理,
不论是硬件还是软件开发环境。
但是CUDA就提供了一种可能性,使人可以花很少钱,就能拥有一套并行处理研究平台。
近期看到一些较新paper,讨论使用CUDA实现并行LDPC,Turbo Decoding,
也有使用CUDA做ralay或者detection的。
另外,因为CUDA本身基于通用GPU,
个人PC或者服务器上很可能已经安装了支持CUDA的显卡,
这些显卡平时大部分时候可能处于idle状态,也就是一种性能闲置和浪费的状态,
这样就提供了一些可能性,就是在GPU处于比较空闲的状态下,
可以分配一部分GPU资源协助进行信号处理,
无论是用来协助无线通信部件做detection或ralay,
或者进行其他一些computation-intensive的计算。
因为这部分硬件资源已经在那里了,不用也是一种浪费,
怎么发挥GPU的余热,榨干剩余的性能,
如何... 阅读全帖
h****3
发帖数: 339
4
来自主题: Hardware版 - CUDA学习(转载)
因为老师要求,现在开始学习CUDA的相关知识。开始在网上找了很多教程,都在一
点一点看,后来同学推荐了一本书,是《GPU高性能编CUDA实战》,觉得挺不错的,书
上的实例代码我都有码,对CUDA的理解也越来越深了,打算把这些记下来,以后可以复
习,也给后来学习的人一点参考,少走弯路。
来老师实验室三周了,每天就是呆在实验室里学习CUDA,我开始以为是用CUDA做图
形图像呢,后来才知道老师让我学CUDA是做信号处理的,这个就比较蛋疼了,苦日子在
后头呢。本来九月开学呢,我暑假就过来了,想着人丑还不好好学习就没救了。现在早
上到实验室,中午回去睡个觉,下午又来,吃完晚饭去图书馆看会书,晚上去附近学校
浪一浪,觉得这每天的生活也挺不错的。虽说每天都要来实验室,学新东西,可是客观
的说,我觉得有学上真是一件幸福的事。
k***i
发帖数: 462
5
来自主题: Hardware版 - CUDA 编程应该选哪种显卡
刚好组里有人买CUDA的工作站,俺平时唠嗑所知基本上是这样的:
用于CUDA的电脑需要大于等于2个显卡,一个用于GPU计算,一个用于图形输出。
用于GPU计算最好当然是Tesla,NV专门设计用于CUDA的,没有DVI接口,stream
processer很多,并行计算能力强。用于图形输出的可以是集成显卡或独立显卡,但一
般都选NV的专业显卡Quadro系列,无他,绘图功能强些。所以最简单的CUDA工作站是一
个NV芯片的集显主板加一个NV的独立显卡。
CPU一般原则是核心数不少于GPU数,Memory是一个Telsa应该给不少于4G内存。
NV主页上有好几家公司的链接,它们都提供可选配置的CUDA工作站。
我们组买的一台配置大概是:2个四核的Xeon CPU(i7架构),三个Tesla显卡+1个
Quadro显卡(目前只有少数主板有四条PCI E *16插槽,我们用的是服务器主板),32G
内存,2T硬盘(raid 1),1200W电源,大概7000多刀。Tesla显卡目前似乎是买一送一
,所以还是挺值的。
m****s
发帖数: 1481
6
来自主题: Hardware版 - 大家说说 cuda 和 opencl 吧
我学过一点opencl,cuda没学过。这个东西效果还是有的,但是没有吹得那么神。基本
上同价位的cpu和gpu,对于可并行化的计算工作,gpu跑的速度是cpu的10-30倍。那些
吹嘘说达到上百倍加速的基本上都是扯淡可以忽略。10-30倍看起来不多,但是实际上
还是有很大意义的,以前我们要跑1,2个星期的simulation,现在1天不到就跑完了,
这个效率提高还是很明显的。当然任何新东西学起来都有一个过程,算是overhead吧,
但是学会了之后干活还是真的有效的。
opencl学起来挺简单的,其实就是C语言。难点在于如何把要跑的程序并行化,同时要
考虑gpu的硬件特性,比如大量内存操作很慢,但是可以用多个thread来隐藏;要尽量
减少register的应用,也就是程序里那些静态分配的变量;要注意内存的bank
conflict;等等。总的来说,学起来不难,需要了解少量硬件特性。当然我也只是刚入
门,可能还没接触到高深的。但是就我做的项目,基本上实现硬件理论上的加速效果还
是挺容易的。
cuda我只大概看了看,感觉和opencl差得不多,基本上就是同样的架构不同的语句。不
过nv... 阅读全帖
l***j
发帖数: 300
7
来自主题: Computation版 - 关于CUDA
如果你PhD用Cuda去研究并行计算相关的课题,听上去还合理。单纯做Cuda似乎不算一
个PhD课题。 另外Cuda只是nVidia一家主推的东西,学校里面做做研究还可以,实际大
规模商用还有一定的距离。有时也不是Cuda本身的局限,更多的GPU的局限。现在
OpenCL已经成为业界标准,如果GPU计算被大规模采用的话,一般会选择OpenCL作为开
发语言。如果你光想着为将来找工作准备,我觉得学会Cuda或者学会OpenCL都不足以让
你有任何的优势。
s****a
发帖数: 238
8
来自主题: JobHunting版 - 现在搞CUDA的好不好找工作
烂校物理phd,为了找工作很早就准备多写Code,C++写了三四年了,两年前看CUDA很有
前途就去学,也做了好几个项目,但都是科学计算方面的。现在正式毕业开始找工作,
发现这样的背景还是很难,虽然网上的C++面试题都可以应付,就是连一个面试都没有
,感觉CUDA在学术界很热,但在工业界好像还没有成气候,最多算个plus。
现在看自己的背景除了CUDA就没有一个擅长的方向,如果CUDA的工作不好找,在C++的
基础上应该加强哪些方向比较好,比如数据库或图像?OPT已经用了一个月了,压力很大
,跪求指点....
s****a
发帖数: 238
9
来自主题: JobHunting版 - 现在搞CUDA的好不好找工作
没错,我也看过opencl,可以说和cuda的driver API基本是一回事,写起来会比较繁琐,基
本思路还是一回事.
第二点不能同意更多,cuda的算法设计优化基本就是围绕硬件资源进行的,我不知道
opencl里面怎么做,但感觉它号称在各个平台都能运行不太靠谱.
GE healthcare投过,无回应

不过说实话,cuda只能算是SIMD中比较特别的一种。基本写cuda的要对硬件比较了解。
如果了解硬件的话,各种CPU的SIMD的东西最好也知道啊。
学术界火,大部分原因是NVIDIA给钱。
GE healthcare,
Pelican imaging
都有岗位,你可以去试试 :-)
h**f
发帖数: 149
10
来自主题: Computation版 - 关于Matlab+CUDA问题求教
刚装上CUDA2.0 Toolkit 和 SDK,原来的问题解决了,但又有新问题
Cuda for Matlab 1.1
Matlab R2008A
Linux- Ubuntu 8.04
>> unix('make');
/usr/local/matlab/bin/mex CFLAGS='-fPIC -D_GNU_SOURCE -pthread -fexceptions'
COPTIMFLAGS='-O3 -funroll-loops -msse2' fft2_cuda.c \
-I/usr/local/cuda/include -L/usr/local/cuda/lib -lcufft -Wl,-rpath,/
usr/local/cuda/lib
Warning: You are using gcc version "4.2.3". The earliest gcc version
supported
with mex is "4.0.0". The latest version tested for use with mex is
"4.2.
kn
发帖数: 2446
11
正在找phd方向,准备下学期多看看CUDA相关的paper和研究进展。
比较感兴趣的内容包括用CUDA作co-processor加速并行计算,CUDA在信号处理方面的应
用,或者对CUDA体系结构本身的分析和改进等方面
麻烦推荐下有没有一些做的比较好的research group,在进行相关研究。
还有相关研究结果主要出现在哪些会议上,谢谢。
kn
发帖数: 2446
12
正在找phd方向,准备下学期多看看CUDA相关的paper和研究进展。
比较感兴趣的内容包括用CUDA作co-processor加速并行计算,CUDA在信号处理方面的应
用,或者对CUDA体系结构本身的分析和改进等方面
麻烦推荐下有没有一些做的比较好的research group,在进行相关研究。
还有相关研究结果主要出现在哪些会议上,谢谢。
r****t
发帖数: 10904
13
来自主题: JobHunting版 - 求经验Nvidia的CUDA developer
我猜 CUDA dev 硬件应该会考很多,
CUDA app dev 才是读 CUDA doc 的。
w**f
发帖数: 7794
14
来自主题: JobHunting版 - 现在搞CUDA的好不好找工作
市场应该还不错, 现在GPU/CUDA还是挺时髦的。
GTC上从公司名单看, 工业界的应用也挺多的。 可能还是简历的问题。
CUDA招人并不太容易。 另外, 除了CUDA, CPU的算法优化也要下功夫, 因为不是什么
都适合用GPU的。
h******6
发帖数: 2697
15
来自主题: JobHunting版 - 现在搞CUDA的好不好找工作
我已经做了三年的cuda计算了……phd方向就是cuda,这个gpgpu计算是大势所趋,只不
过目前工业界还没达到那个规模。目前的确不是很好找工作或者实习如果单纯凭你的
cuda经验的话。希望我毕业的时候这个就业能好一些
r*******t
发帖数: 8550
16
来自主题: JobHunting版 - 现在搞CUDA的好不好找工作
真正做CUDA的起薪都至少15万base加bonus,公司一般对申请者的其他背景都考虑。因
为公司做CUDA的一般是对现有的程式/算法来做显著改进,需要有本行业如 图像/医疗/
金融 计算的知识,光会CUDA没用。
GE healthcare 给的少,才10万,会的人不会去,新人它又不招。
s*****e
发帖数: 10
17
来自主题: JobHunting版 - 现在搞CUDA的好不好找工作
你用用CUDA里cu的API就一样烦琐了。
Opencl的灵活性比较大,因为兼容的东西太多,很多东西要自己tune,不想CUDA就一家
GPU。所以Opencl的东西都要对具体hardware非常非常清楚。CUDA也是。
e********5
发帖数: 422
18
来自主题: JobHunting版 - 现在搞CUDA的好不好找工作
opencl主要还是看apple和intel愿不愿意投大笔的钱支持吧 为cuda nvidia投了上亿了
现在也不知道收回成本没有。
amd没有这个钱。我在里面实习了一阵 觉得员工完全没有积极性 管理也挺混乱。
他家的x86水平差intel一年半,明明就应该放弃了,可里面的遗老遗少还在做梦。就应
该专心gpu,靠着ati的底子,实力还是很不错的。但他们2006年又匪夷所思的把mobile
gpu部门以几千万刀卖给了qcom!@#¥%。今年amd graphics部门的cto终于跳槽去了
qcom当vp。不知道amd graphics未来怎么样。
qcom和三星也是opencl的支持者,但ocl本身是为desktop和hpc设计的,对mobile一点
都不友好。我看迟早要分家。
cuda那个loyality的问题在mobile上其实很严重。hpc上用户很少,都是专家,而且有
足够的钱买设备,就还好。大不了都换成nvidia的设备呗。mobile这边用户开发者都相
对小白,而且看重popularity。你要人开发一套cuda程序只能用在未来的tegra芯片上
,不能跑在apple,sams... 阅读全帖
C*****5
发帖数: 8812
19
相信有些人已经注意到了。
之前NVDA的GPU之所以独占DL是因为所有的主流Library只支持NVDA的Cuda,但是最近发现
Theano(几大主流库之一)已经预告未来他们将支持GPUArray。GPUArray其实是在
Cuda和AMD的OpenCL之上的一个库,通过GPUArray可以让DL程序同时支持Cuda和OpenCL
。相信其他主流库也会跟进。
此消彼长,这对AMD是好消息,对NVDA是坏消息,所以我会继续保持全仓持有NVDAMD,
但是会调整持股比例。适度加大AMD仓位。
l******g
发帖数: 397
20
【 以下文字转载自 NewYork 讨论区 】
发信人: laoniang (非喜勿扰), 信区: NewYork
标 题: 谁对CUDA语言熟悉,用在GPU上,跪求好的TUTORIAL
发信站: BBS 未名空间站 (Fri Aug 3 18:25:21 2012, 美东)
想在最短时间内学会CUDA语言,用来研究GPU。跪求高人给个实用快速掌握的CUDA
TUTORIAL。
f******o
发帖数: 27
21
【 以下文字转载自 Programming 讨论区 】
发信人: fenghedo (vag), 信区: Programming
标 题: 内推机会:HPC Cuda in a medical device company in Fremont, CA
关键字: hpc,cuda
发信站: BBS 未名空间站 (Fri Jan 23 22:44:44 2015, 美东)
There is an open position in our company that needs to be filled right now.
If you have experience in HPC, specifically CUDA programming, then you can
send me a message and I'll recommend you.
The position is in a medical device company in south Fremont, CA.
l******g
发帖数: 397
22
【 以下文字转载自 NewYork 讨论区 】
发信人: laoniang (非喜勿扰), 信区: NewYork
标 题: 谁对CUDA语言熟悉,用在GPU上,跪求好的TUTORIAL
发信站: BBS 未名空间站 (Fri Aug 3 18:25:21 2012, 美东)
想在最短时间内学会CUDA语言,用来研究GPU。跪求高人给个实用快速掌握的CUDA
TUTORIAL。
t********t
发帖数: 5415
23
来自主题: ComputerGraphics版 - 请问有用CUDA的吗?
laptop的一大问题是某些厂商修改设备ID导致cuda driver没法识别显卡...我的
latitude e6400鼓捣一阵之后才能用cuda(nvs 160M,破卡)
cuda想搞的爽肯定要desktop + gtx260+或者直接tesla...
w***h
发帖数: 345
24
【 以下文字转载自 Hardware 讨论区 】
发信人: wwtsh (天边的沙), 信区: Hardware
标 题: 大家说说 cuda 和 opencl 吧
发信站: BBS 未名空间站 (Sat Oct 1 18:49:37 2011, 美东)
知道在版上有很多高手在做数值计算
挖个坑请大家讨论一下 cuda 和 opencl 应该选择哪个,有什么优缺点
性能如何?
操作系统用 win 还是 linux, 亦或是 mac osx? (知道 mac 在系统级别支持 opencl,
而且现在大部分机型都已经转向 ait 的显卡,要开发 cuda 就没办法了)
等等
万分感谢分享宝贵的经验!
O*******d
发帖数: 20343
25
来自主题: Hardware版 - 我写的CUDA屏保软件-公开源码
写这个屏保,花了我两个星期的时间。当然也学到了很多东西。 还为此买了一个新的
显卡来试验。 只读了一本CUDA的书。 就是CUDA by example。 然后读了NVidia的CUDA
的spec 文件。
w***h
发帖数: 345
26
来自主题: Hardware版 - 大家说说 cuda 和 opencl 吧
嗯,目前看起来只有 Apple 一家最坚定的站在 opencl 后面
不知道 opencl 以后的前景如何
cuda 目前看起来不错,不过就是锁定 N 卡平台
而且不能兼容 cpu, 是个很大的限制
否则像 opencl 程序那样,也可以选在在多核 cpu 上运行
是个不小的诱惑
现在 mac 机主用 A 卡了,opencl 成为 mac 平台唯一的选择了
有没有对 cuda 和 opencl 性能做过比较的?
好像所有的文献都说 cuda 性能好于 opencl
这可能和对平台的有针对性的优化有关吧
O*******d
发帖数: 20343
27
写这个屏保,花了我两个星期的时间。当然也学到了很多东西。 还为此买了一个新的
显卡来试验。 只读了一本CUDA的书。 就是CUDA by example。 然后读了NVidia的CUDA
的spec 文件。
e***e
发帖数: 3872
28
来自主题: Computation版 - CUDA FFT
【 以下文字转载自 Graphics 讨论区 】
发信人: etude (小铃铛), 信区: Graphics
标 题: CUDA FFT
发信站: BBS 未名空间站 (Sat Apr 14 11:50:57 2007), 转信
比较了一下CUDA FFT Lib和Intel Math Kernel的性能,计算2D FFT,single
precision float complex to complex, 硬件分别是8800GTS和P4 3.0G(w/ HT)
显存640M和内存1G,下表中时间单位为毫秒:
size: 256 * 256 512 * 512 1024 *1024 2048 * 2048
CUDA 9.093843 31.65965 96.12374 603.8209
9.508812 31.58298 96.13728 609.9658
8.999843 31.65233 9
a*****u
发帖数: 157
29
我是做CMP,MULTITHREADING方面的硬件的,CUDA的软件平台只看过些PAPER和TUTORIAL
,并不算懂。
用CUDA做个什么APPLICATION这样不属于RESEARCH,只是属于工程应用。用任何一个软
件做一个APPLICATION,这都不算RESEARCH。要做RESEARCH,要放开CUDA这个平台的局
限,研究本质性的问题。例如硬件如何处理同一个WRAP里面不同线程的BRANCH,如何改
进计算模型,如何调度线程等等。
GPU在HPC方面应用很有前景,现在的超算都会用GPU做加速,新出的TOP500里面排名第
二我们中国的那个机器,就是GPU做加速。超算主要面对像石油,气象,分子模拟这些
传统应用。不过是我是EE出生的,我觉得GPU在DSP方面并没有太大优势,因为功耗太高
,单片动不动上百瓦。而且GPU最强大的浮点能力,在传统DSP应用里面也发挥不出来。
你说的通信里面的DECODER,DETECTOR,我印象里都是用定点运算可以解决的,而且也
用不着GPU的上百GFLOP的计算量。用DSP或者FPGA做比GPU功耗要低得多。
a*****u
发帖数: 157
30
Just my opinion..
Using a platform to implement an application without improvement in
algorithm is considered as engineering work rather than research..You learn
a new platform, writing code on it, it's not research. But when you using
CUDA to design a novel parallel algorithm, your research object is the
algorithm rather than using CUDA..CUDA is just a tool to demonstrate your
algorithm..
of course you can disagree with me..
a*****u
发帖数: 157
31
我是做CMP,MULTITHREADING方面的硬件的,CUDA的软件平台只看过些PAPER和TUTORIAL
,并不算懂。
用CUDA做个什么APPLICATION这样不属于RESEARCH,只是属于工程应用。用任何一个软
件做一个APPLICATION,这都不算RESEARCH。要做RESEARCH,要放开CUDA这个平台的局
限,研究本质性的问题。例如硬件如何处理同一个WRAP里面不同线程的BRANCH,如何改
进计算模型,如何调度线程等等。
GPU在HPC方面应用很有前景,现在的超算都会用GPU做加速,新出的TOP500里面排名第
二我们中国的那个机器,就是GPU做加速。超算主要面对像石油,气象,分子模拟这些
传统应用。不过是我是EE出生的,我觉得GPU在DSP方面并没有太大优势,因为功耗太高
,单片动不动上百瓦。而且GPU最强大的浮点能力,在传统DSP应用里面也发挥不出来。
你说的通信里面的DECODER,DETECTOR,我印象里都是用定点运算可以解决的,而且也
用不着GPU的上百GFLOP的计算量。用DSP或者FPGA做比GPU功耗要低得多。
a*****u
发帖数: 157
32
Just my opinion..
Using a platform to implement an application without improvement in
algorithm is considered as engineering work rather than research..You learn
a new platform, writing code on it, it's not research. But when you using
CUDA to design a novel parallel algorithm, your research object is the
algorithm rather than using CUDA..CUDA is just a tool to demonstrate your
algorithm..
of course you can disagree with me..
k*******d
发帖数: 1340
33
是的,CUDA怎么写只是工程问题
LDPC/Turbo decoder在Matlab里面应该已经有CUDA实现了,它们还是需要浮点的吧,那
些都是软译码算法。
CUDA还有一个应用方向:Quantitative Finance

TUTORIAL
e***e
发帖数: 3872
34
来自主题: _ZST版 - CUDA FFT
【 以下文字转载自 Graphics 讨论区 】
发信人: etude (小铃铛), 信区: Graphics
标 题: CUDA FFT
发信站: BBS 未名空间站 (Sat Apr 14 11:50:57 2007), 转信
比较了一下CUDA FFT Lib和Intel Math Kernel的性能,计算2D FFT,single
precision float complex to complex, 硬件分别是8800GTS和P4 3.0G(w/ HT)
显存640M和内存1G,下表中时间单位为毫秒:
size: 256 * 256 512 * 512 1024 *1024 2048 * 2048
CUDA 9.093843 31.65965 96.12374 603.8209
9.508812 31.58298 96.13728 609.9658
8.999843 31.65233 9
d********f
发帖数: 43471
35
来自主题: JobHunting版 - 现在搞CUDA的好不好找工作
这些东西上手快,做好难,很多数值程序拿书上的example copy paste就能run,但是
算法设计就很难了。cuda最大的问题是丫的根本不开放底层技术资料,大家根本不知道
他的系统架构是怎么处理代码流程的,所以很多cuda的文章都是靠蒙。它家倒是很大方
,到处给人送workstation

疗/
g**********t
发帖数: 475
36
【 以下文字转载自 Computation 讨论区 】
发信人: geneticdrift (不懂微积分), 信区: Computation
标 题: 如何用CUDA同时计算几百个实对称矩阵的eigenvalues/eigenvecot
发信站: BBS 未名空间站 (Mon Jul 2 02:38:51 2012, 美东)
我有一个程序要反复计算几百个(约500个)64 x 64的实对称矩阵的所有的
eigenvalues/eigenvectors。自己用CUDA实现了一个Jacobi algorithm with chess
tournament ordering。具体来说,每个block(含有32个threads)处理一个矩阵,这32
个threads并行消去一个矩阵中的32个off-diagonal elements,直到算法收敛。结果无
误,计算单个矩阵所花的时间也和最近的一篇paper里的数据接近。但是这个算法和CPU
上的library比没有太大的优势。在同时处理这500个矩阵的情况下,和GSL里面高度优
化的函数比较(用单CPU),用GPU仅仅快了一倍。我觉得主要是... 阅读全帖
h***o
发帖数: 13
37
My company (Fairchild Imaging, Milpitas, CA) is looking for a student with
GPU programming experience (nVidia CUDA chips) to start immediately. The
initial term is for 3 months and can be extended based on performance. To
qualify, you must be either a US citizen or green card holder.
Must have:
1. US citizenship or greencard
2. GPU programming experience with nVidia CUDA chips
Great to have:
1. Matlab programming experience
2. Image processing algorithm design
Local candidates preferred, though
z****n
发帖数: 3189
38
所以说,外行人真的不能乱看股评。
因为他们只会看ppt,ppt说什么,他们就信什么。
刚好amd又是一个ppt公司,,,,
这么说吧,正在用cuda的是不太可能会放弃cuda的了,要记住,写代码才是大头,买几
张破显卡不是。另外,用过opencl的人都不会觉得按摩店的东西能用。

发现
OpenCL
l******g
发帖数: 397
39
想在最短时间内学会CUDA语言,用来研究GPU。跪求高人给个实用快速掌握的CUDA
TUTORIAL。
g**********t
发帖数: 475
40
【 以下文字转载自 Computation 讨论区 】
发信人: geneticdrift (不懂微积分), 信区: Computation
标 题: 如何用CUDA同时计算几百个实对称矩阵的eigenvalues/eigenvecot
发信站: BBS 未名空间站 (Mon Jul 2 02:38:51 2012, 美东)
我有一个程序要反复计算几百个(约500个)64 x 64的实对称矩阵的所有的
eigenvalues/eigenvectors。自己用CUDA实现了一个Jacobi algorithm with chess
tournament ordering。具体来说,每个block(含有32个threads)处理一个矩阵,这32
个threads并行消去一个矩阵中的32个off-diagonal elements,直到算法收敛。结果无
误,计算单个矩阵所花的时间也和最近的一篇paper里的数据接近。但是这个算法和CPU
上的library比没有太大的优势。在同时处理这500个矩阵的情况下,和GSL里面高度优
化的函数比较(用单CPU),用GPU仅仅快了一倍。我觉得主要是... 阅读全帖
d********f
发帖数: 43471
41
cuda community太小了,老中作这个尤其少,你真想问直接问paper的作者不就好了,
cuda的东西基本靠蒙,从你的参数来看64x64的矩阵说实话基本很难优化,基本不具备
partition的可能。
w*******n
发帖数: 637
42
来自主题: ComputerGraphics版 - 请问有用CUDA的吗?
请问有哪款可以用来CUDA编程的laptop来推荐吗?
看了一下Thinkpad的 没有支持CUDA的GPU可选
请问大家都在用什么呀?
台式机的话大概说一下配置也好啊?
这些天正犹豫上台还是上本呢。。。
谢谢啦!!!
O*******d
发帖数: 20343
43
来自主题: ComputerGraphics版 - 我写的CUDA屏保软件 (转载)
【 以下文字转载自 Hardware 讨论区 】
发信人: OverCloud (天马行空), 信区: Hardware
标 题: 我写的CUDA屏保软件
发信站: BBS 未名空间站 (Sat Aug 13 23:32:23 2011, 美东)
前段时间在研究CUDA,写了一个练习用的屏保。下边是截屏图。 图形是动画的。 根据
你的显卡的能力,在1920x1080屏幕上,图像帧频可以自动从15赫兹到60赫兹变换。我
用的GeForce8600GTS,图像每秒可以更新15次。 最近换了GeForce460 图像更新每秒50
次。 图形是低频的Perlin Noise。 以前写过一个CPU的类似屏保,但QuadCore的CPU
计算一幅图像要1.5秒左右,还是用了OpenMP,但也无法实现实时动画。 用GPU计算,
只需要20毫秒即完成。 现在这个屏保只能在NVidia显卡上运行,准备过段时间把这个
屏保改成OpenCL的,就可以在NVidia和ATI的显卡上运行了
下载链接
http://www.mediafire.com/?7cgkd6kn374941h
B******m
发帖数: 2643
44
来自主题: ComputerGraphics版 - 我写的CUDA屏保软件 (转载)
你感觉同样一个程序用CUDA写会快多少?
譬如我们做个non-local means那种比较费劲的去噪程序,把循环里面的部分用CUDA写
过的话跟不用差多少?

50
CPU
O*******d
发帖数: 20343
45
来自主题: ComputerGraphics版 - 我写的CUDA屏保软件-公开源码 (转载)
【 以下文字转载自 Hardware 讨论区 】
发信人: OverCloud (天马行空), 信区: Hardware
标 题: 我写的CUDA屏保软件-公开源码
发信站: BBS 未名空间站 (Wed Aug 17 23:18:24 2011, 美东)
http://www.mitbbs.com/article_t/Hardware/31569029.html
源码下载链接
http://www.mediafire.com/?2oer266dx2iz9vs
主要的文件是
IsobarCUDA.cu
Isobar.cpp
IsobarHelper.cpp
其它的文件都是辅助文件。 Jpeg的文件是从网上下载的。
Project是给Visual Studio 2008. 需要安装CUDA SDK VisualStudio2008 plugin。
g**********t
发帖数: 475
46
【 以下文字转载自 Computation 讨论区 】
发信人: geneticdrift (不懂微积分), 信区: Computation
标 题: 如何用CUDA同时计算几百个实对称矩阵的eigenvalues/eigenvecot
发信站: BBS 未名空间站 (Mon Jul 2 02:38:51 2012, 美东)
我有一个程序要反复计算几百个(约500个)64 x 64的实对称矩阵的所有的
eigenvalues/eigenvectors。自己用CUDA实现了一个Jacobi algorithm with chess
tournament ordering。具体来说,每个block(含有32个threads)处理一个矩阵,这32
个threads并行消去一个矩阵中的32个off-diagonal elements,直到算法收敛。结果无
误,计算单个矩阵所花的时间也和最近的一篇paper里的数据接近。但是这个算法和CPU
上的library比没有太大的优势。在同时处理这500个矩阵的情况下,和GSL里面高度优
化的函数比较(用单CPU),用GPU仅仅快了一倍。我觉得主要是... 阅读全帖
O*******d
发帖数: 20343
47
来自主题: Hardware版 - 我写的CUDA屏保软件
你需要下载cudart_32.dll。 这个dll是CUDA的runtime。 最简单的就是下载全套CUDA
SDK
w***h
发帖数: 345
48
来自主题: Hardware版 - 大家说说 cuda 和 opencl 吧
知道在版上有很多高手在做数值计算
挖个坑请大家讨论一下 cuda 和 opencl 应该选择哪个,有什么优缺点
性能如何?
操作系统用 win 还是 linux, 亦或是 mac osx? (知道 mac 在系统级别支持 opencl,
而且现在大部分机型都已经转向 ait 的显卡,要开发 cuda 就没办法了)
等等
万分感谢分享宝贵的经验!
m********5
发帖数: 17667
49
来自主题: Hardware版 - 大家说说 cuda 和 opencl 吧
确实已经有不少这方面的文章发表了;)
但是可用性上,我个人还是觉得CUDA好得多
但是实际上还是有一些bias, 因为测试只能在N卡上进行
我猜N卡的确可能对CUDA的支持更好一些吧,
其实不用纠结于这个的,编程上我感觉未来会差不多
E***e
发帖数: 3430
50
具体到Monte Carlo的最好
类似这样的
找到的benchmark全都是在OpenCL上跑NV,明显不太公平
所以很好奇能不能找到CUDA上跑各种NV GPU的benchmark
问题问到再具体不过了,请那些不懂的不要进来犯贱扯什么CPU,优化,挖矿,dense
matrix, hyper之类不着边的东西。
我就是问NV GPU在CUDA上的benchmark,最好是Monte Carlo,谢谢!
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)