P**H 发帖数: 1897 | 1 macbook pro i7-4750HQ CPU @ 2.00GHz, OSX,veclib/homebrew openblas(binary)
server E5-1650 v2 @ 3.50GHz,ubuntu 14.04 lts,openblas(stock binary)
我那numpy算随机3000x3000乘3000x3000。mac上0.4s,server上1.7s。完全没道理。从
tdp,主频,turbo,这个i7全线不如xeon。
难道是mac优化得好?或者ubuntu上那个openblas有问题?
还有,就在mac上,openblas和veclib在这个大矩阵乘法差不多,但是eigen,svd那些
,veclib都快一些。这也是mac优化得好? |
l*******m 发帖数: 1096 | 2 你可以看numpy到底用了什么blas
binary)
【在 P**H 的大作中提到】 : macbook pro i7-4750HQ CPU @ 2.00GHz, OSX,veclib/homebrew openblas(binary) : server E5-1650 v2 @ 3.50GHz,ubuntu 14.04 lts,openblas(stock binary) : 我那numpy算随机3000x3000乘3000x3000。mac上0.4s,server上1.7s。完全没道理。从 : tdp,主频,turbo,这个i7全线不如xeon。 : 难道是mac优化得好?或者ubuntu上那个openblas有问题? : 还有,就在mac上,openblas和veclib在这个大矩阵乘法差不多,但是eigen,svd那些 : ,veclib都快一些。这也是mac优化得好?
|
P**H 发帖数: 1897 | 3 的确都是用的openblas。我查过了。再说,如果是用的非优化的blas,2s之内肯定算不
完的。
【在 l*******m 的大作中提到】 : 你可以看numpy到底用了什么blas : : binary)
|
n***d 发帖数: 8857 | 4 用了gpu?
binary)
【在 P**H 的大作中提到】 : macbook pro i7-4750HQ CPU @ 2.00GHz, OSX,veclib/homebrew openblas(binary) : server E5-1650 v2 @ 3.50GHz,ubuntu 14.04 lts,openblas(stock binary) : 我那numpy算随机3000x3000乘3000x3000。mac上0.4s,server上1.7s。完全没道理。从 : tdp,主频,turbo,这个i7全线不如xeon。 : 难道是mac优化得好?或者ubuntu上那个openblas有问题? : 还有,就在mac上,openblas和veclib在这个大矩阵乘法差不多,但是eigen,svd那些 : ,veclib都快一些。这也是mac优化得好?
|
d***a 发帖数: 13752 | 5 E5-1650支持AVX,i7-4750支持AVX2。AVX/AVX2是向量指令集扩展。AVX2把寄存器宽度
从AVX的128位扩充到了256位,并且增加了新的指令,特别是FMA。对能用上向量处理的
程序来说,这些差别是挺大的。
Intel这个blog提了一些数据,见图。
https://embedded.communities.intel.com/community/en/software/blog/2013/08/01
/avx-20-enables-faster-image-and-signal-processing
binary)
【在 P**H 的大作中提到】 : macbook pro i7-4750HQ CPU @ 2.00GHz, OSX,veclib/homebrew openblas(binary) : server E5-1650 v2 @ 3.50GHz,ubuntu 14.04 lts,openblas(stock binary) : 我那numpy算随机3000x3000乘3000x3000。mac上0.4s,server上1.7s。完全没道理。从 : tdp,主频,turbo,这个i7全线不如xeon。 : 难道是mac优化得好?或者ubuntu上那个openblas有问题? : 还有,就在mac上,openblas和veclib在这个大矩阵乘法差不多,但是eigen,svd那些 : ,veclib都快一些。这也是mac优化得好?
|
h******n 发帖数: 2795 | 6 我正准备从E5-1620v2升级到E5-1650v2,请楼主不要打击我。
很想直接升级到E5-1660v2,但是,E5-1660v2价格实在是太贵了~~ |
h******n 发帖数: 2795 | 7 即使是单线程工作,似乎E5-1650v2也不会比i7-4750HQ慢~
何况E5-1650v2是12线程,而i7-4750HQ是8线程~~
一种例外是:楼主使用的openBLAs在MACBook PRO(或编译中已经辨识了4750HQ CPU)
上编译过,且是多线程运行。而这个库在E5-1650v2上未编译(或预编译的库并没有包
括1650v2 CPU),使用的是单线程工作模式。 |
l*******m 发帖数: 1096 | 8 我的cpu是 1650V3,同样的测试是0.21s. 我的 openblas和numpy 都是从src编译安装的
【在 P**H 的大作中提到】 : 的确都是用的openblas。我查过了。再说,如果是用的非优化的blas,2s之内肯定算不 : 完的。
|
l*******m 发帖数: 1096 | 9 不是os的差别,是compilers的差别,clang比gcc是优化的好些。
http://www.phoronix.com/scan.php?page=article&item=clang-37-gcc
binary)
【在 P**H 的大作中提到】 : macbook pro i7-4750HQ CPU @ 2.00GHz, OSX,veclib/homebrew openblas(binary) : server E5-1650 v2 @ 3.50GHz,ubuntu 14.04 lts,openblas(stock binary) : 我那numpy算随机3000x3000乘3000x3000。mac上0.4s,server上1.7s。完全没道理。从 : tdp,主频,turbo,这个i7全线不如xeon。 : 难道是mac优化得好?或者ubuntu上那个openblas有问题? : 还有,就在mac上,openblas和veclib在这个大矩阵乘法差不多,但是eigen,svd那些 : ,veclib都快一些。这也是mac优化得好?
|
d***a 发帖数: 13752 | 10 E5-1650和E5-1650v2支持AVX,E5-1650v3支持AVX 2.0.
编译优化对性能来说很重要,但gcc和clang不会有这样大的差别。 |
|
|
r***i 发帖数: 913 | 11 1660v2的hp z420,ebay上刚有$850卖掉的
1660v3的DELL T5810,ebay上刚有$1146卖掉的
不要盯着cpu,直接关注整机
E5 V4也很快就来了
【在 h******n 的大作中提到】 : 我正准备从E5-1620v2升级到E5-1650v2,请楼主不要打击我。 : 很想直接升级到E5-1660v2,但是,E5-1660v2价格实在是太贵了~~
|
h******n 发帖数: 2795 | 12 eBay上单单E5-1660v2就要800刀~
1660v3的DELL T5810,$1146,如果我看到,就直接拿下了。但是,1660v3好像不如
1660v2. 相对1660v3来说,我更喜欢1650v3.
实在等不了v4,眼下有繁重simulations,急需升级CPU。
【在 r***i 的大作中提到】 : 1660v2的hp z420,ebay上刚有$850卖掉的 : 1660v3的DELL T5810,ebay上刚有$1146卖掉的 : 不要盯着cpu,直接关注整机 : E5 V4也很快就来了
|
P**H 发帖数: 1897 | 13 我觉得可能是Ubuntu上那个openblas没有优化好。我自己编译一下试试。
【在 d***a 的大作中提到】 : E5-1650和E5-1650v2支持AVX,E5-1650v3支持AVX 2.0. : 编译优化对性能来说很重要,但gcc和clang不会有这样大的差别。
|
r***i 发帖数: 913 | 14 很多时候卖品牌机的,1660v2这种关键字写在了内容里,所以低价成交的事情常有
不过刚找出来关注过的那个z420,还真不是以上情况
http://www.ebay.com/itm/191777757628
DELL T5810那个
http://www.ebay.com/itm/Dell-Precision-Tower-5810-PC-E5-1660-v3-3-0GHz-16GB-256GB-SSD-Win-8-1-USED-/231820158506?
留心关注下品牌机,总有意外收获的,不过就是得每天看着点。上面这两个属于1-2个
月一遇得deal
【在 h******n 的大作中提到】 : eBay上单单E5-1660v2就要800刀~ : 1660v3的DELL T5810,$1146,如果我看到,就直接拿下了。但是,1660v3好像不如 : 1660v2. 相对1660v3来说,我更喜欢1650v3. : 实在等不了v4,眼下有繁重simulations,急需升级CPU。
|
r***i 发帖数: 913 | 15 还有$2000出头的双E5 2663 V3 (DELL T7910),这个是OEM CPU,Intel Ark里没有。
10核10线程,没有超线程,所以主频可以稍微高点。按搜2x 2663 v3就出来了
【在 h******n 的大作中提到】 : eBay上单单E5-1660v2就要800刀~ : 1660v3的DELL T5810,$1146,如果我看到,就直接拿下了。但是,1660v3好像不如 : 1660v2. 相对1660v3来说,我更喜欢1650v3. : 实在等不了v4,眼下有繁重simulations,急需升级CPU。
|
h******n 发帖数: 2795 | 16 那台HP真是不错的deal。仅E5-1660v2 CPU就要750-800刀~~
【在 r***i 的大作中提到】 : 还有$2000出头的双E5 2663 V3 (DELL T7910),这个是OEM CPU,Intel Ark里没有。 : 10核10线程,没有超线程,所以主频可以稍微高点。按搜2x 2663 v3就出来了
|
h******n 发帖数: 2795 | 17 费了老大的力气,今天花1200大洋(通过私下交易,节省340刀(1540-340)),搞定一
台 T5810, E5-1650v3, AMD FirePro™ W7100。其实,显卡对我来说,一点不重
要。我主要用来做numerical simulations。
【在 r***i 的大作中提到】 : 还有$2000出头的双E5 2663 V3 (DELL T7910),这个是OEM CPU,Intel Ark里没有。 : 10核10线程,没有超线程,所以主频可以稍微高点。按搜2x 2663 v3就出来了
|
x******r 发帖数: 538 | 18 连续算100次3000x3000乘3000x3000,把总计算量加长再比较比较准。 |
o**o 发帖数: 3964 | 19 用intel自己的blas库了吗?好像叫MKL。我老从前搞研究的时候用过,比自己编译的做
SVD轻松快好几倍。 |
P**H 发帖数: 1897 | 20 目前mac的veclib,mkl,和openblas差不多快的。
【在 o**o 的大作中提到】 : 用intel自己的blas库了吗?好像叫MKL。我老从前搞研究的时候用过,比自己编译的做 : SVD轻松快好几倍。
|
|
|
P**H 发帖数: 1897 | 21 GPU能用上也不错的。
【在 h******n 的大作中提到】 : 费了老大的力气,今天花1200大洋(通过私下交易,节省340刀(1540-340)),搞定一 : 台 T5810, E5-1650v3, AMD FirePro™ W7100。其实,显卡对我来说,一点不重 : 要。我主要用来做numerical simulations。
|
y**b 发帖数: 10166 | 22 很多numerical simulations需要非常强大的后处理能力
此时专业显卡比cpu贵多了
【在 h******n 的大作中提到】 : 费了老大的力气,今天花1200大洋(通过私下交易,节省340刀(1540-340)),搞定一 : 台 T5810, E5-1650v3, AMD FirePro™ W7100。其实,显卡对我来说,一点不重 : 要。我主要用来做numerical simulations。
|
f*****i 发帖数: 835 | 23 Gpu应该更快些
【在 n***d 的大作中提到】 : 用了gpu? : : binary)
|