n******7 发帖数: 12463 | 1 最近发现我们这里一个韩国大妈,提交的所有job都是interactive job
我的理解是interactive job是给你run GUI程序,或者test一些比较费资源的code的
她倒好,居然提交了快60个这样的job,就算是用虚拟窗口,这tmd搞一遍也要死人了吧
唯一能想到的好处,就是她可以霸占这几百个节点(接近最大允许的core数目了)2个
星期(最大walltime),即使什么也没干
我在考虑要不要更我们总是很愤怒的管理员举报她滥用资源。主要是没什么证据证明她
这些job都是闲置的,也许admin可以看到。
上次我举报一个人在登录节点跑了一百多个python进程,后来才发现是一起吃饭的过来
访问游玩的中国大妈,有点尴尬。。。 |
s*******e 发帖数: 1630 | |
y**b 发帖数: 10166 | 3 刚开始用军方的clusters,发现openmpi非常不受待见,好几台机器都不支持,
还说不稳定。倒是intel的都装得好好的,难道性能比openmpi好很多?
【在 n******7 的大作中提到】 : 最近发现我们这里一个韩国大妈,提交的所有job都是interactive job : 我的理解是interactive job是给你run GUI程序,或者test一些比较费资源的code的 : 她倒好,居然提交了快60个这样的job,就算是用虚拟窗口,这tmd搞一遍也要死人了吧 : 唯一能想到的好处,就是她可以霸占这几百个节点(接近最大允许的core数目了)2个 : 星期(最大walltime),即使什么也没干 : 我在考虑要不要更我们总是很愤怒的管理员举报她滥用资源。主要是没什么证据证明她 : 这些job都是闲置的,也许admin可以看到。 : 上次我举报一个人在登录节点跑了一百多个python进程,后来才发现是一起吃饭的过来 : 访问游玩的中国大妈,有点尴尬。。。
|
n******7 发帖数: 12463 | 4 所以我严重怀疑她很多job就是占着茅坑用的。不太可能是因为不会用pbs吧?
登录节点上还老看到她qsub的进程,估计是有些job到时间了,补job用的
我们这里requested memory也有上限,但是不是系统自动控制的
昨天看她超出配额了,图标一个劲闪
我怀疑她就是搞了个脚本
for i in {1..xxx}
do
qsub -I xxxx
done
【在 s*******e 的大作中提到】 : 那大妈自己不觉得烦?好奇她怎么管理过来的?
|
s*******e 发帖数: 326 | 5 你不是sysadmin,操得什么闲心,除非影响你的工作,但那也是cluster设计的问题
【在 n******7 的大作中提到】 : 最近发现我们这里一个韩国大妈,提交的所有job都是interactive job : 我的理解是interactive job是给你run GUI程序,或者test一些比较费资源的code的 : 她倒好,居然提交了快60个这样的job,就算是用虚拟窗口,这tmd搞一遍也要死人了吧 : 唯一能想到的好处,就是她可以霸占这几百个节点(接近最大允许的core数目了)2个 : 星期(最大walltime),即使什么也没干 : 我在考虑要不要更我们总是很愤怒的管理员举报她滥用资源。主要是没什么证据证明她 : 这些job都是闲置的,也许admin可以看到。 : 上次我举报一个人在登录节点跑了一百多个python进程,后来才发现是一起吃饭的过来 : 访问游玩的中国大妈,有点尴尬。。。
|
M*P 发帖数: 6456 | 6 支持举报,就烦占着茅坑不拉屎的。
【在 n******7 的大作中提到】 : 最近发现我们这里一个韩国大妈,提交的所有job都是interactive job : 我的理解是interactive job是给你run GUI程序,或者test一些比较费资源的code的 : 她倒好,居然提交了快60个这样的job,就算是用虚拟窗口,这tmd搞一遍也要死人了吧 : 唯一能想到的好处,就是她可以霸占这几百个节点(接近最大允许的core数目了)2个 : 星期(最大walltime),即使什么也没干 : 我在考虑要不要更我们总是很愤怒的管理员举报她滥用资源。主要是没什么证据证明她 : 这些job都是闲置的,也许admin可以看到。 : 上次我举报一个人在登录节点跑了一百多个python进程,后来才发现是一起吃饭的过来 : 访问游玩的中国大妈,有点尴尬。。。
|
n******7 发帖数: 12463 | 7 制度设计总是有些漏洞,还是要靠自觉
前几天管理员还说发现一个人的目录下有100k个文件,希望大家每个目录不要超过10k
文件,这个不好监管
我们的cluster也就2200个core左右,这大妈一下子就占用了1/7,我最近算的不多,还
好。但是这个就跟换lane不打灯一样,总是不好的
【在 s*******e 的大作中提到】 : 你不是sysadmin,操得什么闲心,除非影响你的工作,但那也是cluster设计的问题
|
s*******e 发帖数: 326 | 8 也对。不过文件数目的限制完全可以通过quota来实现,但我还没见过学校里限制这个
的,
最多是比较穷的系限制用户home的大小
cluster的policy应该有相应的对策,现在占用多,以后一段时间就没有资源
10k
【在 n******7 的大作中提到】 : 制度设计总是有些漏洞,还是要靠自觉 : 前几天管理员还说发现一个人的目录下有100k个文件,希望大家每个目录不要超过10k : 文件,这个不好监管 : 我们的cluster也就2200个core左右,这大妈一下子就占用了1/7,我最近算的不多,还 : 好。但是这个就跟换lane不打灯一样,总是不好的
|
w***g 发帖数: 5958 | 9 openmpi很霸道的, 等待消息的时候用的是轮询, 不管算不算东西一启动CPU占用率都是
100%. 我也见过学校实验室买了cluster雇了sysadmin然后成天让学生在上面跑python
/perl代码. 其实那东西用C++/fortran加openmp实现, 又快又干净, 估计单机性能就可
以跟一个50+node的cluster比了.
【在 y**b 的大作中提到】 : 刚开始用军方的clusters,发现openmpi非常不受待见,好几台机器都不支持, : 还说不稳定。倒是intel的都装得好好的,难道性能比openmpi好很多?
|
d********g 发帖数: 10550 | 10 你们sysadmin不会用nice吗
python
【在 w***g 的大作中提到】 : openmpi很霸道的, 等待消息的时候用的是轮询, 不管算不算东西一启动CPU占用率都是 : 100%. 我也见过学校实验室买了cluster雇了sysadmin然后成天让学生在上面跑python : /perl代码. 其实那东西用C++/fortran加openmp实现, 又快又干净, 估计单机性能就可 : 以跟一个50+node的cluster比了.
|
n******7 发帖数: 12463 | 11 admin说的理由是文件太多加重了磁带机备份的负担
强行控制也是可以,但是会影响速度,所以还是用户自觉最好
现在这个地方的queue没有priority的政策,可能觉得还没紧张到那种地步吧
【在 s*******e 的大作中提到】 : 也对。不过文件数目的限制完全可以通过quota来实现,但我还没见过学校里限制这个 : 的, : 最多是比较穷的系限制用户home的大小 : cluster的policy应该有相应的对策,现在占用多,以后一段时间就没有资源 : : 10k
|
y**b 发帖数: 10166 | 12 我的东东用openmpi算几天都没问题,可是用hpc.mil那些机器上的intel-mpi,一启动就
Hangup (signal 1),真不知是怎么回事。
hpc.mil的技术支持感觉也特别差,运行环境配置得尤其糟糕,感觉远没法跟大学的比。
python
【在 w***g 的大作中提到】 : openmpi很霸道的, 等待消息的时候用的是轮询, 不管算不算东西一启动CPU占用率都是 : 100%. 我也见过学校实验室买了cluster雇了sysadmin然后成天让学生在上面跑python : /perl代码. 其实那东西用C++/fortran加openmp实现, 又快又干净, 估计单机性能就可 : 以跟一个50+node的cluster比了.
|
y**b 发帖数: 10166 | 13 intel mpi比较糟糕,现在连个hybrid mpi/openmp的支持都有bug,而且一有
问题就让升级,感觉非常不成熟。openmpi这方面成熟自然流畅多了。
军方那些技术支持非常一般,据说工资都发不够,每周只工作几天,见了鬼了。
动就
比。
【在 y**b 的大作中提到】 : 我的东东用openmpi算几天都没问题,可是用hpc.mil那些机器上的intel-mpi,一启动就 : Hangup (signal 1),真不知是怎么回事。 : hpc.mil的技术支持感觉也特别差,运行环境配置得尤其糟糕,感觉远没法跟大学的比。 : : python
|