job manager not respond怎么解决呢


#1

想请教一个问题。最近我在使用2d fdtd仿真优化时,把resources中localhost的分成了10个,每个4processes。我的电脑是44核的,内存60g所以肯定够,然后configuration test也是通过的。但是一旦运行一段时间,job manager 就会显示not respond软件就卡死只能退出了。

我使用的是addjob把不同参数结构存在不同fsp文件中,每存10个jobs就会runjobs,2d仿真跑起来挺快的,但就是跑几组后就没有反应了,而且一般跑的时候移动job manager窗口也会容易卡死。请问有什么办法解决呢,求指导,非常感谢!


#2

出现这个问题的原因很多,首先是运行中有没有输出图形?这个可能产生问题;其次,如果内存不够,或者硬盘空间不足也会出现此问题。
你的2D文件有多大?在什么地方卡死固定吗?很可能这个问题与计算机硬件和软件有关。如果你是正式用户,请用邮件与我们联系。


#3

谢谢!
在改变设计参数时,用了redrawoff关闭图形,改变结束之后再redrawon,保存到fsp文件当中。现在正在尝试全程redrawoff。如果还是不行会和你们邮件联系。
因为电脑是新配置的,内存和硬盘应该没有问题。
我的2D文件850KB,仿真的区域只有20um*10um很小,卡死时一般出现下面的情况,
另外,重启计算机后,程序能运行很长一段时间,但最后还是会卡死。


#4

850KB的文件,一个文件用一个Process就行了,用4个反而降低效率。你单个测试一下。估计是这个问题。


#5

谢谢!我想进一步问一下,电脑process数目和仿真文件大小有什么对应的关系嘛,我没注意到这一点。

在优化过程中,通常需要大量仿真,所以我想提高效率。
比如说对于一个1~2MB 的3d fdtd 文件,process数目40个和60个,单次仿真的时间差别大嘛?这个时候如果要distribute jobs怎样划分process才是比较好的呢?

非常感谢!


#6

1~2MB 的3d fdtd 文件,Process用1个到2个就可以了,太多反而降低效率。参见这个帖子
一般建议在批量计算之前,自己先做一些测试,看看多少Process的计算速度最快,然后再扫描和优化等批量计算。
这个问题不是帖子题目的内容,以后请另外开新贴。
此帖先行关闭了。


#7