Return-Path: Received: from kupns1.scphys.kyoto-u.ac.jp (kupns1.pn.scphys.kyoto-u.ac.jp [202.13.215.3]) by kupns6.pn.scphys.kyoto-u.ac.jp (8.9.3/3.4W3) with ESMTP id BAA08121; Sun, 6 Jun 1999 01:23:39 +0900 (JST) Received: from rarfaxp.riken.go.jp (rarfaxp.riken.go.jp [134.160.227.2]) by kupns1.scphys.kyoto-u.ac.jp (8.9.1+3.1W/3.4W4) with ESMTP id BAA19344; Sun, 6 Jun 1999 01:23:37 +0900 (JST) Received: (from majordom@localhost) by rarfaxp.riken.go.jp (8.9.3/8.9.2) id BAA20928 for phenix-ccj-wg-list; Sun, 6 Jun 1999 01:23:19 +0900 (JST) X-Authentication-Warning: rarfaxp.riken.go.jp: majordom set sender to owner-phenix-ccj-wg using -f Received: from jhfpc1.kek.jp (sawadas@jhfpc1.kek.jp [130.87.219.1]) by rarfaxp.riken.go.jp (8.9.3/8.9.2) with ESMTP id BAA12985 for ; Sun, 6 Jun 1999 01:23:18 +0900 (JST) Received: (from sawadas@localhost) by jhfpc1.kek.jp (8.7.5+2.6Wbeta6/3.4W3) id BAA02489; Sun, 6 Jun 1999 01:23:17 +0900 Date: Sun, 6 Jun 1999 01:23:17 +0900 Message-Id: <199906051623.BAA02489@jhfpc1.kek.jp> Reply-To: shinya.sawada@kek.jp To: phenix-ccj-wg@rarfaxp.riken.go.jp Cc: sawadas@jhfpc1.kek.jp Subject: [ccj-wg 443] PBS: Tcl scheduler for 2 jobs/node From: sawadas@jhfpc1.kek.jp (Shinya Sawada) X-Mailer: mnews [version 1.19] 1995-07/21(Fri) Sender: owner-phenix-ccj-wg@rarfaxp.riken.go.jp Precedence: bulk Content-Type: text Content-Length: 2137 懸案だった「PBS で1ノードあたりのジョブ数を2に制限する」 スクリプトを作ってみました。/usr/spool/PBS/sched_priv/ccjtest.tcl です。これは、ジョブの情報を取って来て各ノード毎に走っているジョブの 数を数え、それが MAX_JOBS_NODE = 2 より小さかったら新たなジョブを 走らせる、というものです。loadaverage などは一切見ていません。 (割と簡単にリソースを見るようにも出来ます。) 参考にしたのは、PBS version 2.1 についてきたサンプルスクリプトです。 PBS 自身はまだ version 2.0p のままですが、取って来た最新版のtar file を /usr/local/src/pbs_v21p9/ に展開してあります。サンプルスクリプトは /usr/local/src/pbs_v21p9/src/scheduler.tcl/sample_scripts/にあります。 現在 pbs_server は、以前の「各ノードあたりのジョブ数1」という設定を はずし、すべてのノードを time-sharing node にしてあります。「各ノード あたりのジョブ数1」に戻すには、pbs_server を とめ、 # cp /usr/spool/PBS/node.1job /usr/spool/PBS/server_priv/nodes # pbs_server # qmgr < /usr/spool/PBS/server.con.1job で行くはずです。 また、pbs_sched は # pbs_sched -b /usr/spool/PBS/sched_priv/ccjtest.tcl で、新しいスケジューラで動かしています。ただし、この ccjtest.tcl は 現段階ではデバッグ用に /usr/spool/PBS/sched_out と /usr/spool/PBS/debug/(date) にログを吐くようにしています。時間だけ食う 単純計算のプログラムをテストのために今走らせていますが、1、2日テスト して問題なさそうだったらデバッグモードをはずしていらないメッセージを 出さないようにします。 余談ですが、いままでの spin からとってきたものをもとにした schduler は各ノードの pbs_mom と通信していたので、ノードが落ちていると scheduler もこけてしまう、という問題点がありましたが、今回は pbs_mom とは通信しないのでこの問題が起こらなくなる(といいなあ) という利点があります。 澤田 --------------------------------------------------------------------------- ML archives: http://www.rarf.riken.go.jp/rarf/rhic/ml/nmlist/phenix-ccj-wg/ (username = phenix-j passwd = cc-jcc-j) Return-Path: Received: from kupns1.scphys.kyoto-u.ac.jp (kupns1.pn.scphys.kyoto-u.ac.jp [202.13.215.3]) by kupns6.pn.scphys.kyoto-u.ac.jp (8.9.3/3.4W3) with ESMTP id OAA11243; Mon, 7 Jun 1999 14:04:43 +0900 (JST) Received: from rarfaxp.riken.go.jp (rarfaxp.riken.go.jp [134.160.227.2]) by kupns1.scphys.kyoto-u.ac.jp (8.9.1+3.1W/3.4W4) with ESMTP id OAA22211; Mon, 7 Jun 1999 14:04:38 +0900 (JST) Received: (from majordom@localhost) by rarfaxp.riken.go.jp (8.9.3/8.9.2) id OAA01483 for phenix-ccj-wg-list; Mon, 7 Jun 1999 14:04:26 +0900 (JST) X-Authentication-Warning: rarfaxp.riken.go.jp: majordom set sender to owner-phenix-ccj-wg using -f Received: from jhfpc1.kek.jp (sawadas@jhfpc1.kek.jp [130.87.219.1]) by rarfaxp.riken.go.jp (8.9.3/8.9.2) with ESMTP id OAA01473 for ; Mon, 7 Jun 1999 14:04:25 +0900 (JST) Received: (from sawadas@localhost) by jhfpc1.kek.jp (8.7.5+2.6Wbeta6/3.4W3) id OAA04764; Mon, 7 Jun 1999 14:04:24 +0900 Date: Mon, 7 Jun 1999 14:04:24 +0900 Message-Id: <199906070504.OAA04764@jhfpc1.kek.jp> Reply-To: shinya.sawada@kek.jp To: phenix-ccj-wg@rarfaxp.riken.go.jp Cc: sawadas@jhfpc1.kek.jp Subject: [ccj-wg 449] Re: [ccj-wg 448] PBS: Tcl scheduler for 2jobs/node In-Reply-To: Your message of Mon, 7 Jun 1999 12:35:11 +0900. From: sawadas@jhfpc1.kek.jp (Shinya Sawada) X-Mailer: mnews [version 1.19] 1995-07/21(Fri) Sender: owner-phenix-ccj-wg@rarfaxp.riken.go.jp Precedence: bulk Content-Type: text Content-Length: 1498 の記事において ichihara@rarfaxp.riken.go.jpさんは書きました。 >> > Shinya Sawada wrote: >> > >> > > 懸案だった「PBS で1ノードあたりのジョブ数を2に制限する」 >> > > スクリプトを作ってみました。/usr/spool/PBS/sched_priv/ccjtest.tcl >> > > です。これは、ジョブの情報を取って来て各ノード毎に走っているジョブの >> > > 数を数え、それが MAX_JOBS_NODE = 2 より小さかったら新たなジョブを >> > > 走らせる、というものです。loadaverage などは一切見ていません。 >> > > (割と簡単にリソースを見るようにも出来ます。) >> ご苦労様です。 動作確認のテストをお願いします。 現在 PBS scheduler はデバッグモードをはずして通常モードで走っています。 このモードでは、誰かのジョブを走らせる時に日時、ジョブの持ち主、 走るノードを /usr/spool/PBS/sched_priv/sched_out に書き出すように なっています。また、ノードのどれかが落ちている(とserverが認識している) 時に、日時と落ちているノードを書き出すようにしています。 時間だけ食うつまらないジョブを20個走らせて、最初の16個が2個づつ 各ノードに分配され、最初のジョブが終り次第残りの4個が順次分配される ことを確認済みです。また、上記のログが記録されていることも確認済みです。 澤田真也 --------------------------------------------------------------------------- ML archives: http://www.rarf.riken.go.jp/rarf/rhic/ml/nmlist/phenix-ccj-wg/ (username = phenix-j passwd = cc-jcc-j)