CCJのRSCCシステムでのテスト運用開始について

   CCJ 利用者各位
CCJ -PCO  
2004年5月28日
改訂 1 2004年6月7日
改訂 2 2005年8月31日

 以前ユーザーズミーティングでアナウンスしましたように、今年3月に機種更新 された理研情報基盤センターの RSCC(RIKEN super combined cluster, Appendix B)のうち 256 CPU (pc2cクラスタ)を CCJが占有利用するプロジェ クトのテスト運用を開始します。 RSCCは現時点で日本では地球シミュレータ についで2番目に速いスパコン(理論性能 12.4Tela Flops, 実効性能 8Tela Flops)です。

 CCJで占有利用できるノード(pc2cクラスタ:Dual 3.06GHz Pentium Xeon CPU 128 node (CPU 総数256) :メモリ 2GB/node, /job_tmp 約120GB) からは /ccj/u, /ccj/w/r01, /ccj/w/r02, /afs/rhic.bnl.gov, /opt/ccj/などが NFS mountされ、DBにもアクセスが可能なので、PHENIX固有の software が走りま す。cftp, rcpx等も走ります。なお、/ccj/w/dataXX は NFS mount してませ んので、これらの上にあるデータは rcpxを使用して /job_tmp とデータ転送 してください。 この CPUは、プログラムにもよりますが、CCJの Pentium 3 1.0GHz の 2.2-2.6倍の速さです。

 ccjsun/ccjgw からloginできる nodeは内 2 nodeで、 pc2cn001とpc2cn002で す。jobの実行nodeは pc2cn003-pc2cn128 の126台です。

 RSCC にはbatch queueing systemとして NQSII(Batch Qeueing system 基本 部分)及び ERSII (Fairshare用スケジュラ─)がインストールされており、 LSFコマンドとの対応は Appendix A の通りです。コマンド実行(つまり投入と monitoring)は pc2cn001,pc2cn002 からしかできません。一方 pc2cn001 , pc2cn002 からは 従来のCCJのlinux cpu farm は見えません。

 batch queue としては現在暫定的に short, long(及びシステムテスト専用 のccjtest)の 2つが定義されていますので、当面は shortと longのいずれか をご利用ください。shortは最大CPU時間3時間、最大elaps時間12時間、long は最大CPU時間24時間、最大elaps時間36時間になっています。運用中に様子 をみながら, 必要に応じて queue については追加、変更していく予定です。
2005/8/31 追記:2005年2月よりNQSにかわってLSFが運用されています。pc2cn001/002 からLSFコマンドを実行すると、RSCC側のLSFにアクセスできます。

 なお、RSCCのqueueingシステムについての質問、RSCCのnodeのダウン等、 RSCCシステム固有の障害に関する質問には RSCCシステム担当の SEが直接対応 しますので、hpc @ riken.jp に、障害内容、障害発生時刻、ノード名等を詳し くメールで報告してください。なお、その場合必ず phenix-ccj-admin and/or ccj-users-j 宛に CC をしてください。

 RSCCの利用希望者は、情報基盤センターより別途アカウントを 発行しても らう必要がありますで、情報基盤センターより別途アカウントを 発行してもらう必要がありますで、申請書に記入の上ccj-pcoまで電子メールで送付してください。」 RSCCのアカウントの申請書のフォーマットは (MS word, PDF)

http://ccjsun.riken.jp/ccj/forms/RSCCsample.doc
http://ccjsun.riken.jp/ccj/forms/RSCCsample.pdf

にありますので、それをダウンロードして記入してください。 赤字の部分を 適当に変更してください。 青字の部分は変更する必要がないと思われる部分ですが、疑問がある場合は CCJ-admin までご連絡ください。なお、理研所属については異なる場合もあると思います。アカウント 名はCCJのアカウントと同一にしてください。

 申請書を受取ってから概ね一週間程度でアカウントが発行される予定です。 尚、RSCC は6月2日より本運用を開始する予定で、本運用に向けた準備と定期 保守を行うため 5月28日(金)午後6時〜 6月2日(水)午前9時の間、RSCCの全シ ステムが停止する予定です。(HPSSを含む、これまでのCCJシステムはこの間 も通常通り運転の予定です。)あらかじめ御了承ください。

CCJ-PCO

Appendix A:LSF(上段)とNQS(下段)のコマンド

ご注意

1) 現在 RSCC の NQS では全ユーザの合計で 7000jobまでしか投入できませんの で、当面一人あたり投入Job数の合計は 2000job程度を超えないようにお願い します。 システム全体の最大job数を10万程度に増やす要求をすでに開発 メーカに依頼していますが、それには来年3月ぐらいまでかかる見込みです。

2) LSFでは optionで -qshortのようにスペースを省略できますが、 NQSでは -q short のように離さないとエラーになります。

3) NQS のコマンドのオプションについては man で確認できます。また理研内 からは
http://ccjsun.riken.go.jp/ccj/doc/limit/super.html で詳細なNQSのコマンドの使用方法をみることができます。


bsub -o $outputFilename -e $errorFilename -q $QUEUE -L /bin/tcsh -J $jobname
qsub -o $outputFilename -e $errorFilename -q $QUEUE -S /bin/tcsh -N $jobname

bkill (jobid)
qdel (jobid)

bjobs
qstat

bjobs -uall
qstat -a

bjobs -u (user)
qstat -u (user)
... -a/-uについてはベンダーによる作り込みなのでmanでは出てきません。

bqueues
qstat -Q


Appendix B: RSCCについて

RSCCのCCJ占有部分(pc2c: 128 nodes)以外の利用も可能ですが、利用方法が全 く違いますので、利用したい場合は
http://ccr.riken.jp/rscc/を参照したうえ、注意してご利用ください。(このページは残念ながら理研外 からは直接アクセス出来ませんので、ccjsunなどから参照してください。なお 違いの例として、CCJユーザーが利用している各ディスク領域をNFSマウントす ることも出来ません。

2004年5月26日 CCJ-PCO