Installation et configuration de CE

De MaGridWiki
Aller à : Navigation, rechercher

Le long de ce wiki  : ceXX représente le nom de votre CE

seYY représente le nom de votre SE

wnZZ1 wnZZ2 représente les nom de vos WNs

Sommaire

Récupération des référenciels

Pour une installation réussie, le gestionnaire des packages doit être configuré pour référenciel un certain nombre de référentiels (en plus ceux du OS);

# cd /etc/yum.repos.d/

Le référentiel EPEL(Extra Packages for Enterprise Linux)

# rpm -ivh http://dl.fedoraproject.org/pub/epel/5/x86_64/epel-release-5-4.noarch.rpm

Le référentiel pour l'Autorité de Certification

# wget http://repository.egi.eu/sw/production/cas/1/current/repo-files/EGI-trustanchors.repo

Le référentiel du Middleware (EMI)

# yum -y install yum-priorities yum-protectbase # rpm -ivh http://emisoft.web.cern.ch/emisoft/dist/EMI/2/sl5/x86_64/base/emi-release-2.0.0-1.sl5.noarch.rpm (EMI-2)

Le dossier /etc/yum.repos.d/ doit contenir les référentiels suivants:

# ls /etc/yum.repos.d/ EGI-trustanchors.repo emi2-base.repo emi2-third-party.repo emi2-updates.repo epel.repo epel-testing.repo

Installation du Service

#cd /etc/yum.repos.d/ mv dag.repo dag.repo.disable (désactiver le révérenciel dag) # yum clean metadata # yum -y install ca-policy-egi-core # yum -y install xml-commons-apis # yum -y install emi-cream-ce # yum -y install emi-torque-server emi-torque-utils # yum -y install emi-mpi

Remarque:

Une mise à jour d'un RPM non suivie par une configuration peut causer des problèmes. La DÉSACTIVATION des MISES A JOURS AUTOMATIQUE est FORTEMENT RECOMMANDÉE disable_yum.sh.

Configuration du Service

D'abord le Certificat hôte doit être installée comme décrit sur :http://wiki.magrid.ma/index.php/Pré-Installation#Certificats_hôtes

créer l'arborescence des fichiers de configuration suivante :

# mkdir /root/siteinfo/ # mkdir /root/siteinfo/vo.d/ # mkdir /root/siteinfo/services/

Les variables suivantes doivent êtres définies sur le fichier "site-info.def" (Un exemple est disponible sur site-infoCEWNBDII.def)

La description détaillée des ces variables peut être consultée sur: https://twiki.cern.ch/twiki/bin/view/LCG/Site-info_configuration_variables

  • SITE_NAME
  • WN_LIST :/root/siteinfo/wn-list.conf (Un exemple est disponible sur wn-list.conf )
  • USERS_CONF :/root/siteinfo/users.conf (Ajouter les pools de connections proposés dans le fichier exemple : users.conf )
  • GROUPS_CONF :/root/siteinfo/groups.conf (Un exemple est disponible sur groups.conf)
  • EDGUSERS : /root/siteinfo/edgusers.conf (Un exemple est disponible sur edgusers.conf)
  • CE_HOST :pcXX.magrid.ma
  • MYSQL_PASSWORD
  • APEL_MYSQL_HOST
  • APEL_DB_PASSWORD
  • CE_CPU_MODEL : cat /proc/cpuinfo (model name) du wn
  • CE_CPU_VENDOR : cat /proc/cpuinfo (vendor_id) du wn
  • CE_CPU_SPEED : cat /proc/cpuinfo (cpu MHz) du wn
  • CE_OS  : lsb_release -i | cut -f2
  • CE_OS_ARCH :uname -m
  • CE_MINPHYSMEM: /proc/meminfo MemTotal Convert to MB
  • CE_MINVIRTMEM : /proc/meminfo SwapTotal
  • CE_PHYSCPU : cat /proc/cpuinfo | grep -c "core id.*: 0" multiplié par le Nbre WN
  • CE_LOGCPU : cat /proc/cpuinfo | grep -c processor multiplié par le Nbre WN
  • CE_SMPSIZE: cat /proc/cpuinfo | grep -c processor
  • CE_SI00 : voir http://www.spec.org/osg/cpu2000/results/cint2000.html
  • CE_SF00 :voir http://www.spec.org/osg/cpu2000/results/cfp2000.html
  • CE_OUTBOUNDIP : est ce que les WN sont autorisés pour une connectvité sortante directe ?
  • CE_INBOUNDIP : est ce que les WN ont les permissions pour une connectvité entrante ?
  • CE_RUNTIMEENV : liste des middelware et application supportées
  • CE_CAPABILITY: "none"
  • CE_OTHERDESCR: nombre de core par CPU et la Version du HEP-SPEC06 benchmark
  • BATCH_SERVER: ceXX.magrid.ma
  • JOB_MANAGER:pbs
  • CE_BATCH_SYS: “pbs”
  • BATCH_LOG_DIR :/var/torque
  • BATCH_VERSION: rpm -qa |grep torque
  • SE_LIST="seYY.magrid.ma"
  • SE_MOUNT_INFO_LIST=”none”
  • BDII_HOST= bdii.magrid.ma
  • VO_SW_DIR=/opt/exp_soft
  • VOS = liste des vo à supporter
  • QUEUES = liste des queue à créer dans le système de batch
  • <queue-name>_GROUP_ENABLE</queue-name> : correspondance entre la queue et le vo.

Définir les variables spécifiques au service cream: à chercher dans /root/siteinfo/services/glite-creamce(Un exemple est disponible sur glite-creamce) :

  • BLPARSER_HOST=ceXX.magrid.ma (fqdn)
  • CEMON_HOST=ceXX.magrid.ma (fqdn)
  • CREAM_DB_USER=”*************”
  • CREAM_DB_PASSWORD=”*********”

Définir les variables spécifiques aux VO supporté dans /vo.d/.voir VO.D

Définir les variables spécifique à MPI /root/siteinfo/services/glite-mpi (Un exemple est disponible surglite-mpi)

munge configuration

IMPORTANT:

Dans les mises à jour du EPEL5 (build of torque-2.5.7-1) "munge" est activé en tant qu'une méthode d'authentification interne des nœuds

Vérifier que "munge" est correctement installé.

# rpm -qa | grep munge munge-libs-0.5.8-8.el5 munge-0.5.8-8.el5

Sur le CE, générer la clé en lançant:

# /usr/sbin/create-munge-key # ls -ltr /etc/munge/ total 4 -r-------- 1 munge munge 1024 fev 21 21:14 munge.key

Copier la clé, /etc/munge/munge.key , sur tous les WN , ensuite ajuster les permissions:

# chown munge:munge /etc/munge/munge.key # chmod 400 /etc/munge/munge.key

Démarrer le démon "munge" sur chaque nœud:

# service munge start # chkconfig munge on

Création de la zone du Software

Si la zone des software est sur le CE, elle doit être exportée sur les WNs. VO_SW_DIR=/opt/exp_soft sur site-info.def

#mkdir /opt/exp_soft/

Editer /etc/exports et ajouter une ligne comme suit:

/opt/exp_soft/ *.magrid.ma(rw,sync,no_root_squash)

Vérifier le statut des "nfs" et "portmap"

# service nfs status # service portmap status

Démarrer si arrêté

# service portmap start # service nfs start # chkconfig nfs on # chkconfig portmap on

Après chaque modification dans /etc/exports, relancer la commande:

# exportfs -ra

ou bien démarrer simplement le démon nfs.

Yaim check

#/opt/glite/yaim/bin/yaim -v -s /root/siteinfo/site-info.def -n MPI_CE -n creamCE -n TORQUE_server -n TORQUE_utils INFO: controlled in the _check functions. INFO: YAIM terminated succesfully.

Yaim configure

#/opt/glite/yaim/bin/yaim -c -s /root/siteinfo/site-info.def -n MPI_CE -n creamCE -n TORQUE_server -n TORQUE_utils INFO: Configuration Complete. NFO: YAIM terminated succesfully.


Authentification basée sur Hôte entre les WN dans le fichier /etc/ssh/sshd_config au niveau des WN , Vérifier la présence des deux lignes :

Fichier: /etc/ssh/sshd_config
HostbasedAuthentication yes
IgnoreUserKnownHosts yes

sinon les ajouter au fichier. Au niveau du CE , lancer la commande suivante :

#/usr/sbin/edg-pbs-knownhosts

celle ci generera le fichier /etc/ssh/ssh_known_hosts contenant les clés des hosts présents dans /etc/ssh/shosts.equiv copier les fichiers /etc/ssh/shosts.equiv et /etc/ssh/ssh_known_hosts vers tous les wn et redemarre le service sshd.

#scp /etc/ssh/ssh_known_hosts root@<wn>.magrid.ma:/etc/ssh/ssh_known_hosts #scp /etc/ssh/shosts.equiv root@<wn>.magrid.ma:/etc/ssh/shosts.equiv

Redemarrer les service sshd au niveau des worker nodes

#service sshd restart

Vérification du Service

Vérifier le démon:

#service gLite status *** tomcat5: /etc/init.d/tomcat5 is already running (6586) *** glite-lb-locallogger: glite-lb-logd running as 9885 glite-lb-interlogd running as 9885 *** glite-ce-blahparser: BNotifier (pid 6773) is running.. BUpdaterPBS (pid 6758) is running..

Torque

La commande "qstat -q" doit donner un résultat similaire à:

#qstat -q server: pc02.magrid.ma Queue Memory CPU Time Walltime Node Run Que Lm State ---------------- ------ -------- -------- ---- --- --- -- ----- magrid -- 48:00:00 72:00:00 -- 0 0 -- E R cert -- 48:00:00 72:00:00 -- 0 0 -- E R eumed -- 48:00:00 72:00:00 -- 0 0 -- E R atlas -- 48:00:00 72:00:00 -- 0 0 -- E R

Afficher toutes les informations sur les WN disponibles:

#pbsnodes -a wnZZ1.magrid.ma state = free np = 4 properties = lcgpro ntype = cluster status = rectime=1329860218,varattr=,jobs=,state=free,netload=572187919,gres=,loadave=0.00,ncpus=4, physmem=1026756kb,availmem=2996644kb,totmem=3123228kb,idletime=365980,nusers=1,nsessions=1,sessions=9349, uname=Linux pc03.magrid.ma 2.6.18-194.3.1.el5 #1 SMP Fri May 7 01:43:09 EDT 2010 x86_64,opsys=linux gpus = 0 wnZZ2.magrid.ma state = free np = 4 properties = lcgpro ntype = cluster status = rectime=1329860193,varattr=,jobs=,state=free,netload=584841678,gres=,loadave=0.00,ncpus=4, physmem=1026756kb,availmem=2996496kb,totmem=3123228kb,idletime=365455,nusers=1,nsessions=1,sessions=13845, uname=Linux pc04.magrid.ma 2.6.18-194.3.1.el5 #1 SMP Fri May 7 01:43:09 EDT 2010 x86_64,opsys=linux gpus = 0

Tester la soumission d'un job en tant que utilisateur, par exemple

#su - magrid001
Fichier: test.sh
#!/bin/bash
echo "I am `whoami` on host `hostname`."
sleep 15
exit 0
#qsub -q magrid test.sh

L'état du job s'affiche par la commande "qstat"

#qstat Job id Name User Time Use S Queue ------------------------- ---------------- --------------- -------- - ----- 3.ceXX test.sh magrid001 0 R magrid

Le résultat du job apparait dans le dossier home.

#ls /home/magrid001 test.sh.e<job_id> test.sh.o<job_id> #cat test.sh.o3 I am magrid001 on host wnZZ1.magrid.ma

Information System

#ldapsearch -xLLL -b mds-vo-name=resource,o=grid -p 2170 -h ceXX.magrid.ma GlueForeignKey: GlueCEUniqueID=ceXX.magrid.ma:8443/cream-pbs-cert GlueForeignKey: GlueCEUniqueID=ceXX.magrid.ma:8443/cream-pbs-atlas GlueForeignKey: GlueCEUniqueID=ceXX.magrid.ma:8443/cream-pbs-eumed GlueForeignKey: GlueCEUniqueID=ceXX.magrid.ma:8443/cream-pbs-magrid

Soumission directe vers le CREAM CE

Consulter la page : http://wiki.magrid.ma/index.php/Gestion_des_jobs pour un example


Ajouter la ligne suivante au JDL

	OutputSandboxBaseDestURI="gsiftp://ceXX.magrid.ma/tmp/";
#glite-ce-job-submit -a -r ceXX.magrid.ma:8443/cream-pbs-magrid -o testid test.jdl

Vérifier l'état du job

#glite-ce-job-status-i testid

Une fois l'état est "Done", vérifier la présence des résultats

#uberftp ceXX.magrid.ma "ls /tmp"

Récupérer ensuite les résultats

#globus-url-copy gsiftp://ceXX.magrid.ma/tmp/test.out file:///home/griduser/test.out

Soumission vers le WMS

Consulter la page: http://wiki.magrid.ma/index.php/Gestion_des_jobs pour un exemple

Avant de soumettre le job, si le CE est installé sur une machine non utilisant (en-US) en tant que langue par défaut, dé-commenter la ligne:

#LANG=en_US 

dans $CATALINA_HOME/conf/tomcat5.conf, ensuite redémarrer "tomcat"

Ajouter ensuite le pré-requis suivant sur la ligne de commande

#glite-wms-job-submit -a -r ceXX.magrid.ma:8443/cream-pbs-magrid -o testid test.jdl

ou bien sur le fichier jdl:

	requirements=other.GlueCEInfoHostName==" ceXX.magrid.ma";

Installation des Applications

Taguer le site  : au niveau du UI , initialiser le proxy avec le role Software Manager

$voms-proxy-init --voms magridschool:/magridschool/Role=SoftwareManager $lcg-ManageVOTag -host ceXX.magrid.ma -vo magridschool --add -tag VO-magridschool-root_v5.14.00

Troubleshooting

Fichiers logs

/var/torque/server_logs/

/var/log/maui.log

/var/log/tomcat5/

au niveau du wn /var/torque/mom_logs/

Resource Limit

corriger le problème : "MPI Job exceeds queue resource limits MSG=cannot locate feasible nodes" , définir manuellement le nombre de cpu total et redemarrer le service pbs_server :

#qmgr -c 'set server resources_available.nodect=80' #service pbs_server restart

Références

http://www.eu-emi.eu/training/cream-tutorial

https://wiki.italiangrid.org/twiki/bin/view/SiteAdminCorner/NotesAboutInstallationAndConfigurationOfCREAMAndTORQUE

http://www.eu-emi.eu/products/-/asset_publisher/1gkD/content/cream-torque-module-1

https://twiki.cern.ch/twiki/bin/view/EMI/EmiCreamTorMpiArgLogBook

http://grid.pd.infn.it/cream/field.php?n=Main.ErrorMessagesReportedByCREAMToClient

Navigation
Administrateur
Utilisateur
Applications
Autorité de Certification