Surveillez la température d’un GPU Nvidia avec Cacti

Bonjour, il s’agit d’un vieux billet que je viens de retrouver (il date de juin 2008, c’est vous dire). Comme le titre l’indique, ça concerne du monitoring de carte GPU. Je ne sais pas trop si c’est encore d’actualité, mais je poste, sait-on jamais.

1 – Comment récupérer l’information

Avec le module propriétaire nvidia on dispose de : nvidia-setings

nvidia-settings : Ouverture d’une interface graphique
nvidia-settings -q all : Affiche tous les paramètres utilisés
nvidia-settings -q GPUCoreTemp : Affiche la température du GPU


sortie standard

Attribute ‘GPUCoreTemp’ (localhost.localdomain:0.0): 73.
‘GPUCoreTemp’ is an integer attribute.
‘GPUCoreTemp’ is a read-only attribute.
‘GPUCoreTemp’ can use the following target types: X Screen, GPU.

Après un passage à la moulinette « grep », ça donne : nvidia-settings -q GPUCoreTemp |grep -E -o « [0-9]{2,3} »

Cette manipulation aurait pu marcher … si nvidia-settings n’était pas trop exotique …

En effet en utilisateur standard la commande suivante va marcher. Seulement avec l’utilisateur cacti on obtiendra l’erreur suivante :

> su – cacti -c « nvidia-settings -q GPUCoreTemp |grep -E -o « [0-9]{2,3} »

ERROR: The control display is undefined; please run `nvidia-settings –help` for usage information.

Pour résoudre ce problème, j’ai trouvé comme rustine la commande xhost + en utilisateur standard. Cette commande rend disponible l’accès au X à tous les utilisateurs standards. Mais rassurez-vous, une version plus sélective existe : xhost +local:cacti

On précisera aussi le bon display à nvidia-settings avec le paramètre -c 0:0.

2 – Configuration de cacti

J’ai déjà fait un article sur l’ajout de graphique, mais c’est toujours bien d’en rajouter une couche.

On ajoute ce OneLine dans une nouvelle Data Input Method :

On met ensuite en place une Data template en désignant cette Data Input Method.
Et pour finir on prépare un Graph template avec le Nvidia GPU Temp comme Data Source.


Publicités

Ralentissement graphique inexplicable avec Xorg ?

Et bien moi j’ai l’explication .. enfin je pense la tenir, la carte graphique :

Depuis plusieurs jours j’avais d’horribles problèmes :

  • moins de 10 fps dans les jeux
  • Videos youtube invisionnables
  • la machine s’arrêtait ou lieu du reboot à chaque fois
  • Un CPU usage plus important que la moyenne

Pourtant tous ces symptômes étaient absents à l’allumage de la machine, puis venaient progressivement …

Et bien voilà, j’ai trouvé ça venait du refroidissement de la Carte Graphique …. génial non ?