はい メモです

メモ代わり

nvidia-smiについて調べた

目次

NVIDIA-SMIについて

NVIDIA公式

developer.nvidia.com (取得できるメトリクスは公式ペーシの画像の通り)

要約

nvidia-smiコマンドについて

NVIDIA公式のPDF

http://developer.download.nvidia.com/compute/DCGM/docs/nvidia-smi-367.38.pdf

抜粋翻訳

SYNOPSIS

nvidia-smi [OPTION1 [ARG1]] [OPTION2 [ARG2]] ...

DESCRIPTION
nvidia-smi(同じくNVSMI)は、Fermi以上のアーキテクチャファミリのNVIDIAのTesla、Quadro、GRID、およびGeForceバイスに監視および管理機能を提供します。 GeForce Titanシリーズのデバイスはほとんどの機能をサポートされていますが、残りのGeforceブランドには非常に限られた情報しかありません。 NVSMIは、Windows Server 2008 R2以降の64ビットバージョンのWindowsと同様に、すべての標準NVIDIAドライバサポートLinuxディストリビューションをサポートするクロスプラットフォームツールです。メトリックは、標準出力を介してユーザーが直接使用することも、スクリプト目的でCSVおよびXML形式を介してファイルによって提供することもできます。 NVSMIの機能の多くは、基礎となるNVML Cベースのライブラリによって提供されています。 NVMLの詳細については、下記のNVIDIA開発者Webサイトのリンクを参照してください。 NVMLベースのPythonバインディングも利用可能です。 NVSMIの出力は後方互換性があるとは限りません。ただし、NVMLとPythonバインディングはどちらも下位互換性があるため、NVIDIAドライバのリリース間で維持する必要があるツールを作成するときには、最初の選択肢となるはずです

コマンド一部抜粋

option description
-h ヘルプ表示
-L 接続されたGPUリストの表示
-u, --unit ディスプレイ機器情報を表示。Tesla Sクラスのみ利用可
-i, --id=ID 特定のGPUの情報を表示。IDは0以上の自然数で表されるGPUインデックス(GPUボードのシリアル番号、UUID、PCIバスIDなど)。
-f FILE, --filename==FILE 出力を標準出力ではなくファイル出力する。指定ファイルは上書き。
-x, --xml-format XMLフォーマットで出力する。
--dtd -xと一緒に使用し、XML出力をDTDにする

Nvidia-ml-py

nvidia-smiのpythonバインド

公式ページ

メトリクス

ml-py 項目
nvml.util.gpu GPUの使用率
nvml.util.memory メモリの使用率
nvml.mem.total トータルメモリ
nvml.mem.used 使用中メモリ
nvml.mem.free 空きメモリ
nvml.temp 温度
nvml.process.used_gpu_memory プロセス毎の使用メモリ

zabbix

zabbix templateも作ってる人がいるので、比較的楽に監視ができる。
nonbiri-tereka.hatenablog.com
AWSとかだったら、メトリクスをcloud watch側で指定して監視したほうが取り回しは良さそう。