nvidia-smiについて調べた
目次
NVIDIA-SMIについて
NVIDIA公式
developer.nvidia.com (取得できるメトリクスは公式ペーシの画像の通り)
要約
- NVIDIA-SMIとは
nvidia-smiコマンドについて
NVIDIA公式のPDF
http://developer.download.nvidia.com/compute/DCGM/docs/nvidia-smi-367.38.pdf
抜粋翻訳
SYNOPSIS
nvidia-smi [OPTION1 [ARG1]] [OPTION2 [ARG2]] ...
DESCRIPTION
nvidia-smi(同じくNVSMI)は、Fermi以上のアーキテクチャファミリのNVIDIAのTesla、Quadro、GRID、およびGeForceデバイスに監視および管理機能を提供します。 GeForce Titanシリーズのデバイスはほとんどの機能をサポートされていますが、残りのGeforceブランドには非常に限られた情報しかありません。 NVSMIは、Windows Server 2008 R2以降の64ビットバージョンのWindowsと同様に、すべての標準NVIDIAドライバサポートLinuxディストリビューションをサポートするクロスプラットフォームツールです。メトリックは、標準出力を介してユーザーが直接使用することも、スクリプト目的でCSVおよびXML形式を介してファイルによって提供することもできます。 NVSMIの機能の多くは、基礎となるNVML Cベースのライブラリによって提供されています。 NVMLの詳細については、下記のNVIDIA開発者Webサイトのリンクを参照してください。 NVMLベースのPythonバインディングも利用可能です。 NVSMIの出力は後方互換性があるとは限りません。ただし、NVMLとPythonバインディングはどちらも下位互換性があるため、NVIDIAドライバのリリース間で維持する必要があるツールを作成するときには、最初の選択肢となるはずです
コマンド一部抜粋
option | description |
---|---|
-h | ヘルプ表示 |
-L | 接続されたGPUリストの表示 |
-u, --unit | ディスプレイ機器情報を表示。Tesla Sクラスのみ利用可 |
-i, --id=ID | 特定のGPUの情報を表示。IDは0以上の自然数で表されるGPUインデックス(GPUボードのシリアル番号、UUID、PCIバスIDなど)。 |
-f FILE, --filename==FILE | 出力を標準出力ではなくファイル出力する。指定ファイルは上書き。 |
-x, --xml-format | XMLフォーマットで出力する。 |
--dtd | -xと一緒に使用し、XML出力をDTDにする |
Nvidia-ml-py
公式ページ
- python2系
nvidia-ml-py · PyPI - python3系
nvidia-ml-py3 · PyPI
メトリクス
ml-py | 項目 |
---|---|
nvml.util.gpu | GPUの使用率 |
nvml.util.memory | メモリの使用率 |
nvml.mem.total | トータルメモリ |
nvml.mem.used | 使用中メモリ |
nvml.mem.free | 空きメモリ |
nvml.temp | 温度 |
nvml.process.used_gpu_memory | プロセス毎の使用メモリ |
zabbix
zabbix templateも作ってる人がいるので、比較的楽に監視ができる。
nonbiri-tereka.hatenablog.com
AWSとかだったら、メトリクスをcloud watch側で指定して監視したほうが取り回しは良さそう。