NVIDIA データセンターGPU

  • HPC/高性能計算
  • AI/ディープラーニング
  • ハードウェア

グラフィック計算の高速化のために、グラフィックライブラリとともに提供されたGPUは、その用途を広げ、現在では汎用プログラムでも特に大規模で並列化が効果を発揮する計算領域での性能を高めた製品を提供しています。
AI・ディープラーニングの領域での適用に最適化され、開発用のフレームワークも含め、トータルソリューションを提供しています。
アルゴグラフィックスは、最高ランクのNVIDIA Compute Elite パートナーに認定されています。

AIやHPCなどを高速化するGPUアクセラレータ
NVIDIA データセンターGPU

NVIDIA データセンターGPUを使用することで、HPCやハイパースケール データセンターのワークロードを高速化できます。データ サイエンティストや研究者は、AI・ディープラーニングのトレーニングを従来のCPUよりもはるかに高速にデータ解析できるようになります。さらに、従来よりも大型のシミュレーションを高速で実行するために必要なパワーを実現します。また、NVIDIA データセンターGPUは仮想デスクトップ、アプリケーション、ワークステーションに最高のパフォーマンスを提供します。

NVIDIA H200

NVIDIA H200 Tensor コア GPUは、4.8TB/sで、141GBのHBM3eメモリを提供する初のGPUです。これは、NVIDIA H100 Tensor コア GPUの約2倍のメモリ容量で、メモリ帯域幅は1.4倍です。
NVIDIA H200はLLM推論も高速化されております。Llama2のようなLLMを扱う場合、H100 GPUと比較して推論速度を最大2倍向上します。またミュレーション、科学研究、人工知能のようなメモリを大量に使用するHPCアプリケーションでは、 H200の高いメモリ帯域幅が、データへのアクセスと操作を効率化し、CPUと比較して110倍の早さで結果を得ることができます。
H200の大容量かつ高速なメモリは、生成AIとLLMを加速し、エネルギー効率を向上させ、総所有コストを低減し、生成AIやハイパフォーマンス・コンピューティング・ワークロードのために大量のデータを処理します。

仕様 NVIDIA H200 Tensor コア GPU
GPUメモリ 141GB
GPUメモリ帯領域 4.8TB/秒
FP8 Tensor コア パフォーマンス 4 PetaFLOPS
フォーム ファクター SXM / PCIe
サーバー オプション GPUを4基または8基搭載のNVIDIA HGX H200パートナー製品およびNVIDIA-Certified Systems
GPUを8基搭載のNVIDIA MGX H200 NVLパートナー製品およびNVIDIA-Certified Systems
デコーダー 7 NVDEC / 7 JPEG
最大熱設計電力(TDP) 最大700W(構成可能)/ SXM
最大700W(構成可能)/ PCle
NVIDIA AI Enterprise アドオン / SXM
同梱 / PCle

NVIDIA H100 NVL

NVIDIA H100 NVLは、1基あたり94GBのメモリを搭載しており、2基のNVIDIA H100 NVLをNVLinkで接続することにより188GBもの大容量メモリと7.8TB/秒のメモリ帯域を実現します。
大量のデータを展開する必要がある生成AIや大規模言語モデル(LLM)の推論に最適化され、前世代のA100と比較して最大12倍高速な推論性能をで提供します。

仕様 NVIDIA H100 NVL 94GB
GPUメモリ 94GB HBM3 / ECC対応
GPUメモリ帯領域 3.98TB/s
CUDAコア数 14,592
Tensorコア数 456(第4世代)
FP64 TFLOPS 34
FP64 Tensorコア TFLOPS 67
FP32 TFLOPS 67
TF32 Tensorコア TFLOPS 989※
BFLOAT16 Tensorコア TFLOPS 1979※
FP16 Tensorコア TFLOPS 1979※
FP8 Tensorコア TFLOPS 3958※
デコーダー 7 NVDEC / 7 JPEG
最大熱設計電力(TDP) 350~400W(構成可能)
NVIDIA AI Enterprise 含む

※ 新しいスパース性機能を利用した場合の実効値

NVIDIA L40S

NVIDIA L40Sは、142基の第3世代RTコア、GPUメモリ48GB GDDR6の搭載により、NVIDIA Ampereアーキテクチャー世代の最大2倍のリアルタイムレイトレーシング性能を実現します。
大量のデータを展開する必要がある生成AIや大規模言語モデル(LLM)の推論に最適化され、前世代のA100と比較して最大1.5倍高速な推論性能を提供します。

仕様 NVIDIA L40S
GPUメモリ 48GB GDDR6 / ECC対応
GPUメモリ帯領域 864GB/s
CUDAコア数 18,176
RTコア数 142(第3世代)
Tensorコア数 568(第4世代)
RTコア性能 TFLOPS 209
FP32 TFLOPS 91.6
TF32 Tensorコア TFLOPS 183 / 366※
BFLOAT16 Tensorコア TFLOPS 362.05 / 733※
FP16 Tensorコア TFLOPS 362.05 / 733※
FP8 Tensorコア TFLOPS 733 / 1466※
最大熱設計電力(TDP) 350W
仮想GPU(vGPU)ソフトウェア対応 あり

※ スパース性を含む

製品やソリューションについて、
お気軽にお問い合わせください。