GPUインスタンスの縦方向のスケールアップはしないでください

人工知能、機械学習、生成AIアプリケーションの成長により、高性能GPUワークロードの需要が増大しています。これらのニーズに応えるため、クラウドサービスではさまざまなニーズを満たす幅広いインスタンスを導入しています。多くの場合、小さいインスタンスからより強力なものに取り換えることで計算能力を増加させる縦方向のスケールアップが即座の解決策として使用されています。しかし、この方法はGPU集約的なワークロードでは効果が低い場合があり、場合によっては無意味かもしれません。

GPUワークロードの理解

GPUは高速の数学計算用に設計されています。これらの特殊な計算能力により、機械学習（ML）やビデオ編集において大量のデータセット数学演算を処理するアプリケーションでは非常に有効、または唯一の選択肢です。CPUの主目的は逐次的なタスク実行であり、GPUは深層学習、3Dレンダリング、科学計算といった作業で力を発揮します。

GPUスケーリングの基礎

インスタンスはここに説明されているように、縦方向、横方向、またはその両方の組み合わせによりスケールアウト可能です。
縦方向のスケーリング戦略とは、CPU、メモリ、GPUなどの計算能力がより大きいサーバーへのアップグレードを意味します。横方向のスケーリング戦略は、現在のものをアップグレードする代わりに、インスタンスを追加しことでリソースを並列に増加させます、家族が増えたために近所で追加の物件を購入するようなものです。

GPUの縦方向のスケーリングの限界

CPUやメモリリソースを増やす必要がある場合には、縦方向のスケーリングの効果は明らかですが、GPUワークロードにおいては行き詰まります。これは、より大きなインスタンスへのアップグレードが必ずしもGPUの計算能力を増加させるわけではないためです。例えば、AWSのg5g.largeおよびg4dn.largeインスタンスはいずれもNvidia Tesla T4とT4Gを搭載していますが、これらのインスタンスタイプ間で縦方向のスケーリングを行っても、以下の画像に示すように、GPUパワーは変わらず、GPUコアの数が同じであるため、GPU集中的なタスクの本当のボトルネックには対応していません。

様々なGPUインスタンス：インスタンスのサイズに関わらず同じGPUパワー

実践的な意味合い

この意味合いは明らかです：あなたのアプリケーションがより多くのGPUパワーを要求する場合、インスタンスを縦方向にスケーリングしても、必要なパフォーマンスの向上を得ることはできません。この効率の悪さは、パフォーマンスの停滞だけでなく、ワークロードが決して利用しない追加のCPUやメモリリソースに対して余分なコストを支払う結果となる可能性があります。

縦方向のスケーリングの代替案

ボトルネックがGPUの計算能力である場合、横方向のスケーリングがより実行可能な解決策となります。クラウドインフラストラクチャにインスタンスを追加することで、GPU能力をほぼ線形に増加させることができます。適切なサーバーを横方向にスケーリングすることで、インフラストラクチャのリソース利用を改善し、よりコスト効率の良い解決策を提供します。
MLモデルを縦方向にスケーリングしたサーバーでトレーニングすると、CPUとメモリは追加されますが、GPUのパワーは改善されません。したがって、トレーニング時間の改善はありません。複数のGPUインスタンスが連携して動作する横方向のスケーリングにシフトすると、トレーニング時間は大幅に短縮され、このようなタスクに対するスケーリングの正しいアプローチを示します。

結論

縦方向のスケーリングは特定のシナリオでの迅速なパフォーマンス向上という即効性のある解決策を提供しますが、GPUインスタンスについては役立ちません。スケーリングの各戦略をいつ使用するかについての深い理解を得るために、縦方向と横方向のスケーリングをぜひ確認してください。これらのスケーリング方法についての繊細な理解は、さまざまな計算シナリオでのパフォーマンスの最適化と効果的なコスト管理に不可欠です。
GPUに依存するタスクの場合、横方向のスケーリングによってより多くのGPUパワーを追加するか、ソリューションを再構築することがしばしばより効果的な道です。横方向のスケーリングでも、使用しない余分なCPUパワーにお金を払うことなく、G5g.xlargeやG4dn.xlargeのような最もパワーが少ないインスタンスを選ぶことをお勧めします。
適切なスケーリング戦略を採用することで、インフラストラクチャが堅牢であるだけでなく、特定の計算ニーズに対してコスト効率良く、パフォーマンスが最適化されていることを確実にすることができます。

こちらの記事はdev.toの良い記事を日本人向けに翻訳しています。
https://dev.to/mirzabilal/do-not-vertical-scale-a-gpu-instance-39l1