6 ポイント 投稿者 GN⁺ 2024-02-21 | 1件のコメント | WhatsAppで共有
  • ここ数年、フラッシュベースのSSDは、ほとんどすべてのストレージ用途でディスクを置き換えた
  • SSDは複数の独立したフラッシュチップで構成され、これらは並列にアクセス可能
  • SSDの処理量は、主にホストとのインターフェース速度に依存する
  • 過去6年間で、SATAからPCIe 3.0、PCIe 4.0、PCIe 5.0への急速な移行により、SSDの処理性能は爆発的に向上した
  • また、性能向上に加えて、1ドルあたりの容量も増加した
  • この変化は、NVMeやPCIeのようなオープン標準、膨大な需要、競争のあるベンダーのおかげで起きた
  • 現在、PCIe 5.0のデータセンターSSDは、最大13 GB/sの読み取りスループットと270万以上のランダム読み取りIOPSを実現している
  • 最新のサーバーは約100本のPCIeレーンを持つため、1台のサーバーで複数のSSDを全帯域幅で使用できる

クラウドにおけるSSD性能の停滞

  • AWS EC2は2017年初頭に、初期のNVMe SSDを搭載したi3インスタンスをリリースした
  • 当時、NVMe SSDは高価で、サーバーあたり8台を搭載していることは注目に値した
  • しかし、7年が経過しても、SSDあたり2 GB/sの性能にとどまっている
  • i3とi3enインスタンスは、なおもIO/$とSSD容量/$の観点でEC2が提供する最適な選択肢である
  • クラウドベンダーが提供するSSDと最新SSDの性能差は、読み取りスループット、書き込みスループット、IOPSでほぼ10倍に近いものになっている
  • クラウドにおけるこの停滞は、他の分野での大きな進展と対照的だ
  • たとえば、EC2ネットワーク帯域幅は2017年から2023年にかけて、10 Gbit/sから200 Gbit/sへ爆発的に増加した
  • クラウドベンダーがストレージ面で進展しない理由については、いくつかの推測がある
    • EC2が意図的に書き込み速度を1 GB/sに制限し、デバイス障害を回避している可能性があるという説
    • 高速ストレージへの需要がなく、システムを最適化するインセンティブが乏しいという可能性
    • EC2が高速で低価格なNVMeインスタンスストレージを提供すると、別のストレージサービス(EBS)のコスト構造を乱す可能性があるという説
  • 筆者は、近い将来10 GB/s SSDを搭載したクラウドインスタンスを見られることを望んでいる

GN⁺の見解

  • SSD技術の急速な進歩にもかかわらず、クラウドサービスプロバイダーがこの変化についていけないのは、市場の多様なニーズと技術的な限界を反映している
  • クラウドストレージの性能停滞は、コスト効率性とサービス品質への利用者の期待と衝突する可能性があり、これはクラウド業界内の競争力に影響を及ぼしうる
  • 本稿はクラウドコンピューティングのユーザーとプロバイダー双方にとって重要な示唆を提供し、より速いストレージソリューションへの需要と技術進歩の必要性を強調している

1件のコメント

 
GN⁺ 2024-02-21
Hacker Newsの意見
  • クラウドの技術的な問題に関する議論

    • Googleはクラウドの根本的な問題に取り組んでいた。これは、技術者の進む方向を決める重要な要素だ。
    • クラウドのSSDはネットワーク経由で接続されており、これは必須だ。しかしネットワークはあまりに大規模かつ遅く、ローカルSSDの性能を提供できない。
    • ハードドライブでは問題にならなかったが、SSDではネットワークより桁違いに速いため問題になる。
  • AWS Nitro SSDアーキテクチャの説明

    • AWSのドキュメントとブログではNitro SSDアーキテクチャが説明されている。これはPCIeを介してシステムメインボードに物理的に接続されているが、顧客ワークロードを実行するシステムメインボードとは論理的に分離されている。
    • SSDデバイスの寿命を最大限延ばすため、ファームウェアは「ウェアレベリング」という処理を担当する。これには一種のガベージコレクションが含まれ、一般的なSSDは書き込み処理が多いと予測できないタイミングで速度が低下することがある。AWSはデータベースの専門知識を活用し、SSDファームウェアに電源断でも安全な高度なジャーナルベースのデータベースを構築した。
  • クラウドインスタンスのIOPSに関する体験談

    • クラウドインスタンスの「Provisioned IOPS」値が非常に低く驚いた。これは、特にクラウドインスタンスだけを扱ってきた若い人たちが、1〜2 RUに実際どれだけ性能を詰め込めるかをよく知らないことを意味する。
    • NVMeストレージの高速さは、現代の驚くべき技術の一部だ。
  • OCIで働く個人の意見

    • OCIはインスタンスでより速いNVMeドライブを提供している。E4 DenseモデルはSamsungのMZWLJ7T6HALA-00AU3を搭載し、シーケンシャル読み取り7000 MB/s、シーケンシャル書き込み3800 MB/sをサポートする。
    • AWSが現在より速いNVMeを提供していない理由は、具体的な需要が不足しているためである可能性が高い。これは推測だが、一般に、十分な需要がなければアップグレードは想像より先送りされることがある。
  • クラウドから離脱すべきだという主張

    • 現代のNVMeとコア数は、クラウドから離れる強力な根拠を与える。これらの速度はメモリに近く、データがディスクに確実に収まる点で複雑さを減らせる。
    • 強力なサーバ1台だけでキャッシュ/計算/サービングを十分に行え、これにより多くのワークロードが単純化される。
  • クラウド最適化への批判

    • 帯域幅ではなくIOPSが問題だ。任意のIOベンチマークを実行すると、SSDというより大きなスピニングRAIDアレイに近いランダムIOPSの振る舞いを示す。
    • クラウド最適化を真剣に受け止めるのが難しい理由のひとつは、データベースなどのワークロードが十分に最適化されていないとコストが高くつく可能性があるからだ。
  • AWSのNVMeインスタンスタイプに関する議論

    • i4iやim4gnなど、複数のNVMeインスタンスタイプがリリースされているが、性能は向上していない。i3登場から7年が経ったが、まだSSDあたり2 GB/sにとどまっている。
    • AWSのマーケティングは次のように主張している。
      • 最大800Kランダム書き込みIOPS
      • 最大100万ランダム読み取りIOPS
      • 最大5600 MB/秒のシーケンシャル書き込み
      • 最大8000 MB/秒のシーケンシャル読み取り
  • ハイブリッドSSD構成に関する個人的な選択

    • 2011年のX-25E 64GBと2021年のPM897 3.7TBを混在させて使うことで、最も堅牢なソリューションと最大のデータベースを最小電力で得られる。
  • クラウドサービスの性能制限に関する推測

    • クラウドサービスが低い性能で止まっている理由は、需要が多くないことにある可能性があり、これは仮想化レイヤーで『ごまかし』を使えるようにする。
  • SSDコストに関する考察

    • 最速のSSDはMLC技術を用いる傾向があり、これは他の技術に比べて書き込み寿命がはるかに短い。
    • データ密度を高めると性能向上しやすくなるが、メモリのブロック/セル単位で書き込みが行われるため、1セルが悪化すると全セルが失敗する可能性がある。
    • 新しい技術をスタックに導入し、合理的なコストでフリートをアップグレードすることは問題になる可能性がある。