2 ポイント 投稿者 GN⁺ 2025-01-29 | 1件のコメント | WhatsAppで共有

カーネギーメロン大学の機械学習プロダクション講座

  • 講座概要

    • この講座では、機械学習モデルをソフトウェア製品として構築、デプロイ、保守する方法を扱う。
    • 責任あるAI、MLOps、安全性、セキュリティ、公平性、説明可能性などを含め、ライフサイクル全体を扱う。
    • データサイエンスの経験と基本的なプログラミングスキルがある学生を対象とする。
  • 講座目標

    • 機械学習モデルを製品へと移行し、品質を保証し、大規模に運用・保守する方法を学ぶ。
    • ソフトウェアエンジニアとデータサイエンティストの協力を促進し、MLシステムの構築に必要な相互理解を築く。
    • MLエンジニアとしてのキャリアを検討している学生に適している。
  • 主なトピック

    • 誤った予測を前提とした設計、安全性とセキュリティを確保する方法。
    • 実環境で動作するユーザーインターフェースおよびシステムの設計。
    • モデルを信頼性高くデプロイし、更新する方法。
    • データ品質の問題、コンセプトドリフト、フィードバックループを検出する方法。
    • 大規模MLシステムを設計・テストする方法。
    • 公平性、説明可能性、プライバシー、堅牢性、安全性など、モデルの予測精度以外に重要な品質要件を特定し、測定する方法。
  • 学習成果

    • MLコンポーネントを含む本番システムを設計する際のトレードオフ分析。
    • MLコンポーネントの誤りを見越して、堅牢なシステムを実装すること。
    • データインフラの設計、および実験のためのシステム設計。
    • MLパイプライン全体の品質保証。
    • 複雑なML製品を構築する際にシステムレベルの要件を考慮すること。
    • 学際的なチームで効果的にコミュニケーションすること。
  • 実習とプロジェクト

    • 学生は、100万人のユーザーを対象とする映画推薦サービスを構築、デプロイ、評価、保守するプロジェクトに参加する。
  • 授業と実習

    • 講義は月曜日と水曜日に行われ、実習は金曜日にさまざまな時間帯で行われる。
    • Slackを通じて授業中の活動に参加でき、講義録画はCanvasで提供される。
  • 評価と課題

    • 個人課題、グループプロジェクト、中間試験、参加度、実習、読書クイズによって評価される。
    • 各課題は明確な仕様と配点を提供し、学生が明確な期待値を設定できるようにしている。
  • チームワークと協業

    • チームプロジェクトは3〜5人の学生で構成されたチームで進められ、チームワークは必須である。
    • チームは独立して作業し、チーム内での協力が推奨される。
  • その他の情報

    • 重要なお知らせはSlackを通じて伝達され、質問はメールとSlackで可能。
    • 授業資料はGitHubで公開されており、自習を希望する学生にも提供される。

この講座は、機械学習を活用したソフトウェア製品の開発に関心のある学生に不可欠なスキルと知識を提供し、多様な実例とプロジェクトを通じて実務経験を積む機会を提供する。

1件のコメント

 
GN⁺ 2025-01-29
Hacker Newsのコメント
  • Kafka、Docker、Kubernetes、Jenkinsは業界標準のツールであり、MLOpsに重点を置いているのが新鮮だ。モデル構築だけでなく、実際の本番システムとの接続を扱う内容になっているのが良い。説明可能性、公平性、モニタリングも扱っているのが印象的だ

    • 初級レベルだろうか? 演習を見ると、中級のソフトウェアエンジニアや意欲のある初心者でも、チュートリアルとして学べる内容が多い。Git、Flask、コンテナオーケストレーションは有用だが、すでに本番環境で働いたことのある人には基本的だ。分散学習のためのネットワーク最適化や大規模推論の運用管理のような、より深い課題はあまり扱われていないように見える。グループプロジェクトで扱われるのかも気になる
    • 使われているツールの長期的な妥当性も気になる。Jenkinsはどこにでもあるが、CI/CDのためにGitHub ActionsやArgoCDのような、よりモダンなものを紹介するほうが理にかなっているのではないか? Kubernetesは当然知っておくべきだが、エッジデプロイやサーバーレスシステム向けの代替や補助ツールはどうだろう? もう少し未来志向に踏み込む余地がありそうだ
  • データ品質に関する内容がほとんどなく、それが16章にあるだけだ……著者たちが産業界でどれほど実務経験を積んできたのか気になる。データ品質とデータクレンジングに時間の90%が費やされる

  • 機械学習クラスタのインフラ構築に関する文献や講座を知っている人はいる? 主にストレージインフラの構築と拡張、ネットワーキング、スケジューリングのアプローチに興味がある

  • 学生以外の人たちと一緒に追いかけられる場所があるのか気になる

  • 誰でも登録できるのか、それともその国のトップクラスのコンピュータサイエンス課程に入学しなければならないのか気になる

  • この講座をここで見られてうれしい。Christianは素晴らしい人物で、素晴らしい仕事をしている。この講座と本が始まった経緯を知っており、強く推薦できる

  • MLプラットフォームとシステムの分野で、あらゆる規模の現場で9.5年働いてきた。資料は素晴らしく見える

  • 興味深い。演習を見てみたが、LLMの経験があまりないフルスタック開発者として、すでに半分はなじみがある(git、flask、kafka、kubernetes)。残りは単にコードだ。MLに関する複雑な数学はない

    • つまり、ML opsはPhDがなくても一般の開発者にとってそれほど難しくない分野だということだろうか?
  • 単一の「Kubernetis」を学ぶというアイデアが気に入った

  • コースの複雑さを過小評価しているのかもしれないが、これは初級講座のように聞こえる。モデル解釈ツールに至るまで、ほとんどの内容が正直かなり簡単に見える。ほとんどのユースケースで業界標準のツールを使っている点は良いと思う