コンピュータビジョンの基礎（2024）

(visionbook.mit.edu)

6 ポイント投稿者 GN⁺ 2025-06-16 | 1件のコメント | WhatsAppで共有

Foundations of Computer Vision は、画像処理と機械学習をあわせて扱うコンピュータビジョンの基礎教科書であり、入門段階の学部生・大学院生だけでなく、経験のある実務者も読者として想定している
2010年11月に MIT Press に最初に提案されて以来、10年以上にわたって執筆が続けられ、短く要点を押さえた章を作ろうという目標は、この分野の変化の中で拡張され続けた
2012年の ディープラーニング革命 は、古いアイデアを実際の実装へと結びつける道具を提供し、しばらく脇に追いやられていた初期の概念も、時を経て再び重要になった
本書は、画像形成、学習、信号・画像処理、フィルタ、マルチスケール表現、ニューラルネットワーク、生成モデル、3D幾何、動作、シーン理解、研究者への助言まで、15の Part で構成されている
最新のコンピュータビジョン成果を網羅したり、形状解析・物体追跡・人物姿勢推定・顔認識を深く掘り下げたりするのではなく、さまざまな応用を理解するために必要な 基礎概念 に焦点を当てている

どのような読者に向けた本か

Foundations of Computer Vision は、コンピュータビジョンの基礎的な主題を、画像処理と機械学習の観点から扱う
主な読者はコンピュータビジョンに入門する学部生・大学院生であり、経験のある実務者にとっても有用な本を目指している
概念の直感的理解を育てるため、多くの 可視化 を含んでいる
当初は分野を幅広く扱う大きな本を構想していたが、コンピュータビジョンの範囲があまりに広いため、小さな本へと方針を変えた
- 各章を5ページ以下に制限しようとしていた
- この制限により、各テーマで理解に必要な重要概念へ集中できるようになった
- 短い本を書くという目標も、結局は達成できなかった

10年以上にわたった執筆過程

本書のアイデアは 2010年11月24日 に MIT Press へ最初に提案された
執筆は直線的には進まず、原稿の分量も増える一方ではなく、一度減った後に再び増えた
全体の作業には 10年以上 を要した
執筆過程では多くの例題を作成して磨き上げ、読者が例題を自ら再現しながら学べることを目指した

ディープラーニング以後も続く古いアイデア

コンピュータビジョンはこの10年で大きく変化したが、現在の手法は過去のコンピュータビジョンと AI の歴史に深く根ざしている
名称が変わり、一部のアイデアが新しく登場したとしても、今日の手法が以前の概念と断絶しているわけではない
本書は、さまざまな概念の背後にある 統合的なテーマ を強調する
中心的な比喩のひとつが、複数の 視点(view) である
- 実際の物理的なシーンを、異なる角度・センサー・時間から見る
- 複数の視点を集め、その下にある現実を理解する
- 本書も複数の視点を組み合わせて、コンピュータビジョンの基礎を探る構成をとっている
2012年のディープラーニング革命は、コンピュータビジョンの基盤をさらに強固にし、この分野の初期に提案された多くのアイデアを実際に動く実装へと変える道具を提供した
ディープラーニング以後、初期のアイデアの一部は一時忘れられたが、時がたつにつれて多くのアイデアが再び戻ってきた

15の Part で見る本書の範囲

ほとんどの章は、それ以前に扱った主題の理解を前提としているため、順番に読むのが望ましい
Part I: ビジョンの問題を紹介し社会的文脈の中に位置づける動機づけのテーマ、簡単なビジョンシステム、基本的な数学ツール
Part II: 画像形成過程
Part III: ビジョンの例題を用いた学習の基礎と、広く適用可能な概念
Part IV: コンピュータビジョンの基盤となる信号処理および画像処理の入門
Part V: Gaussian kernels、binomial filters、image derivatives、Laplacian filter、temporal filters のような線形フィルタとその応用
Part VI: マルチスケール画像表現
Part VII: ビジョンのためのニューラルネットワーク
- convolutional neural networks
- recurrent neural networks
- transformers
- 特定のアーキテクチャよりも主要な原理に焦点を当てる
Part VIII: 画像の統計モデルとグラフィカルモデル
Part IX: ニューラルネットワーク時代における2つの強力なモデリングアプローチ
- 生成モデリングは、自然画像の形成と、適切な幾何学的規則に従う合成画像を生み出す 統計的画像モデル を扱う
- 表現学習は、ベクトル埋め込みのような画像の有用な抽象表現を見つける
Part X: 学習ベースのビジョンシステムを作る際に生じる課題
Part XI: 2D画像から 3D 世界の構造を再構成するための幾何学的ツールとその活用
Part XII: シーケンス処理と動作計測
Part XIII: シーン理解と物体検出
Part XIV: 発表、論文執筆、効果的な研究者としての姿勢に関する若手研究者への助言
Part XV: Part I で提示した単純な視覚システムに戻り、本書の手法をおもちゃ問題に適用する

意図的に深く扱わないもの

最新のコンピュータビジョンにおける 最新成果 のレビューは提供しない
形状解析、物体追跡、人物姿勢推定、顔認識といった多くの応用を深く扱わない
こうした応用テーマは、最新のコンピュータビジョン学会論文や専門モノグラフで学ぶほうがより適している
本書の焦点は、応用全般の最新結果ではなく 基礎概念 にある

あわせて言及されている関連書籍

一般的なコンピュータビジョンの教科書として、次の書籍が挙げられている
- Computer Vision: A Modern Approach
- Rick Szeliski の Computer Vision: Algorithms and Applications
物理ベースの基礎は Horn の Robot Vision がよく扱っている
David Marr の Vision は、コンピュータビジョンへの入門のきっかけとなった本であり、直感と文章の両面で優れていると評価されている
複数カメラによるビジョン幾何は、Hartley と Zisserman の Multiple View Geometry in Computer Vision が詳しく扱っている
3D幾何に関連して、Koenderink の Solid Shape、Faugeras の Three-Dimensional Computer Vision、Trucco と Verri の Introductory Techniques for 3D Computer Vision が言及されている
学習関連の教科書としては、Mackay、Bishop、Murphy、Goodfellow・Bengio・Courville の書籍が挙げられている
ビジョンの確率モデルは Prince の教科書がよく扱っている
人間の視覚知覚については、Steve Palmer の Vision Science: Photons to Phenomenology が重要な書籍として言及されている
低レベルビジョンについては Granlund と Knutsson の Signal Processing for Computer Vision、高レベルビジョンについては Ullman の High-level Vision が挙げられている
光とビジョンに関する本として、Minnaert の Light and Color in the Outdoors が言及されている

引用情報と講義資料

書籍引用用の BibTeX 項目には、次の情報が含まれる
- title: Foundations of Computer Vision
- author: Torralba, A. and Isola, P. and Freeman, W.T.
- isbn: 9780262378666
- lccn: 2023024589
- series: Adaptive Computation and Machine Learning series
- year: 2024
- publisher: MIT Press
印刷版は MIT Press で購入できる
講義担当者向けスライドは Dropbox からダウンロードできる

1件のコメント

GN⁺ 2025-06-16

Hacker News のコメント

On Research, Writing and Speaking に興味深い一節がある。「大変そうに聞こえる」。その通りだ。もはや賢さの問題ではない。この段階になると、周りの人もみんな賢い。大学院では 努力する人 が先に進む
- たしかに洞察がある。誰もが 賢さだけで乗り切ること ではもう十分でない段階に達する
  多くの人は大学に入ってそれに気づくが、学部では学ぶ内容が明確で上限もあるため、ある程度は持ちこたえられる。一方、博士課程にはほとんど上限がなく、毎週読むべき論文数が決まっているわけでもなく、「これは試験に出ません」のようなものもない。より賢いことのリターンが平坦になるのではなく、単に天井がない。もっと読み、文献の洪水についていき、実験と手法を改善し続けることができる
  また ソフトスキルとネットワーク も必要になる。学会に行ってコミュニティの流れを把握し、人々と会ってコーヒーを飲んだり夕食を共にしたりしなければならない。学部時代のように指示を待つのではなく自分で動く必要があり、既存の手法に対して十分に懐疑的かつ批判的でありながら、コミュニティが理解し受け入れられるだけの関連性と面白さを持つ新しいアイデアを出さなければならない
  講義や試験が与える外部からの同期なしに、自分で時間を管理し、締め切りとルーチンを作らなければならない。こうしたものには事実上上限がなく、期待値も曖昧だ。十分に徹底してやったのに、査読者が新規性を感じなかったり、その時々の流行にあまり合っていなかったりするという理由で、初めてリジェクトを経験することもある
  結局、博士課程は誰でも 精神的な限界 まで追い込まれ得る。挫折感があり、多くの博士課程学生にとって悪名高いほどつらい時期だ。もちろん学位取得だけが目的なら「耐える」戦略も可能だが、アカデミアでのキャリアを狙う人は通常、最低基準以上を期待するし、学部時代に良い成績で乗り切ってきた人ほどなおさらだ
- 学部3年の時は、一生懸命やっても授業についていけない感じだった。高校の成績平均が90%程度の学生が入る 工学プログラム で、あまりに難しく、2年次までに学生の75%が中退していた
- 大学院の時に誰かがこういうことを教えてくれていたらよかったと思う。成功する大学院生になる方法 を学ぶのにあまりにも時間がかかり、正直、学校を終えてからようやくちゃんと分かった
この分野のもう一つの良い本は次の通り: Computer Vision, Fifth Edition, E.R. Davies, Academic Press, ISBN-13 978-0128092842
- もう一つの代表的な本は Szeliski の Computer Vision 2nd Ed 2022年版: https://szeliski.org/Book/
  Forsyth & Ponce も良いが、今ではやや古くなっている。3D分野の古典は今でも Hartley & Zisserman の Multiple View Geometry だ
この本が無料で公開されているのは驚きだ。著者であれ出版社であれ、公開してくれた側に感謝したい
- 機械学習、コンピュータビジョン、ロボティクス のコミュニティには、本をオンラインで無料公開する文化があって本当に良い。この分野の最高クラスの教科書を無料で読むことができる
  米国で教授が最新版の教科書を数百ドルで買うよう事実上要求する他分野とは、かなり対照的だ。そのおかげで、経済的に余裕の少ない国の人々も世界中どこからでも最高の資料にアクセスできる。講義資料や動画をオンラインで共有する場合も多い
- 本当にその通りで、感謝に加わりたい。ただし、PDFとしてダウンロード する方法を見つけたかどうかが気になる。学習資料を読むときは、メモや参照マークを付けられるべきだと思う
“Writing this book” セクションは、誤って原稿の2/3に LLM が使われたかのように読めてしまう可能性がある
おそらく LLM が書くべき材料をずっと多く提供したという意味だろうが、明確に直すとよいと思う
- そうは読めない。実際に ChatGPT は初めて執筆を手伝えたツールであり、この本の1/3未満だけが ChatGPT 公開後に書かれた
  見たところ、グラフ上に 機械学習/人工知能分野の重要な出来事 を示しているように見える
この分野で働いている人から見ると、この内容が今なおどれほど有効なのか気になる。外から見ると、コンピュータビジョンを含む機械学習のかなりの部分が、この2年の進展で完全に揺さぶられたように見える
- 今でも非常に有効だ。最近の手法の中に本当に革命的なものはなく、すべて同じ基礎の上にある。むしろ、もっと古い本も読んでおくとよいと思う
  ハフ変換、Canny エッジ、SIFT、Harris コーナー のような古典的手法で作られた、実際に収益性のあるコンピュータビジョン応用は多い。基本的な理解なしに流行語を並べて API をつなぐだけの人に見えず、真剣な専門家に見えるためには、こうしたものを知っておく必要がある
- 今でも非常に関連性が高い。学術界の外で使われるコンピュータビジョンの大半は、今なお古い内容や 古典的コンピュータビジョンアルゴリズム に基づいている
  最新モデルや手法を使う機会は思ったより多くない。たいていはそこまで関係がないか、ごく特定のケースにしか合わないか、そもそもその程度の複雑さが必要ない
- 特に GPU アクセラレーション を簡単に使えないシステムでは、「古典的」コンピュータビジョンで解くべき問題がまだ多い。限られた計算資源のプラットフォームで同時自己位置推定と地図作成（SLAM）を行う実務者なので、Structure from Motion の章はぜひ読んでみるつもりだ
この本をベースにした コンピュータビジョン講義 があるのか気になる。動画のような資料があれば知りたい
マシンビジョン に関する良い本を推薦してほしい。効果的なマシンビジョン、さらにはコンピュータビジョンの基盤は、適切なカメラ、光学系、照明を選ぶことにあると思う。入力が悪ければ出力も悪いので、高品質な画像が不可欠だ
- こうした要素が実際に大きな違いを生んだ ユースケース を一つか二つ挙げてもらえるか気になる

コンピュータビジョンの基礎（2024）

どのような読者に向けた本か

10年以上にわたった執筆過程

ディープラーニング以後も続く古いアイデア

15の Part で見る本書の範囲

意図的に深く扱わないもの

あわせて言及されている関連書籍

引用情報と講義資料

関連記事

1件のコメント

Hacker News のコメント