- コンピュータビジョンの基礎を、画像処理と機械学習の観点から扱う入門者および中級者向けの書籍
- 中核概念に集中するため、各章を短く明確に構成
- ディープラーニング革命以後の変化と、古典的アイデアが再構成される過程を、書籍執筆の経験とともに説明
- 15のパートで、画像処理、ニューラルネットワーク、生成モデル、シーケンス処理、シーン理解など、コンピュータビジョン全般のテーマを扱う
- 最新の研究動向や特定の応用よりも、必須理論と直観の構築に焦点を当てた構成
序文
この本について
- この本は、コンピュータビジョンの中核的なテーマを、画像処理と機械学習の視点から扱う
- 読者の直観を育てるために、さまざまな可視化資料を含む
- 主な読者層はコンピュータビジョンに入門する学部生および大学院生だが、経験豊富な実務者にも有用
- 当初は広範な内容を目指していたが、コンピュータビジョン分野の広大さゆえに、各章を5ページ以内に制限して中核概念に集中
- 短い本を書くことを目標にしていたが、結局分量が多くなってしまった経験を率直に共有
本の執筆過程
- 執筆開始時に抱いていた意図と実際の過程の非線形性をデータで示し、完成までに10年以上を要した
- 執筆の途中でディープラーニング革命(2012年)が起こり、伝統的手法と現代的アプローチの融合過程が進行
- 初期のディープラーニング人気によって以前のアイデアが一時的に忘れられたが、時間がたつにつれて本質的な概念が再び注目された
- 執筆の旅は大変だったが、自ら多様な例題や実験を行い、多くを学んだと述べる
- コンピュータビジョンおよびAI分野の主要な出来事が、書籍執筆の時期とともにどのように変化したかを視覚的に示す
本の構成
- コンピュータビジョン分野はこの10数年で急速な発展を遂げ、現在の方法は過去とまったく異なるように見えるが、歴史的連続性を強調
- 本全体を通して、統一されたテーマと視点、そして多様な観点の重要性を繰り返し扱う
- 本は15のパートで構成され、各パートがコンピュータビジョンの一貫したテーマに集中
各パートの紹介
- Part I: コンピュータビジョンの問題に対する動機づけ、社会的文脈、数学的基礎の紹介
- Part II: 画像生成過程
- Part III: 画像の例を通じた機械学習の基礎概念の説明
- Part IV: 信号処理および画像処理の入門
- Part V: 有用な線形フィルタ(ガウシアンカーネル、二値フィルタ、画像導関数、ラプラシアン、時間フィルタ)とその応用
- Part VI: マルチスケール画像表現
- Part VII: コンピュータビジョンのためのニューラルネットワーク(畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、トランスフォーマー)
- Part VIII: 画像の統計モデルとグラフモデル
- Part IX: 生成モデルと表現学習(ベクトル埋め込みなど)を中心とした現代的アプローチ
- Part X: 学習ベースのビジョンシステム構築時に生じる課題
- Part XI: 3D構造再構成のための幾何学的ツール
- Part XII: シーケンス処理とモーション計測
- Part XIII: シーン理解と物体検出
- Part XIV: ジュニア研究者のためのプレゼンテーション、論文執筆、効果的な研究マインドに関する助言
- Part XV: Part Iで提示した問題を、本書で扱うさまざまな方法論で解決する試み
扱わない内容
- コンピュータビジョンの最新動向や、さまざまな実用的応用分野(形状解析、物体追跡、動作解析、顔認識など)は扱わない
- こうした詳細な応用については、学会論文や専門書を参照するほうが効果的
謝辞
- さまざまなコンピュータビジョン教育と研究に影響を与えた教員・学生・同僚への感謝を表明
- 複数の学会での講義資料や実験、章ごとの支援、表紙デザインなど、多様な協力に対する具体的な謝意に言及
- 各著者が家族や親しい知人にも継続的な支援への感謝を述べる
引用情報
- 書籍を引用する際に利用できるBibTeX形式を提供
講師向けリソース
- 書籍の印刷版はMIT Pressで購入可能
- 本と連動した講義スライドをオンラインで提供
参考文献
- コンピュータビジョン、機械学習、信号処理、幾何学、視覚科学などに関連する主要な古典書および最新書籍の一覧を提供
1件のコメント
Hacker Newsの意見
『On Research, Writing and Speaking』という本に興味深い箇所がある。"これは大変そうだ。" その通り。もはや賢いだけでは勝負にならない。大学院では一生懸命努力する人が先に進む、という話の共有
最近2年間の技術変化によって、機械学習、特にコンピュータビジョン分野の従来の内容が依然として有効なのか、現場にいる人のコメントを求める声
依然として非常に有効。最新の手法も根本的には同じ基礎の上に積み上げられた発展だ。むしろ基本概念や伝統的アルゴリズムをもっと読んでおくのが望ましい。Hough transform、canny edge、sift、Harris corner などの古典的手法をよく理解してこそ、本当の専門家と言える。流行の技術キーワードだけを暗記して API をつなぎ合わせて使うだけの開発者とは、実力の差が生まれる
今でも GPU アクセラレーションが難しいシステムなどでは「古典的な」コンピュータビジョン手法が必須だ。私はリソース制約のある環境で Simultaneous localization and mapping の問題を解く実務者だ。Structure from Motion の章はぜひ読んでみるつもり
"Writing this book" の部分が、LLM が原稿の 2/3 を書いたように見えるかもしれない。実際には LLM が書くべきことを増やしたので本の内容が増えた、という意味のように思えるので、もっと明確にした方がよいという意見
コンピュータビジョン分野の別の良い本として、以下の本を推薦
この本が無料公開されているのが信じられないほどだとして大絶賛
本当にその通り。もし PDF でダウンロードする方法を見つけた人がいたら知りたい。勉強するときは個人的にノートや参考資料を残しておくことがどうしても必要だと思う
機械学習、コンピュータビジョン、ロボティクスのコミュニティは、教科書を無料でオンライン公開する文化が本当に素晴らしい。この分野では最高水準の教科書も無料でオンライン入手できる。他分野では米国の教授が最新版の購入を求めるため高い費用がかかるが、この分野では発展途上国の人々や世界中の誰にでも最高の資料が開かれている。講義資料や動画も一緒に多く公開されている
マシンビジョンに関する良い本の推薦を求める声。効果的なマシンビジョンだけでなく、コンピュータビジョンの核心はカメラ、光学、照明の選択にあると考えている。入力画像の品質が良くなければ、出力も悪くならざるを得ないと思う