- 「埋め込み」という技術の概念を論じる記事で、この技術はコンテンツを浮動小数点数の配列に変換し、さまざまなアプリケーションに利用できる。
- 著者のSimon WillisonはPyBay 2023で埋め込みについて講演しており、この記事はその講演を改善したバージョンである。
- 埋め込みは、ChatGPT、Bard、Claudeのような技術を支える大規模言語モデルの分野で使われている。
- 著者はOpenAI
text-embedding-ada-002モデルを使って、自身のブログに「関連記事」機能を構築する方法を説明している。
- 記事では、Symbexというツールを使ってコードに対する埋め込みを利用する方法についても論じており、このツールはコードベース内のすべての関数に対する埋め込みを計算し、コード検索エンジンを構築できる。
- 著者は、埋め込みを利用し、意味検索エンジンを構築するために使えるLLM(Large Language Models)というツールを紹介している。
- 記事では、CLIPというモデルを使って画像に対する埋め込みを利用する方法についても論じており、このモデルはテキストと画像を同じベクトル空間に埋め込むことができる。
- 著者は、埋め込みを使って分類を行う方法について論じており、埋め込みグループの平均位置を計算し、新しいコンテンツをその位置と比較してカテゴリを割り当てる方法を説明している。
- 記事は、個人文書や社内文書をもとに質問へ回答するために埋め込みを使う手法であるRetrieval-Augmented Generation(RAG)についての議論で締めくくられる。
- 記事には、著者がLangChain、コサイン類似度以外の距離関数、大量データの処理、埋め込みモデルの将来的な改善に関する質問に答えるQ&Aセッションが含まれている。
1件のコメント
Hacker Newsのコメント
King - Man + Women = Queenがありますが、これは2次元に射影すると視覚的な印象をうまく残せません。numpy演算ではなく、なぜ特定の方法で dot product を計算しているのかという疑問があります。numpy配列に変換し、MiniBatchKMeansモデルを使ってラベルを生成する方法についてです。