5 ポイント 投稿者 GN⁺ 2023-10-25 | 1件のコメント | WhatsAppで共有
  • 「埋め込み」という技術の概念を論じる記事で、この技術はコンテンツを浮動小数点数の配列に変換し、さまざまなアプリケーションに利用できる。
  • 著者のSimon WillisonはPyBay 2023で埋め込みについて講演しており、この記事はその講演を改善したバージョンである。
  • 埋め込みは、ChatGPT、Bard、Claudeのような技術を支える大規模言語モデルの分野で使われている。
  • 著者はOpenAI text-embedding-ada-002モデルを使って、自身のブログに「関連記事」機能を構築する方法を説明している。
  • 記事では、Symbexというツールを使ってコードに対する埋め込みを利用する方法についても論じており、このツールはコードベース内のすべての関数に対する埋め込みを計算し、コード検索エンジンを構築できる。
  • 著者は、埋め込みを利用し、意味検索エンジンを構築するために使えるLLM(Large Language Models)というツールを紹介している。
  • 記事では、CLIPというモデルを使って画像に対する埋め込みを利用する方法についても論じており、このモデルはテキストと画像を同じベクトル空間に埋め込むことができる。
  • 著者は、埋め込みを使って分類を行う方法について論じており、埋め込みグループの平均位置を計算し、新しいコンテンツをその位置と比較してカテゴリを割り当てる方法を説明している。
  • 記事は、個人文書や社内文書をもとに質問へ回答するために埋め込みを使う手法であるRetrieval-Augmented Generation(RAG)についての議論で締めくくられる。
  • 記事には、著者がLangChain、コサイン類似度以外の距離関数、大量データの処理、埋め込みモデルの将来的な改善に関する質問に答えるQ&Aセッションが含まれている。

1件のコメント

 
GN⁺ 2023-10-25
Hacker Newsのコメント
  • 著者が記事を公開した後、埋め込みをより深く理解するための追加資料を見つけました。
  • 埋め込みは、コンピュータビジョンおよび視覚SLAMアルゴリズムにおける場所認識の標準的な手法になっています。
  • 単語埋め込みの有名な例として King - Man + Women = Queen がありますが、これは2次元に射影すると視覚的な印象をうまく残せません。
  • オートエンコーディングは、その単純さにもかかわらずうまく機能しており、個人用ハードウェアで実行できる優れた文書埋め込みモデルへの関心があります。
  • 埋め込みは、ノート作成アプリの既存の全文検索機能に驚くほど簡単に追加でき、予想以上に強力でした。
  • 言語における埋め込みのメンタルモデルは、極めて高次元の空間に多くの点が複数の位置に存在している、と説明されます。
  • 特定のドメイン向けに構築する際には商用の埋め込みモデルに限界があり、埋め込みモデルのファインチューニングに関する、より優れたツールや文献への期待があります。
  • この記事は、機械学習の背景がほとんどない人にとっても有益で興味深いものでした。
  • 著者が、ベクトル化された numpy 演算ではなく、なぜ特定の方法で dot product を計算しているのかという疑問があります。
  • 記事で使われているクラスタリングコードについて混乱があります。特に、データベースの各行を numpy 配列に変換し、MiniBatchKMeans モデルを使ってラベルを生成する方法についてです。