15 ポイント 投稿者 xguru 2024-01-22 | 3件のコメント | WhatsAppで共有
  • オープンソースAI革命はまだ起きていない
  • もちろん印象的なオープンウェイトモデルは存在し、ウェイトを公開している人々には感謝するべきだが、モデルを再現できないなら真のオープンソースではない
  • Linuxでコードベースなしにバイナリだけを公開したと想像してみてほしい。あるいは、バイナリの作成に使ったコンパイラなしにコードベースだけを公開すると想像してみてほしい。これがまさに今日の状況だ
  • これにはさまざまな欠点がある
    • プロジェクトに再び貢献することができない
    • プロジェクトがOSSフィードバックループの恩恵を受けられない
    • モデルにバックドア(例: 潜伏エージェント)がないか確認しにくい
    • データやコンテンツフィルタが会社のポリシーと一致しているか確認できない
    • モデルを更新するには会社に依存しなければならない
  • コードベースからデータパイプラインまで、すべてが公開されている真のオープンソースLLMプロジェクトは、多くの価値と創造性を生み出し、セキュリティを改善できる
    • ただし、ウェイトを再現することはコードをコンパイルするほど簡単ではないため、そう単純ではない。計算資源とノウハウが必要だ。
    • そしてコントリビューションのレビューは、次のトレーニングを実行するまで性能にどのような影響があるか分からないため難しい
  • それでも、十分な動機を持つ人やグループならこうした詳細を解明できるはずで、既存のOSSとはかなり違って見えるかもしれないが、こうした新しい挑戦こそがこの領域が面白い理由

3件のコメント

 
coyai 2024-02-07

その通りだ。

  1. GitHubやHugging Faceは、もはや open open source repository ではなく、マーケティングプラットフォームに変質して久しい。
  2. 一部のモデルは、動作可能なバイナリすら提供していない (https://github.com/AIGCDesignGroup/ReplaceAnything)
  3. オンラインデモだけを提供し、自分たちの技術に関する Marketing Demo を公開するために使われているだけなのに、何が Open source platform なのか。
  4. GitHub や Hugging Face も結局、かつての SNS のように偽物や粗悪品が氾濫するゴミのような site になりつつある。

したがって open source は、いまや Myth や Urban Legend になりつつある。実際、これらのサイトに完全に再現可能な、本当の意味での open source model はほとんど存在しないと見てよい。大半は marketing stunt だ。

 
cosine20 2024-01-29

言いたいことは分かるのですが……最近出てくるモデルは、学習に必要な計算資源や時間のせいで、一般の個人が再現するのは難しくなってしまっているので、どうなんだろうという気もします。
ただ、データセット公開については、私もかなり共感できます。

 
xguru 2024-01-22

Hacker Newsの意見

  • Linuxがコードベースなしでバイナリだけ、あるいはコンパイラなしでコードベースだけ公開すると想像してみてほしい。私たちは今まさにそのような状況に置かれている。

    • 現在の「オープンソースモデル」の問題点をよく説明する比喩だと思う。この比喩によって、オープンソースモデルの問題が明確に浮かび上がる。
  • CERNの例を挙げよう。彼らはCC0ライセンスの下でさまざまな実験データを公開している。これは単なる小さなデータセットではなく、LHCbのファーストラン全体のデータのような大規模データだ。

    • CERNはデータを単に公開して放置するのではなく、分析ガイドや必要なツール群(その多くはROOTなどのオープンソース)も提供している。これによって誰でも新しい発見をしたり、既存の実験分析を拡張したりできる。このような公開データとツールは再現性の条件を満たしているが、データそのものを直接再生成する必要はない。理論上はLHCを再建することもできるが、それには多くの人員、資金、時間が必要になる。オープンソースモデルとは対照的に、モデルを再学習して重みを得ることはできるが、データを確保して重みを再現するコストは概して莫大だ。CERNが生データ(大半はノイズ)ではなく、より精製された版を公開している点も覚えておく必要がある。大規模な生データをダウンロードするのは難しいが、大規模言語モデル(LLM)のようなものを訓練するにはデータセット全体が必要になる場合があり、そこにはしばしば著作権問題など独自の問題も伴う。
  • データセットを公開することが最大の問題だ。そうすれば人々や企業が著作権侵害だとして訴訟を起こすだろう。

    • データセットに著作権のあるコンテンツが含まれている場合、著作権者が訴訟を起こす可能性がある。モデルにZ-LibraryやGoogle Booksのデータセット全体が含まれていたとしても驚かない。
  • オープンソース・イニシアティブはこの1年、AIがオープンソースかどうかについて、さまざまな利害関係者の意見を集めるシリーズを進めてきた。

    • All Things Openで午後いっぱい行われたセッションに参加したことがある。この問題についてすでに進行中の議論を確認することを勧めたい。これはツイートに収まるような単純な話より、はるかに微妙な問題だ。
  • AIモデルに「オープンソース」という用語を適用するのは、ソフトウェアに適用するよりも複雑だ。多くの人は再現性を、オープンソースと見なすための基準だと考えている。

    • AIモデルの場合、モデル自体、データセット、そして訓練レシピ(例: プロセス、ハイパーパラメータ)がしばしばソースコードとしても公開される。これにより、十分な計算資源があればモデルを訓練して重みを得ることができる。
  • オープンコアも同じだ。自分のインフラでホスティングできないなら、本当のオープンソースソフトウェアではない。

    • 自前のインフラでホスティングできないなら、それは真のオープンソースソフトウェアとは見なされない。
  • 「プロジェクトがOSSフィードバックループの恩恵を受けない」。バグ修正のように特定の問題を解決する訓練データへのPRを送れないのだから、フィードバックループが多く見られるとは思わない。

    • 「モデルにバックドアがないことを検証しにくい」。データセットの規模と訓練過程の不透明さを考えると、訓練データにバックドアがあるかどうかを見分けられる人はほとんどいないだろう。
    • 「データとコンテンツフィルタを検証し、それが企業ポリシーと一致しているか確認しにくい」。訓練データにアクセスしなくても、モデル出力に企業ポリシーを適用することはできる。すべての企業が入力データをフィルタし、自社モデルを訓練しなければならないのかという疑問がある。
    • 「モデルを更新するときに企業へ依存することになる」。現在のコストを考えれば、ほとんどの人にとってすでにそうなっている。
    • 「コードベースからデータパイプラインまですべてが公開された真のオープンソースLLMプロジェクトは、大きな価値と創造性を解放し、セキュリティを向上させうる」。LLMについては、全体としてこれが正しいことには懐疑的だ。むしろ悪意ある行為者にとって攻撃できる表面を広げる可能性がある。
  • 「作品を修正するために好まれる形式の作品が『ソースコード』である。」

    • GPLv3からの引用
    • このAI/MLモデルで興味深いのは、重みが訓練セットから導かれる一方で、修正時には元の訓練セットへのアクセスが必要ないことだ。元の訓練セットにアクセスせずにファインチューニングする方法については、多くのチュートリアルがある。
  • 同意しない。この比喩は不適切だ。彼が列挙したことは訓練済みモデルで実行できる。データを持っていることは、実質的にはあまり重要でない問題だ。オープン/フリーソフトウェアは自由を行使することに関するものであり、モデルの重みとコードがあれば、すべての自由を行使できる。

  • すべての訓練データが公開利用可能で(互換性のあるライセンスで)、訓練ソフトウェアがビット単位で同一のモデルを再現できる、真のオープンソースLLMモデルはあるのか?

    • 訓練は非決定的なのだろうか? LLMの出力は意図的に非決定的であることは知っている。