- オープンソースAI革命はまだ起きていない
- もちろん印象的なオープンウェイトモデルは存在し、ウェイトを公開している人々には感謝するべきだが、モデルを再現できないなら真のオープンソースではない
- Linuxでコードベースなしにバイナリだけを公開したと想像してみてほしい。あるいは、バイナリの作成に使ったコンパイラなしにコードベースだけを公開すると想像してみてほしい。これがまさに今日の状況だ
- これにはさまざまな欠点がある
- プロジェクトに再び貢献することができない
- プロジェクトがOSSフィードバックループの恩恵を受けられない
- モデルにバックドア(例: 潜伏エージェント)がないか確認しにくい
- データやコンテンツフィルタが会社のポリシーと一致しているか確認できない
- モデルを更新するには会社に依存しなければならない
- コードベースからデータパイプラインまで、すべてが公開されている真のオープンソースLLMプロジェクトは、多くの価値と創造性を生み出し、セキュリティを改善できる
- ただし、ウェイトを再現することはコードをコンパイルするほど簡単ではないため、そう単純ではない。計算資源とノウハウが必要だ。
- そしてコントリビューションのレビューは、次のトレーニングを実行するまで性能にどのような影響があるか分からないため難しい
- それでも、十分な動機を持つ人やグループならこうした詳細を解明できるはずで、既存のOSSとはかなり違って見えるかもしれないが、こうした新しい挑戦こそがこの領域が面白い理由だ
3件のコメント
その通りだ。
したがって open source は、いまや Myth や Urban Legend になりつつある。実際、これらのサイトに完全に再現可能な、本当の意味での open source model はほとんど存在しないと見てよい。大半は marketing stunt だ。
言いたいことは分かるのですが……最近出てくるモデルは、学習に必要な計算資源や時間のせいで、一般の個人が再現するのは難しくなってしまっているので、どうなんだろうという気もします。
ただ、データセット公開については、私もかなり共感できます。
Hacker Newsの意見