The Pile、825GiB規模のオープンソース言語モデリングデータセット (2020)

(pile.eleuther.ai)

1 ポイント投稿者 GN⁺ 2024-03-09 | 1件のコメント | WhatsAppで共有

大規模言語モデルの訓練ではデータ出典の幅広さが重要になる中、The Pileは22個の高品質データセットを束ねた825GiB規模の公開訓練セットとして公開された
中核となる設計は、書籍、コード、Webページ、チャットログ、学術論文など複数の出典を組み合わせることで、クロスドメイン汎化を高める点にある
The Pileで訓練したモデルは既存の言語モデリングベンチマークで中程度の改善を示し、Pile BPBでは有意な改善を示した
Pile BPBは複数ドメインのテキストをまとめて扱うため、単一コーパスでの性能よりも幅広いテキストモデリング能力を確認するために使われる
リーダーボードではテストセットの重複可能性を*で表示し、Zero-shotはThe Pileのすべての構成要素が訓練データに含まれていたわけではないことを意味する

The Pileの構成と配布

The Pileは825GiB規模の多様なオープンソース言語モデリングデータセット
22個のより小規模で高品質なデータセットを1つに結合して構成されている
ダウンロードファイルは the Eye でホストされている
The Pileを使用したり、The Pileで評価するモデルがあれば EleutherAIに知らせることができる
The Pileまたはその構成要素を利用する場合は、次の論文を引用する必要がある
- The Pile: An 800GB Dataset of Diverse Text for Language Modeling
  - arXiv preprint arXiv:2101.00027, 2020

訓練セットとベンチマークとしての役割

特に大規模モデルでは、データ出典の多様性が一般的なクロスドメイン知識とダウンストリーム汎化能力を改善する
評価の結果、The Pileで訓練したモデルは従来の言語モデリングベンチマークで中程度の改善を示し、Pile BPBでは有意な改善を記録した
Pile BPB(bits per byte)は複数ドメインのテキスト理解を必要とするベンチマーク
- 対象ドメインには書籍、GitHubリポジトリ、Webページ、チャットログが含まれる
- 医学、物理学、数学、計算機科学、哲学の論文も含まれる
このベンチマークは、ドメインごとの世界知識と推論能力の両方を要求するため、大規模言語モデルのクロスドメインなテキストモデリング能力を評価するために活用される
リーダーボードの例には2021年1月1日時点の項目が含まれる
- GPT-3 (Zero-Shot)*, OpenAI: Test BPB 0.7177
- GPT-2 (Zero-Shot)*, OpenAI: Test BPB 1.2253
- *は潜在的なテストセット重複の可能性を示す
- Zero-shotはThe Pileのすべての構成要素が訓練データに含まれていたわけではないことを意味する

1件のコメント

GN⁺ 2024-03-09

Hacker Newsの意見

2020年にThe PileにBooks3が含まれていることを懸念したところ、Eleutherの責任者だったStella Bidermanはこう答えた。
データには、1) 世の中に存在しオンラインに上がっている原資料、2) その原資料を言語モデリング用に精製・加工したセット別データ、3) セット別データを重み付けまで含めて大きく結合したThe Pileがある、という説明だった。
Eleutherは2と3を作成して公開しており、2は人々が再重み付け・再組み合わせできるようにしたもので、大半の人は3をそのまま受け取るだろうと説明した。
また、2と3は著作権のあるデータが含まれていても米国基準ではフェアユースなので著作権侵害ではなく、Maroon 5をWebサイトからダウンロードして2に相当するデータセットを作ることは場合によっては侵害になり得るが、自分たちの利用は侵害ではないと考えていた。
- 「2と3はフェアユースなので著作権侵害ではない」というのは、訴訟で争ってみるまでは分からない。
  フェアユースは自分で宣言すれば成立するものではなく、『The Office』のMichael Scottのように「破産を宣言する！」と叫ぶのに似ている。
  裁判所は、1) 利用の目的と性格、2) 著作物の性質、3) 利用された量と重要性、4) 潜在的市場や価値への影響を考慮して判断し、OpenAIがNew York Timesと争っているのもまさにこのため。
  概要はhttps://copyright.columbia.edu/basics/fair-use.htmlがかなりよく整理している。
- 2番のセットに、著作権者が配布を許可していない完全な著作物、たとえば本1冊が入っているなら、どうしてその主張が正しくなり得るのか理解できない。
  「言語モデリング用の処理」が完全に不可逆なプロセスだという意味なら別だが。
- 著作権問題の正解は分からないが、2024年にはモデルに入った人間の労働について、「データは世の中に存在する」「データセットとして収集された」といった受動態よりましな態度を持ってほしい。
- 著者の許可なく著作物を配布し、著者と競合する形で使用し、多くのAIが金を稼ぎ、一部は原文をそのまま再現する。
  こうしたデータセットは著作権法の4要素テストの大半で失敗しているように見えるし、LLMを説明してくれた非専門家たちも、AI企業が他人の成果物を盗んでいると受け止めていた。
  関連する法的論点、The Pileを含む各データセット、合法的な代替案、バランスの取れた著作権改正案を整理した記事がある: http://gethisword.com/tech/exploringai/
  今は少なくともどこか一国で、すぐに次の3つのルールが必要だと考える。合法的なアクセス権がある著作物はAI学習に使えるべきで、学習制限・追加課金・ダウンロード制限は違法であるべきであり、個人利用目的の学習のためにアクセス可能な著作物をコピー・変換できるべきで、無料公開されているWeb上の著作物は条件に関係なくAI学習用にコピー・共有・処理・束ねられるべきだ。
  AI出力物の著作権は既存のAIおよび混合著作物の法理に従い、出力が著作権の対象なら、ユーザーが既存著作物に依拠して直接出版した場合と同じ地位になるべきであり、それを判断できるよう学習セットも公開されるべきだ。
- Libgenをスクレイピングし、著作権のあるコンテンツをダウンロードして再配布するのが違法ではないって？
  懐疑的だ。インターネットのどこかから入手した映画をTorrentでシードするのは「フェアユース」ではないし、The Pileはデータを変換するコードだけでなく、再配布されたデータそのものだ。
  この論理なら、Libgenのミラーを合法的に運営できるということになる。
このデータセットで配布されているコンテンツのライセンス再現とクレジット・著作者表示はどこで確認できるのか？
すべて含まれているのか？含まれる全項目が遵守状態にあると分かるのか？
著作権データを食べたモデルで作った生成器が出力物で著作権上の義務を回避できるという議論には耳を傾けるが、データセット自体は当然、その中のコンテンツの著作権に縛られるのではないか？
- このデータセットには、海賊版電子書籍専用のTorrentトラッカーであるBibliotik全体のダンプに近いBooks3が入っている。
  有名な著者や出版社の名前で壁を埋めてダーツを投げれば、当たった相手がこのデータの一部の権利を持っている可能性が高い。
  「AI研究用」とさえ言えば何をしてもよいかのようだ。.aiドメインさえあればBlu-rayリップをアップしても構わない、という感じだ。
- 自分のおもちゃを作ることの方が、他人が自分の労働の産物に対して持つ権利より重要だと思って盗んだのだ。
人々が著作権のある作品をインターネットで共有し、再投稿しているなんて信じられない。衝撃的だ。
ともあれ、RedPajama 30TとThe Pileがあれば「all you need」なのか？ ;)
- 後で特定の自然言語処理タスクを扱うための事前学習には十分だ。
  興味深い結果を得るには、ここから指示データセットを生成する必要があり、さまざまなタスクを網羅しなければならない。
  完成文そのものがLLMに知識と推論を表出させるのではなく、大規模で多様な指示データセットがそれを可能にする。
- 著作権論争があまりに多いため、許容的ライセンスのデータだけを含むThe Pile v2を作ろうとするプロジェクトが進行中だ。
The Pile の論文に出てくる Books3 って、著者たちが訴訟中のあのデータセットで合ってる？人気があって著作権のある資料が大量に入っているやつ？
- その通り。リンク先の論文によると、Books3 は Shawn Presser が公開した Bibliotik の非公開トラッカーのコンテンツのコピーから派生した書籍データセット。
  Bibliotik にはフィクションとノンフィクションが混在しており、次に大きい書籍データセットである BookCorpus2 よりほぼ一桁規模で大きく、長い文脈のモデリング研究や一貫したストーリーテリングに書籍が貴重なため含めた、とされている。
- いくつもの法的手続きを追う出発点としては、この一覧がよさそう。Silverman らの事例までどれくらい頻繁に更新されているかは分からない。
  https://originality.ai/blog/openai-chatgpt-lawsuit-list
- そうみたい。 https://www.wired.com/story/battle-over-books3/ を参照。
- 自分たちのデータは著作権のある出所から来たものではない、あるいは著作権の対象ではないと主張しているの？
Books3 に注目が集まっているけれど、このデータセットのもう一つの大きな構成要素は、名前が紛らわしい OpenWebText2 だ。
これは、多く推薦された Reddit 投稿にリンクされていた第三者のウェブサイト 15 年分をスクレイピングしたもので、私の文章も一部含まれている。
- 関連性や影響はさておき、アクセス制限のないサイトにインターネット公開で載せておいて、そのコンテンツに対する道徳的権利を主張するのは納得しにくい。
  ラジオで放送したり、何百万もの無作為な人の家の前に印刷物を配ったりするのと同じだ。
  知的財産権の所有権を確立し、データを著作権で保護する方法はあるが、Tumblr のファンフィクション、YouTube コメント、HN の議論は正式に著作権を確保する経路ではない。
  合法的にスクレイピングできるウェブサイトに投稿したものは、フェアユースの対象になり得る。
  公開ウェブサイトから集めたデータは個人的には何にでも使えるし、スクレイピングしたデータセットで優れた HN LLM を作って個人的に使うこともできる。
  最近の判例を考えると、著作権を尊重し、原文の再現を防ぐために善意の努力をしている限り、世界中の著作物をすべて学習させたモデルであっても、API として提供し商用利用できる可能性がある。
  ただし、モデル自体を販売したり配布したりすると、別の法的領域に入る。
  インターネットはもともとそのように機能するよう設計されており、アクセスを防ぎたいなら認証、ネットワーク設定、アクセス制御を実装すればいい。
  そうした仕組みなしに公開サイトへ載せたなら、広範なフェアユースに対する保護の主張をかなりの部分放棄したと見るべきで、サーバーとドメインを置いた時点で、世界中にダウンロードしに来てよいと黙示的に招待したようなものだ。
  OpenWebText2 で悪用されたと感じることも、根本的には公開ウェブサイトに載せたことで以後の利用に対する制御権を失ったことに由来しており、公正にスクレイピングされたものだ。
- ドメイン名を教えてくれれば、主要な LLM で盗用があるか確認してみる。
  おそらくどのモデルも、あなたの文章から一文も生成できないと思う。
まだどこかで入手できる？数か月前にダウンロードしようとしたらダウンロードリンクが 404 で、今もそうみたい。
- 配布はほとんど トレント・マグネットリンク と、ハードドライブの直接交換で行われている。
  既に持っている人を知らないなら、公開トラッカーを探してみればいい。
  ただし著作権コンテンツが含まれているので、配布は違法コピーに当たることは知っておくべきだ。
- ここにマグネットリンクを載せてもいいのか分からない。
  magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667&dn=EleutherAI_ThePile_v1
- The Pile は古いニュースで、もっと最近のデータセットである the-stack-v2 などを見るよう案内がある。
  https://huggingface.co/datasets/bigcode/the-stack-v2
  — https://the-eye.eu/public/AI/pile/readme.txt
- The Pile には選別されたソースが多く含まれており、最近の傾向は、選別データのソースをフィルタリング済みウェブクロールと組み合わせる方向だ。
  たとえば Common Crawl を強く処理して混ぜる方式で、他の人が言っていた dolma やコードモデル向けの the-stack-v2 がその例だ。
名前が格好いい。Manhattan Project の元々の「Pile」を思い出す。
“The Making of the Atomic Bomb”（1986）で読んだし、たぶん最近の映画にも出てきたと思う。
- 実際にはほとんど出てこない。ごく短く言及される場面があった程度だと記憶している。
  映画は最後に粗いメッセージを作るために逸話をつなぎ合わせたような感じだった。
  実際の再現というよりフィクションの物語として見れば悪くない映画だったが、本を読むほうがよさそうだ。
  特に Fermi に興味があるなら、David Schwartz の “The Last Man Who Knew Everything” をおすすめする。
The Pile はかなり前のものですが、これは更新版ですか？
- いいえ
  関連して、the-stack データセット v2 が最近公開されました。
  Software Heritage 2023-09-06 グラフデータセットを巡回し、1億420万件の GitHub リポジトリに含まれるユニークなファイル32億8,000万件を収集し、2023-09-14 までの GitHub Archive データからリポジトリレベルのメタデータも追加で集めたとのことです。
  全体の非圧縮サイズは 67.53TB で、前処理パイプラインでは厳密な重複排除に加えて近似重複排除を実装しています。
  重複排除後のサイズとトークン数で見ると、v1 は 2.9TB・200B、v2 は 32.1TB・900B です。
  近いうちにかなり強力な公開 コーディングモデル が出てきそうで、試してみようと思っているモデルは dolphincoder-starcoder2-15b-iMat.GGUF、CodeFuse-DeepSeek-33B-iMat.GGUF、OpenCodeInterpreter-DS-33B-iMat.GGUF、starcoder2-15b-instruct-iMat.GGUF です。
  データセット: https://huggingface.co/datasets/bigcode/the-stack-v2
  GGUF 量子化: https://huggingface.co/dranger003
大手 Hollywood スタジオは複数の サイバーセキュリティ企業 に多額の費用を支払い、違法コピーコンテンツを見つけてホスティング会社に著作権侵害の停止通知を送っています。
著者やアーティストたちがデータ連合のような形で集まれば、スタジオと同じことができます。
著作権法に実質的な力があるなら、そのような組織がコンテンツをホスティングしている場所に法的要請を送り、削除を求められるはずです。

The Pile、825GiB規模のオープンソース言語モデリングデータセット (2020)

The Pileの構成と配布

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

訓練セットとベンチマークとしての役割

関連記事

1件のコメント

Hacker Newsの意見