- ETH ZurichとEPFLが主導し、公共インフラ上で完全に公開方式で開発された大規模言語モデル(LLM)がまもなく公開予定
- このモデルは 透明性、多言語性能、幅広いアクセス性 を重視しており、科学、政府、民間など多様な分野で活用可能
- ソースコードと重み、学習データが公開され、すべてのプロセスが再現可能になるよう設計されており、オープンな研究と規制順守を促進
- 最新のスーパーコンピュータ Alps(CSCS)で環境配慮型エネルギーを用いて学習されており、大規模・高性能・責任あるデータ利用を目指す
- このLLMは Apache 2.0ライセンス で夏の終わりに公開予定で、世界的なイノベーションと研究活性化への貢献が期待される
オープンなLLM構築に向けた国際協力と背景
- ジュネーブで開催された International Open-Source LLM Builders Summit に、グローバルなオープンソースLLMおよび信頼できるAI関連の50以上の団体 が集結
- EPFLとETH ZurichのAIセンターが主催したこのイベントは、オープン基盤モデルのエコシステム 活性化と協力における重要な契機
- オープンLLMは、米国、中国などで非公開に開発される商用システムに対する 代替案 として次第に認識されつつある
新しい公共LLMの特徴と公開計画
- EPFL、ETH Zurich、その他のスイスの大学研究者とCSCSエンジニアの協業により、完全に公開され公共主導で開発されたLLM がまもなく公開予定
- 現在は最終テスト段階で、オープンライセンス でダウンロード可能になる予定
- このモデルは 透明性、多言語性能、幅広いアクセス性 を中核的価値としている
完全な公開と透明性の原則
- モデルの ソースコードと重み の両方を公開予定
- 学習データも透明に公開され、再現可能な形で設計されており、科学、政府、教育、民間分野 での採用を支援
- このアプローチは イノベーション促進と責任性強化 を目的としている
専門家の見解
- ETH AI Centerの研究者 Imanol Schlag は、「完全公開モデル は信頼性の高い応用と、AIのリスクと機会に関する研究の発展に不可欠だ」と強調
- 透明なプロセスは 規制順守 も容易にする
多言語設計
- モデルの中核的特徴の1つは、1,000以上の言語をサポート すること
- Antoine Bosselut 教授は、「初期段階から 広範な多言語対応 に集中してきた」と説明
- 1,500以上の言語による大規模データセット(英語60%、非英語40%)、コードおよび数学データで事前学習を実施
- 世界中の多様な言語と文化のコンテンツを反映し、グローバルな活用性 が高い
拡張性と包摂性
- モデルは 80億(8B)、700億(70B)パラメータ の2つの規模で公開予定
- 15兆以上の高品質トークン(小さなテキスト単位)で学習し、高い信頼性と汎用性 を実現
責任あるデータ利用
- スイスのデータ保護法、著作権法、そしてEU AI Actが求める 透明性義務 を順守して開発中
- 最近の研究では、Webクローリング拒否(robots exclusion standard)を尊重してもLLM性能の低下はほとんどない ことが示されている
スーパーコンピュータ基盤の開発と持続可能性
- モデル学習は、ルガーノにある CSCSのAlpsスーパーコンピュータ で実施
- NVIDIA Grace Hopper Superchip 1万基 を搭載した、世界最高水準のAIインフラ
- 100%カーボンニュートラル電力により効率的な学習が可能
- Alpsの成功した実装は、NVIDIA、HPE/Crayとの15年にわたる戦略的協業 の成果
- Alpsは、大規模AIワークロード(複雑なLLMの事前学習を含む)の要件を満たす中核的役割を担う
- Thomas Schulthess 教授は、「公共研究機関と産業界の 共同の取り組み が、主権的なAIインフラとオープンイノベーション、そして世界の科学と社会への貢献につながることを示している」と強調
公開アクセス性とグローバル活用
- 夏の終わりに、Apache 2.0ライセンス でLLMを公開予定
- モデル構造、学習方法、利用ガイドラインなどの 文書化 もあわせて提供され、透明な再利用と追加開発を支援
- Antoine Bosselut 教授は、公共研究者が「オープンモデルの発展 を主導し、さまざまな組織がこれを基に独自の応用を開発してほしい」と述べた
- Martin Jaggi 教授は、「完全なオープン性は、スイス、欧州、そして国際協力を通じたイノベーションを促進し、優れた人材を引きつけるうえで重要な要因だ」と述べた
1件のコメント
Hacker Newsのコメント
成果に期待している。私の知る限り、ETHとEPFLは最新のLLaMAモデルではなく旧バージョンを学習またはファインチューニングしているため、SOTA性能と比べるとやや見劣りするかもしれない。だが最も重要なのは、ETHとEPFLが大規模学習の経験を積むことだと思う。聞いたところでは、新たに構築されたAIクラスターはまだ初期段階で多くの試行錯誤を経験している。この規模で自前のインフラを使ってモデルを学習することがどれほど難しいか、人々はしばしば過小評価している<br>参考までに、私はスイス生まれでETHで学んだ。頭脳は十分だが、大規模学習の経験はまだ不足している。また個人的には、LLMの多くの「魔法」は実はインフラから来ていると思っている
実際には、多くの魔法はデータセット、特にSFTやその他のファインチューニング/RLHFデータから来ていると思う。それこそが実際に人々に使われるモデルとそうでないモデルを分ける要因だった。経験を積むという意見には完全に同意するし、インフラ構築が主権的なLLMサプライチェーンの中核だとも思う。だが、モデルを実用的なものにするには、データにも初期段階から十分な注力が必要だろう
SOTA LLMを学習するには、インフラもかなり複雑になる。多くの人はアーキテクチャとデータセットを用意してRayのようなものを使えば終わりだと思っているが、実際にはデータセット設計、評価パイプラインの構築、学習方式、ハードウェア効率の最大化、ノード間レイテンシ、エラー復旧など、非常に多くの要素が必要になる。それでも、この分野により多くのプレイヤーが現れるのは良いことだと思う
「from scratch」という表現を見て、ファインチューニングではなく事前学習をやるのだと推測した。もし別の見方があれば聞きたい。それと、一般的なLlamaアーキテクチャで進めるのかも気になる。ベンチマーク結果が知りたい
<i>ウェブクローリングのopt-out(収集拒否)を尊重しても性能低下がほとんどない</i>という一文はとても嬉しい
今回がデータセット透明性に関して新しい基準を打ち立てる事例なのか気になる。実現すれば重要な前進だと思う。もっとも、マシン名をAIps(AI Petaflops Supercomputer)にしていたらもっと面白かっただろうけど
Allen Institute for Artificial Intelligenceが作ったOLMoモデルも完全に公開されている<br><i>OLMo is fully open</i><br>AI2は真のオープン性とはデータ、モデル、コードまですべて公開することだと考えている<br>OLMoの詳細
Smollmも、私の知る限り完全に公開されたモデルだ
オープンな学習データこそ決定的な差別化要因だ。この規模の本当にオープンなデータセットは初めてなのか気になる。以前のThe Pileのような試みも価値はあったが限界があった。学習の再現性をどう保証するのかにも期待している
「モデルは完全に公開される。ソースコードと重みは公開され、学習データは透明で再現可能だ」という文言からすると、学習データ全体を公開するというより「再現可能」に重きを置いているのだと思う。おそらく、実際のトレーニングで使われたページURLの一覧のような参考資料は公開されても、そのコンテンツ自体は公開されないのではないか
その通り。依然として従来型の著作権問題が絡むので、パッケージ化されたデータセットとしてそのまま提供されることはないだろう
こういうものこそが「AIの民主化」の意味だ
プレスリリースではどう作ったかについては非常に多く語られているが、実際に他のオープンモデルと比べてどのような能力を持つのかについての情報はほとんどない
大学の場合、「どう作ったか」を教えることが中核なので、この点に焦点を当てるのは自然だ
<i>モデルは8B(80億)と70B(700億)の2つのバージョンで公開予定で、70B版は世界で最も強力なオープンモデルの1つになる見込みだ。今年の夏の終わりにApache 2.0ライセンスで公開予定だ</i>とのことなので、実際には9月に確認できそうだ
スイス人として、HNのトップにこの話題が上がっているのを見て誇らしく感じる。この2大学は世界的レベルの起業家、研究者、エンジニアを数多く輩出してきたのに、いつもアメリカの陰に隠れていた。だが、優れた公共インフラ、教育、政治的安定性(+中立性)のおかげで、オープンLLM分野で特別な機会をつかめると思う
記事では<br>「オープンLLMはますます信頼できる代替手段として評価されており、ほとんどの商用システムは米国または中国で非公開に開発されている」と述べている<br>現在、大規模LLMを作る企業には、サブスクリプション誘導や商品広告などで収益化したいがために、むしろ品質を下げるインセンティブがある。中にはすでに政治的バイアスまで持っているものもある。欧州で学界と政府の協業により公益目的の検索・AIサービスを提供し、ユーザー中心へ進むのであれば非常に意義深いだろう
実戦投入でのテストも早く試してみたい
なぜまだリリース前なのにこのような形で発表するのか疑問だ。率直に話す必要があると思う
今回の発表は、今週スイスで開かれたInternational Open-Source LLM Builders Summitで行われたものだ。日程や計画を共有すること自体、それほど不自然なことではないと思う
資金調達目的かもしれない。それに、欧州のユーザーに対して、欧州で公共開発されたLLM(少なくとも米国製でも中国製でもないもの)の使用を強く印象づける意味もある。(もしかすると、あまりに筋が通りすぎていてブリュッセルでは承認されないかもしれないが)
スイスでは、何かをするときに非常にのんびり進めるのがクリシェだ