1 ポイント 投稿者 GN⁺ 4 시간 전 | 1件のコメント | WhatsAppで共有
  • ノルウェー国立図書館は、ノルウェー語を理解する主権(Sovereign)LLMの構築に向けて、2PBのHuawei OceanStor DoradoフラッシュストレージをAI学習パイプラインに投入している
  • 商用LLMプロバイダーがノルウェー語のローカルモデルを作っていない状況で、英語中心のLLMは地域言語で記録された歴史・ニュース・文化を十分に扱うのが難しい
  • 国立図書館は2005年から書籍、新聞、Webページ、音声、動画などをデジタル化し、固有データ20PBを保有、3-2-1方式で約60PBを保存している
  • ボトルネックはコンピュートよりもデータ品質・クレンジング・スループットにあり、内部のDGX H200・CPUクラスタ・Huaweiフラッシュで準備した後、Sigma2 Oliviaで学習する
  • 保存アーカイブとAIパイプラインは、耐久性・コストと低遅延・並列I/Oという要求が異なり、主権LLMには管理と保管の能力も必要になる

ノルウェー国立図書館の主権LLMプロジェクト

  • ノルウェー国立図書館(Nasjonalbiblioteket)は、ノルウェー語を理解する大規模言語モデル(LLM)を開発中で、AI学習データパイプラインに2PBのHuawei OceanStor Doradoフラッシュストレージを使用している
  • 国立図書館のITプラットフォーム責任者であるMarius Husnes氏は、Huawei ID Forum 2026 Parisで、商用LLMプロバイダーがノルウェー語の地域言語LLMを開発していないと述べた
  • 自国語で学習された主権LLMを持たない国は、世界中のデータと英語中心で学習されたLLMに依存することになり、そのようなモデルは地域言語で記録された歴史、ニュース、文化を理解しにくい
  • ノルウェー文化省は国立図書館に主権AI、すなわちLLMの構築を任せており、国立図書館はノルウェー最大のデジタル書籍、新聞、Webページのコレクションを保有している
  • 国立図書館は出版されたすべての書籍と放送コンテンツの複製を受け取る権利を持ち、納本制度は書籍を超えてノルウェーの文化遺産全体を収集・保存する役割へと拡張されている
  • ノルウェーの新聞社との合意により、著作権のあるコンテンツもLLM学習に利用でき、Husnes氏は「民間企業にはこれがない」と語った

データ保有量とデジタル化基盤

  • 国立図書館は2005年からコレクションをデジタル化し、固有データ20PBを蓄積してきた
  • このデータは3-2-1方式で保存されている
    • 3つのコピー
    • 2種類のメディア
    • 1つのオフサイト保管
  • この構成により、総保存容量は約60PBに達する
  • デジタル化の対象には、本文テキスト、音声、動画、静止画像、Webコンテンツが含まれる
  • デジタル化の過程では多くのOCRスキャンが行われ、大量のメタデータとオンラインアクセス用APIも生成された
  • データの大半は、デジタルディスクとテープアーカイブで構成される保存システムに格納されている

アーカイブからAIパイプラインへデータを移す問題

  • 主要な課題は、保存システムにあるデータをLLM学習システムへ渡すことにある
  • ボトルネックはコンピュートではなく、データ品質、クレンジング、パイプラインのスループットにある
  • 処理は、国立図書館内部のコンピューティング環境でのデータ準備と、国家スーパーコンピュータでの実際の学習実行に分かれている
  • 内部環境は次の機器で構成される
    • Nvidia DGX H200システム
    • 384コアのCPUクラスタ
    • 合計2PBのフラッシュ容量を持つ複数のHuawei OceanStor Doradoオールフラッシュアレイ
  • Huaweiのフラッシュストレージは、データパイプラインと学習準備のための低遅延ストレージとして使われている
  • パイプラインには、データ収集、クレンジング、重複排除、フォーマット正規化、検証、準備の段階が含まれる

学習実行環境: Sigma2 Olivia

  • パイプラインを通過したデータは、実際の学習実行のために、ノルウェーの国家スーパーコンピュータであるSigma2Oliviaシステムへ送られる
  • OliviaはHPE Cray Supercomputing EXシステムである
  • Oliviaの構成は次の通り
    • 448基のGPU
    • 64,512個のCPUコア
    • 5.3PBのCray ClusterStor E1000ストレージシステム
  • 国立図書館のオンプレミスAI環境がデータ準備を担い、Oliviaが学習実行を担当する

異なるストレージ要件

  • 保存アーカイブAIパイプライン用ストレージでは要件が異なる
  • 60PBの保存システムは耐久性とコストに最適化されており、高速I/Oには最適化されていない
  • 保存システムはアクセス頻度の低さを前提に設計されているため、読み取りレイテンシが高い
  • AIパイプライン用ストレージは、高スループット、低レイテンシ、並列データI/O向けに設計されている
  • PB規模のデータセットをアーカイブからAIデータパイプラインへ移して処理する方法は、チームが自ら見つける必要があった

なお解決途上の課題

  • 評価

    • 主権ノルウェー語LLMを評価するための標準的な評価ツールがない
    • ノルウェー語には2つの書き言葉があり、複数の方言や歴史的変化も存在する
    • 国立図書館チームは独自の評価ツールを構築中である
  • ガバナンス

    • 主権LLMへのアクセス権を誰が管理するのかを決める必要がある
    • 主権LLMを何に使えるのかを誰が決めるのかも課題である
    • これは制度的・政治的な問題であり、簡単な答えはない
  • オーケストレーション

    • 保存アーカイブ、オンプレミスAI環境、国家Sigma2スーパーコンピュータという3つのシステムを円滑に連携させる作業が引き続き進められている

意味と結論

  • Huaweiストレージは欧州市場で重要かつ実質的な役割を果たしている
  • 主権的な地域言語LLMの開発を目指す国にとって、Husnes氏と協議し、必要な作業を理解することは有益かもしれない
  • ノルウェーは、英語圏ではないすべての国が直面する問題に取り組む小国の例として示されている
  • 核心的な問いは、自国の言語、文化、歴史を反映するAIをどう構築するかである
  • AIには単なる構築者だけでなく、管理者と保管者も必要である

1件のコメント

 
GN⁺ 4 시간 전
Hacker Newsのコメント
  • ノルウェー人として、国立図書館をほぼ毎日テキスト検索に使っている。
    膨大なテキストを検索するためのユーザーインターフェースと機能は本当に最高水準だ。

    • 本当に素晴らしい。ただ、アクセス可能なコンテンツの制限がもう少し少なければと思う。
      かなりの部分がノルウェーIPからしかアクセスできないので、英国に住んでいるがノルウェー人である自分がVPNを維持している主な理由のひとつになっている。ほかにも図書館や研究機関のIPからしかアクセスできないものもあるが、それでも一般公開されている資料は非常に多い。
    • 統合検索エンジンがないのがとてももどかしい。なぜTV字幕の中を検索できないのかわからない。
    • Altavistaの時代からあらゆる検索エンジンにあった基本的な語幹処理と綴りの柔軟性に、自分がどれほど慣れきっていたかを思い知らされる。
  • この話がどれほど本当なのか気になる。「自国語を持つ国が、その言語で学習された主権型LLMを持っていなければ不利になる。世界中の資料で学習された英語圏のLLMは、現地語で記述されたその国の歴史、ニュース、文化を知らないからだ」。
    大手プレイヤーは、言語や品質に関係なくアクセス可能なほぼすべての資料をすでに学習していると思っていたので、この見方は汎用LLMの初期時代に形成された考えのように聞こえる。

    • LLMにノルウェー語の知識を持たせたいなら、いちばん明白な方法は良い学習データセットを作って広く公開することではないかと思う。
      独自モデルの学習に大きなコストをかける理由がわからないし、とくに最先端モデルより劣る可能性が高いならなおさらだ。
    • 外国のLLMはおそらくノルウェー国立図書館の資料では学習していないだろう。
      系譜調査のために一般的なキーワード検索でその中から資料をよく探すが、検索エンジンも言語モデルも知らないものが出てくる。
      もちろん関心のある情報はたいていAIがクロールできるどこかに載せるが、その中の興味深い資料を全部掘り起こすには本当に長い時間がかかるだろう。
    • 私の判断では、ほとんど本当ではない。ノルウェー語はあまりできないが、スウェーデン語はできるし、両言語は非常に似ているのでノルウェー語もだいたい理解できる。
      自分がスウェーデン語で話したどのモデルも完璧に処理した。ノルウェー語でもすでに同じである可能性が高いと思う。
    • 少なくとも、英語をノルウェー語に翻訳した文体ではなく、ノルウェー人らしく書くことはできるようになるかもしれない。
      https://arxiv.org/pdf/2507.22445 のような実験を適用してみるのも面白そうだ。
    • 現在の最高クラスのモデルは主要言語と文化にはかなり流暢なので、少なくとも「すべて」という限定は当てはまらない。
      性能への影響はほとんどないか、時にはむしろ良くなることもある。ただし英語的なパターンが他言語のネイティブ的なパターンに微妙ににじみ出ることはある。
      低リソース言語ではまったく別の問題だが、これを改善するには新しいモデルよりより多くのデータが必要だ。
  • 「OliviaシステムはHPE Cray Supercomputing EXシステムで、448基のGPUと64,512個のCPUコアを備えている」
    この程度の乏しいハードウェアで、オープンソースモデルの上にLoRAを載せる代わりに主権型LLMを学習しようとするのは、大きな誤りであり危険信号に見える。
    完全なLLMを学習するだけの資源があるはずもないので、それを目標だと主張するのは、このLLMを実際に有用なものにするつもりがないことを意味しているように感じる。だとすれば、誰の金をなぜ浪費しているのかと問いたくなる。

    • 外部の人間には有用でないかもしれないが、目標のひとつは組織学習である可能性がある。
      つまりLLMを作る知識を組織内に内在化することだ。
      名目上は国立図書館が主体だが、記事によればノルウェー語資料をこの目的のために合法的に所有・使用できるため選ばれたようだ。大学などの関連機関の研究者もプロセスに参加するのだろう。
    • 以前に概念実証用のファインチューニングモデルをうまく作ったことがあるので、次の段階が完全なLLM学習というわけだ。
      ただ、価値ある何かを目指しているとは思わない。そのファインチューニングモデルは非常に壊れていて、方法論を整えることに近いように見えた。ものすごく有用だとは確信していないが、研究費で誰が何をするかを自分が決めることではない。
      自分が試したあるファインチューニングモデルは、チャットで感情を表現する人間をしばしば嘲笑した。
      別のファインチューニングモデルは、自分が「hei」と書くだけで、こちらを医師だと幻覚し、赤ん坊がひどい病気にかかっていると毎回言ってきた。おそらく平凡で中立的なシステムプロンプトがその挙動を引き起こしていたのだと思う。
      Oliviaは用途に対しては十分に大きいと思う。今は最新の流れを追いつつ、ハードウェアにお金をかけすぎないほうがよいと考える。
    • 多言語・国際化言語モデルは最前線の研究所が大量の資源を集中させる分野ではなく、とくにノルウェー語はなおさらではないかと思う。
      ノルウェー語コーパスにはそれほど巨大なクラスターは必要ないかもしれないし、必要だとしても図書館にできる最善なのだろう。ノルウェー語モデルへの投資としては、間違いなく最大級の柱である可能性が高い。
      最高水準のモデルは、国立図書館が持つコンテンツの質にアクセスできていない可能性がある。記事でも新聞社とのライセンスに触れているし、図書館自身のアーカイブもある。
      英語とノルウェー語は近い語族ではないので、LoRAが最善のアプローチではないかもしれない。
      対象言語の文法・語彙が英語からどれだけ離れているかによって、LoRAベースのローカライズがどれほど機能するのかについて公開研究があるのか気になる。
      こうしたプロジェクトはたいてい目標がひとつではなく、最先端モデルを作るだけでなく、大学が衛星を打ち上げるのと同じように地域の人材を育て訓練する目的もある。
    • この程度の資源があれば、Olmo 3レシピのようなものを土台に、自前データを優先した混合データと自前タスク向けの後続学習を適用するには十分だ。
      独自の埋め込みモデルを作って図書館全体を索引化し、歴史・文化・法律・戦略に関する質問に自国の観点から答えつつ、そのデータを参照するようモデルを学習させれば、かなり興味深く有用になる可能性がある。
      Reactコードの生成でAnthropicに勝つことはないだろうが、そもそもそれを複製する必要もない。
    • 実際に最大の問題は、利用可能な学習データだ。
      すでに100億パラメータ未満の複数のモデルで、ファインチューニングとゼロからの学習の両方を試しており、最後に確認した時点ではゼロから学習したほうが言語をよりうまく捉えていた。
  • ノルウェーはその代わりに、あるいは並行して学習データセットを作成し、すべてのモデル開発者に無料で共有したほうがよいのではないかと思う
    最前線のモデルにノルウェー語とその文化を理解させることが、ここで追求している目標に対してより良い、あるいは追加的な方法に見える

    • 最前線のモデルは、すでにノルウェー語をかなりよく知っている。ノルウェー語の方言にも適応し、古ノルウェー語もかなりもっともらしく模倣する
      たとえば、私が読んだ1911年の小説『De knyttede næver』について、Claudeに1911年ごろのノルウェー語表記法で説明させたところ、うまくできていた
      不足しているのはノルウェー文学・文化・歴史への理解だ。『De knyttede næver』は出版当時、ベストセラー級のノルウェー小説の一つだったが、Claudeはそれを調べてからでないと何かを出せなかった。ChatGPTのほうがより良く、特に思考モードでは詳細な要約を返した
      今日では広く知られた作品ではないが、作者は何十年にもわたって著名な新聞記者であり、この連作は主人公の名前を芸名にしたノルウェー人歌手がいるほど知られている。作者の政治観とそれが小説に与えた影響のため、何十年にもわたりノルウェーの新聞や書籍で取り上げられてきたのだから、かなり妥当なテストであり、相当な知識の空白を示していると感じる
      国立図書館のデータセットをよりアクセスしやすくすべきだという点には同意する。ただし、ここでの大きな追加要素は、アーカイブに縛られ利用制限のある著作権資料で学習できる契約を結んだことのように見える
      それでも、所蔵資料のうち著作権が切れたデータだけでも公開すれば、すばらしい出発点になるだろう
    • なぜこのデータを全部、みんなのデータを盗んで私腹を肥やす強欲な米国企業と共有しなければならないのか分からない
      国家機関との法的合意を維持し、自国に実際に役立つ何かを開発するほうが、はるかに良い
  • Marius Husnes が「商用LLMプロバイダーは現地ノルウェー語LLMを開発しておらず、自国語で学習された主権型LLMを持たない国は不利だ」と述べた部分を見ると、彼がここで何を言っているのか本当に分かっているという確信はあまり持てない

    • 彼は正しいことを言っている。ただし、これは完全に学習コーパスだけの問題ではなく、対象言語に必要なバイアスに基づいて部分文字列をより効率的にトークン化するトークナイザーの問題でもある
      英語志向のLLMが英語でより強いのは、トークン空間が英語により簡潔に割り当てられているからだ。Anthropic API を呼び出すオンライン・トークナイザーに一般的な英単語とノルウェー語の単語を入れてみると、英語は通常1トークン以下なのに対し、ノルウェー語は2〜4トークン、時にはそれ以上になることが多い。タイ語のような言語は非常に不利だ
      コーパスの選択も、対象言語側に大きく偏ることが多い。その言語の著作物を確保するのにより多くの労力がかかるからだ
      言語間で意味的に近い埋め込み同士の相互影響のため、ベクトル空間にも文化的ベースラインや異なる意味バイアスが生じる。最後に、ファインチューニングはLLMの文化的表現に大きな影響を与える。これらの効果は些細ではない
      消えゆく言語や、異文化間モデルを活用した言語モデルを作ろうとする取り組みは数多くあるが、読み書きの基盤がしっかりした言語であれば、自国の言語と文化に特化したヘリテージLLMを作る十分な理由がある。OpenAI や Anthropic が、いざというときにターゲット顧客よりあなたの言語を優先してくれると期待するのは筋違いだ
    • ChatGPTと会話するとき、デンマーク語で話していても、それがアメリカ的であることはかなり明白だ
      母語話者、文体、態度がアメリカ的だ
      Netflix や HBO が今ではスカンディナビアのテレビ番組を作っているとしても、それに依存できないのと同じで、この分野でも自分たちのものを自分たちで作る必要がある
      時間がたてば、それを可能にする技術はより安く、より手に入りやすくなるだろう
    • ポーランドにはBielikという独自LLMがある
      ポーランド語らしい表現を保つのに優れているだけでなく、政府文書の作成もよりうまい。なぜより良いのかといえば、アリーナ評価を行い、統計的により良かったからだ
    • 彼が間違っていると示せる根拠を出せるのか気になる
      断言はしているが、根拠はないように見える。英語LLMしかないことが、なぜ不利ではないのか?
      現在のモデルでノルウェーの歴史や文化のニュアンスを得られるのか?
    • 補助金を受けるにはもっともらしく聞こえる
  • ウェールズ語も Nemotron でLLM学習を進めている
    https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...

  • 最も効率的なやり方ではないかもしれないが、非ラテン文字言語にはゼロから作る明確なユースケースが依然としてあるように見える
    sarvam.ai と現地言語のトークン化改善事例を見ればよい [1]。すべてのLLMがコーディング支援をしなければならないわけでもないし、すでにバベルフィッシュである必要もない
    言語は文化なので、彼らの動機は理解できる。自分たちでやる余裕があるのは良いことだろう
    [1] https://www.sarvam.ai/blogs/sarvam-30b-105b

    • トークン化を改善するからといって、必ずしもゼロから作る必要はない
      ロシアの T-Bank は、ベースの Qwen のトークナイザーを変更してキリル文字トークンを5倍多く入れ、ロシア語コーパスで継続学習を行うことで、生成速度を1.5〜3倍向上させることができた
  • これは巨大なストレージ配備
    LLM学習のI/O要件、特にチェックポイント保存を考えると、従来のディスクアレイではなく、この規模のNVMeフラッシュに向かうのは理にかなっている

  • 「ノルウェーは、英語圏ではないすべての国が直面する問題を解こうとしている小さな国だ。自国の言語、文化、歴史を反映するAIをどう作るのか。AIには単なる開発者だけでなく、管理者も必要だ」
    残念ながら、答えはおおむね「作れない」に近いと思う。
    こうしたことには強い政治的意志が必要だが、少なくとも私の周囲では、それを実現するのは事実上不可能に見える。
    コストも負担しにくいが、それ以上に、このようなローカルな代表性を気にする人たちは、外国企業が実装してもまったく構わないと考えるか、あるいはそもそもAI自体に反対している側だ。望むなら ChatGPT をバスク語でも使えるのだから。

    • ノルウェーの場合、コストが本当に負担不可能かどうかは議論の余地がある。
      小さいが非常に裕福な国であり、現在は政府系ファンドの投資によって、世界の上場企業の1.5%に相当する持分を保有している。
    • ノルウェーが学習用のキュレーション済みデータセットを作ることを目標に米国の研究所に働きかければ、彼らは間違いなく学習プロセスに参加できるようにしてくれるだろう。
      そして、そのようなモデルは国内で作れるものよりはるかに優れている可能性が高い。
      もちろん、この話を見て画面の向こうで身震いしている人がいるのも感じる。