arXivの舞台裏――科学を一変させた最も革新的なプラットフォーム
(wired.com)- arXivは1991年にPaul Ginspargが作ったオープンアクセスの科学論文リポジトリで、現在も世界中の科学者に最も重要なプラットフォームの一つとして使われている
- 既存の遅く高価な学術出版の仕組みを迂回し、研究者が査読前の論文(preprint)を即座に共有できるようにすることで、科学の協業とイノベーションに貢献してきた
- arXivは単純な自動化スクリプトから出発したが、現在では月間2万件以上の論文投稿と500万人の利用者を抱える巨大プラットフォームへと成長した
- 初期には非公式かつ軽やかに運営されていたが、その後運用コードの複雑化、内部対立、技術の老朽化などの問題に直面し、何度も危機を乗り越えてきた
- 現在はSimons Foundationの支援と新たなリーダーシップの下でクラウド移行とPythonコードのリファクタリングが進行中で、Ginspargはいまなお品質フィルタリングの問題に取り組んでいる
arXivの起源と科学出版構造への挑戦
- 物理学者のPaul Ginspargは、The Godfather のせりふを引用しながら、自分が作ったプラットフォームから完全には手を引けない心境を表した
“Just when I thought I was out, they pull me back in!”
「やっと抜け出せたと思ったら、また引き戻されるんだ!」 - 彼はCornell Universityの教授であり、MacArthur Genius Grant受賞者でもあり、35年前に**査読前(preprint)**の論文を共有できるデジタルリポジトリ arXiv を開発した
- 現在のarXiv.orgも古典的なWeb 1.0風のデザインとCornellの象徴を残しているが、その素朴な外観とは裏腹に、arXivは科学知識の流通構造に根本的な変化をもたらしたプラットフォームである
- arXivが止まれば、世界中の科学者に深刻な業務上の支障が生じかねず、実際に多くの数学者や物理学者がarXivに毎日アクセスしている
“Everybody in math and physics uses it. I scan it every night.” — Scott Aaronson
「数学と物理の世界では誰もが使っています。私は毎晩ざっと目を通しています。」
arXivの役割と学術出版構造への問題提起
-
社会のさまざまな分野には慢性的な構造問題が存在するが、学術界では出版システムの不合理さが代表的な問題として指摘されている
-
大手出版社のElsevier、Springerなどの営利モデルは、次のような点で批判されている:
- 著者に無償で論文執筆を求める
- 他の研究者が無償で編集作業を担う構造
- 完成した論文は高額で販売され、機関は高い購読料を負担する
“Calling their practice a form of thuggery isn’t so much an insult as an economic observation.”
「彼らのやり方を一種の暴力行為と呼ぶのは、侮辱というより経済的な観察なんです。」 -
伝統的な査読(peer review)には数か月から1年かかることもあり、この遅いプロセスが情報流通のボトルネックになっている
-
一方、arXivは論文の査読前段階(preprint)で誰でも即時に公開・アクセス可能にすることで、出版の構造的な問題を解決している
-
arXivの中核的なイノベーションは、次のように要約できる
“Showing that you could divorce the actual transmission of your results from the process of refereeing.” — Paul Fendley
「研究成果の実際の伝達を、査読のプロセスから切り離せることを示したのです。」 -
こうした構造は、COVID-19パンデミックのような危機的状況で意味のある科学的発見を迅速に広めるうえで決定的な貢献を果たした
- arXivに触発されたbioRxiv、medRxivなどが生命科学分野へと広がり、数百万人の命を救った可能性も指摘されている
arXivの品質管理構造
- arXivに投稿される論文は公式なpeer reviewを経ないが、分野ごとの専門家による自発的な確認を通じて、基本的な学術基準と規定を維持している
- 主な品質管理要素:
- オリジナル研究のみ許可
- 改ざんデータの禁止
- 中立的な表現の使用
- また、投稿論文には自動化システムによる基礎チェックも行われる
- こうした検証手続きがなければ、arXivは疑似科学や非専門家の投稿物であふれる危険がある
arXivの影響力とGinspargの現在
- 2021年、学術誌NatureはarXivを「10 computer codes that transformed science」の一つに選んだ
“10 computer codes that transformed science”
「科学を変えた10のコンピューターコード」 - arXivの科学的協業を促進する役割は高く評価されており、現在は
- 260万本以上の論文を収蔵
- 毎月2万件の新規投稿
- 月間ユーザー数500万人を記録
- 21世紀の主要な科学的発見の多くがarXivを通じて最初に公開されており、その例として
- 現代のAIブームを引き起こした「transformers」論文
- ミレニアム懸賞問題の一つであるポアンカレ予想の解法 などがある
- arXivに掲載された論文がその後に権威あるジャーナルへ掲載されることも多いが、arXivで公開された瞬間から誰でもアクセスできるという点が最大の強みとなっている
“Just because a paper is posted on arXiv doesn’t mean it won’t appear in a prestigious journal someday.”
「論文がarXivに載ったからといって、後に権威あるジャーナルに掲載されないという意味ではありません。」
arXivの内実と持続可能性の問題
- 科学者たちにとってarXivは公共図書館やGPSのように不可欠な存在と見なされているが、実際のarXiv運営は摩擦のない理想的なプラットフォームとはほど遠い
- arXivはこれまで次のような問題に直面してきた:
- 官僚的な対立
- 老朽化したコード
- スパイ事件まで発生
- Ginspargはこの現実を次のように表現している
“A child I sent off to college but who keeps coming back to camp out in my living room, behaving badly.”
「大学に送り出した子どもが、何度も家に戻ってきては居間に居座り、問題ばかり起こしているようなものです。」 - インタビュー依頼をFAQへ回したり、直接訪問を思いとどまらせたりするなど、Ginspargは今もなおarXivとの距離を取ろうとする試みを続けている
Ginspargの性格、好み、日常
- Ithaca(Cornellの所在地)でのインタビューから見えてきたGinspargは
- 陽気でいたずら好きな性格
- 同時に制限なく自分の哲学を貫こうとする頑固さも持っている
- 彼の元上司だったGeoffrey Westの表現を借りれば
“Quite a character, infamous in the community, extremely funny, a great guy.”
「実に個性的で、コミュニティでは有名人で、とてもユーモラスな、素晴らしい人物です。」 - Ginsparg自身はarXiv関連の記事をやや突き放してこう語る
“So many articles, so few insights.”
「記事はたくさんあるのに、洞察はほとんどない。」 - 現在69歳の彼はサイクリングや登山を楽しむ活動的な生活を続けており、服装はいつも気楽な旅人スタイルである
Ginspargのオフィスと最近の関心事
- Cornell大学物理学科のオフィスは「散らかっている」というより、古い物たちが止まった時間の中に置かれているような雰囲気を持っている
- 90年代の宅配箱、古い雑誌、CRTモニター、ホワイトハウスの招待状などがある
- Stephen Wolframが送った本には、ユーモラスなメモが添えられている
“Since you can’t find it on arXiv :)”
「arXivでは見つけられないだろうから :)」
- 唯一活発に使われているのは、量子測定理論に関する数式で埋め尽くされた黒板だ
- オフィスの外でも、彼は建物の構造、スタッフの動線、毎年飛んでくる鳥の種類に至るまで、細かなことを見逃さない観察力を見せる
- AI論文の急増とともに深刻化した低品質論文の問題を懸念しており、これをふるいにかける**「holy grail crackpot filter」**を開発中だ
“The holy grail crackpot filter.”
「究極のトンデモ論文フィルター」 - arXivの品質管理のため、今も自らハードドライブを復旧しながら言語モデルを実験している
- こうした行動は、arXivの品質維持に対する責任を自ら負っている姿勢として解釈できる
arXivの誕生と初期の歴史
- arXivはもともと科学インフラではなく、GinspargのNeXTマシン上で動いていた単純なシェルスクリプトの集まりであり、1991年6月、コロラドでの学会での出来事をきっかけに生まれた
- 当時プリンストン高等研究所のポスドクで、物理学プレプリントのメーリングリストを運営していたJoanne Cohnが、物理学論文を共有する中央システムがないという問題を指摘した
- 所属や人脈によってメーリングリストへのアクセス可否が分かれ、論文公開まで数か月かかる非効率さがあった
- ある物理学者が、出張中にメールで届く論文が多すぎて保存容量がいっぱいになると冗談を言ったことで、Ginspargは自動化された論文配布システムの必要性を認識した
- Cohnに「自動化を考えたことはないのか」と尋ねると、返ってきた答えは
“Go ahead and do it yourself.”
「それなら自分でやってみれば。」
- Cohnに「自動化を考えたことはないのか」と尋ねると、返ってきた答えは
- 翌日、Ginspargは実際にスクリプトを書き上げ、
“My recollection is that the next day he’d come up with the scripts and seemed pretty happy about having done it so quickly.”
「私の記憶では、彼はまさに翌日にスクリプトを作ってきて、それをあれほど早く仕上げたことをとても楽しんでいるようでした。」 — Joanne Cohn
Ginspargの時代的な立ち位置とarXivの技術的進化
- Ginspargはしばしばインターネット時代のフォレスト・ガンプになぞらえられ、
- Harvard在学中にはBill Gates、Steve Ballmerと同級生であり
- 兄はStanfordでAIの先駆者 Terry Winogradと学び
- 2人ともArpanetのメールアカウントを保有していたが、これは当時としては非常に珍しかった
- Cornellで理論物理学の博士号を取得した後、Harvardで教職に就いたが、終身在職権を得られずLos Alamosへ移った
- そこには高エネルギー理論物理学の研究だけに専念できる環境と、スポーツ中心のライフスタイルに適した地域条件があった
Web以前のarXivシステムとWebベースへの進化
- arXivは初期にはWebサイトではなくメール自動応答サーバーで、数か月後にはFTPサーバーも併用されていた
- その後Ginspargは「World Wide Web」という新しい技術の存在を知ったが、当初は
“I can’t really pay attention to every single fad.”
「流行りもの一つ一つにいちいち気を配ってはいられませんよ。」
と懐疑的な反応を示したものの、1993年にMosaicブラウザが登場したのを機に興味を持ち、自らWebインターフェースを構築した
- その後Ginspargは「World Wide Web」という新しい技術の存在を知ったが、当初は
- 彼はCERNのTim Berners-Leeとも交流があり、彼のことを「メカジキを上手に焼くプログラマー」として覚えている
“Tim grilled excellent swordfish at his home in the French countryside.”
「Timはフランスの田舎にある自宅で、見事なメカジキを焼いてくれました。」
名前の由来とコードベースの整備
- 1994年、National Science Foundationの資金提供を受け、初期のシェルスクリプトをより安定したPerlコードへリファクタリングするために2人の開発者を採用した
- Mark Doyle: のちにAmerican Physical SocietyのCIOとなる
- Rob Hartill: IMDbプロジェクトと並行して関わっており、その後Apache Software Foundationでも活動した
- arXivの初期アドレスは
xxx.lanl.govだったが、「xxx」に現在のような意味はなく、その後、妻とともに「もっと良い名前」を考え、ギリシャ文字 chi(χ) を用いて『arXiv』に決めた“She wrote it down and crossed out the e to make it more symmetric around the X.”
「妻が書いてみて、Xを中心により対称的に見えるようeを消したんです。」 - 当初は独立した組織もなく、開発者1〜2人で、管理者の多くも知人や同僚が務めており、年間100本ほどの論文を想定していたが、開始当初から月100本のペースで急成長した
コミュニティの急速な拡大とarXivの定着
- Ginspargによれば、
“Day one, something happened, day two something happened, day three, Ed Witten posted a paper. That was when the entire community joined.”
「初日に何かが起き、2日目にも何かが起きて、3日目にEd Wittenが論文を投稿した。あの時、コミュニティ全体が参加したんです。」 - Edward Wittenは現代最高の理論物理学者であり、「存命中で最も賢い人物」とも呼ばれ、彼自身も次のように語っている
“The arXiv enabled much more rapid worldwide communication among physicists.”
「arXivは、世界中の物理学者のあいだのコミュニケーションをはるかに迅速にしました。」 - その後、数学、コンピューターサイエンスなどさまざまな分野へ拡大し、Ginsparg本人も
“It was fun.”
「楽しかったですよ。」
と、arXiv初期開発の経験を振り返っている
arXivの拡大と対立の始まり
- arXivの利用が急増するにつれ、大規模ソフトウェアシステムに付きもののスケーラビリティと運用の問題に直面し、特にサーバーの速度低下とモデレーション負担が大きな課題として浮上した
- たとえば、
stanford.eduからのトラフィック急増によってサーバーが過負荷になった事件があり、これは後にGoogleを創設するSergey BrinとLarry PageがarXivをWebクローリングしていた時期のことだった“Years later, when Ginsparg visited Google HQ, both Brin and Page personally apologized to him for the incident.”
「数年後、GinspargがGoogle本社を訪れた際、BrinとPageはその件について直接彼に謝罪した。」
- たとえば、
arXivの生存戦略と出版業界からの独立性の確保
- arXivが生き残れた最大の理由は、従来の学術出版における既得権構造からの攻撃を回避したことにあり、それは初期から投稿者に、arXivが当該論文を非独占的に永続配布できるという条項への同意を求めた戦略のおかげだった
- この条項により、論文が他のジャーナルに掲載されてもarXivに残し続けられるようになり、大手出版社が閉鎖を試みるインセンティブを取り除いた
Los Alamosからの離脱とCornellへの復帰
- arXivが科学界でますます重要なインフラとして定着していったにもかかわらず、Los Alamos研究所の内部ではarXivプロジェクトはあまり強く支持されておらず、むしろ研究所よりも影響力が大きくなったことが負担として作用していた
- Ginspargは当時を
“dreamlike and heavenly” 「夢のようで天上的な時期」
- と表現していたが、1999年のWen Ho Leeスパイ事件以後、研究所内の雰囲気が急変し、セキュリティ強化措置と心理的疲労の蓄積によって転職を決意することになった
- 当時の業績評価では “a strictly average performer with no particular computer skills”
→ 「平均的な成果しか出しておらず、特筆すべきコンピュータ技能もない」という酷評を受け、生まれたばかりの娘や教育環境の問題も転職理由の一つだった
- 当時の業績評価では “a strictly average performer with no particular computer skills”
- Ginspargは当時を
- 結局Ginspargは母校のCornellへ復帰し、arXivも一緒に移転することになり、彼は「遅くとも5年以内にarXivから手を引く」と宣言した
“They disseminate material to academics, so that seemed like a natural fit.”
「図書館は学術資料を研究者に配布するのだから、自然な選択に思えた。」
図書館内での運営上の衝突
- しかしCornellの図書館はarXivの技術的な複雑さを十分に理解しておらず、投稿ロジック一つを取っても数多くの例外処理が必要な構造だったため、単純な資料保存システムとして扱ったことが問題だった
- Ginspargと初期メンバーたちは、図書館側がarXivを一種の後付けのおまけのように見ていたと感じており、一方で図書館側はGinspargが過度に直接介入しているという印象を持っていた
“Good lower-level manager … but his sense of management didn’t scale.”
「優れた実務型の管理者ではあるが、その管理感覚は大規模運営には適していなかった。」 - 2000年代の大半を通じて、arXivは安定した開発人員を確保できないまま運営されていた
Ginspargの哲学と運営方式への批判
- Ginspargはなおも自らコードレビューを行い、バグを見つける実務中心の開発者気質を保っており、外部講演や高位の顧問的役割には冷笑的な態度を見せた
“Larry Summers spending one day a week consulting for some hedge fund—it’s just unseemly.”
「Larry Summersが週に1日ヘッジファンドの顧問をしているなんて、見苦しい。」 - しかし長く関わり続けること自体も問題となり、arXivは次第に規模を拡大し、
“bigger than all of us” — Stephanie Orphan (arXivプログラムディレクター)
「私たち全員よりも大きな存在」
という認識が共有され始めた - インテリジェント・デザイン論者の物理学者による訴訟、盗用論争、モデレーター権限の乱用批判など、さまざまな論争が持ち上がり、
- 特に2009年には独立系物理学者のPhilip GibbsがarXivの対抗プラットフォームviXraを立ち上げた
- これは「arXivとは逆方向に動く、ほぼ無規制のプラットフォーム」で、奇妙な理論やアマチュア論文が主に投稿されている
- 代表例としては「πは偽りだ」という論文(リンク)がある
- 特に2009年には独立系物理学者のPhilip GibbsがarXivの対抗プラットフォームviXraを立ち上げた
コードベース管理の問題と開発慣行の衝突
- arXivは次第に大規模なコードベースへと成長し、初期の構造は保守性やテストを考慮しない形で組まれていたため、
- 「安全点検のない建築工事」に似た構造的問題が発生
- これは初期の迅速な開発を可能にした一方で、長期的な技術的負債と複雑性の増大を招いた
- Ginspargは今なお図書館側の承認なしに直接コードの確認や修正に介入しており、その結果、
“micromanaging and sowing distrust”
「過度な細部管理と不信の助長」
という批判を受けるようになった
引退の試みと残留、そして内部対立の激化
- 2011年、arXivの20周年を迎えたGinspargは引退を決意し、Natureに「ArXiv at 20」という題の別れのあいさつを掲載した
“For me, the repository was supposed to be a three-hour tour, not a life sentence.”
「私にとってこのリポジトリは3時間のツアーのはずで、終身刑ではなかった。」
“ArXiv was originally conceived to be fully automated, so as not to scuttle my research career.”
「arXivはもともと、私の研究者人生を損なわないよう完全自動化を前提に構想された。」
“But daily administrative activities associated with running it can consume hours of every weekday, year-round without holiday.”
「だが、その運営に伴う日々の管理業務は、平日ごとに何時間もを消費し、それが年中無休で続いた。」 - その後日常的な運営はCornell図書館に移管され、Ginspargは顧問委員として退く予定だったが、現実はそうは進まなかった
- 一部の職員は、Ginspargが**コードを「人質のように握っている」**としてGitHubや内部共有を拒んでいると批判し、
- 彼はかつて1日で実装できていた機能が今では数週間もかかることへの苛立ちを示した
“I learned Fortran in the 1960s, and real programmers didn’t document.”
「私は1960年代にFortranを学んだし、本物のプログラマーは文書化などしなかった。」
(→ 聞き手に心臓発作級の衝撃を与えた返答として描写される)
経営の混乱と構造改革
- arXivは技術的問題に加えて管理上の混乱にも見舞われ、
- 2019年にはCornell内でarXivの所属部門がコンピューティング・情報科学部へ移管されたが、数か月後に再び変更された
- その後は商業学術出版の経験を持つ人物が運営責任者に就任したものの、1年半で退任した
“There was disruption … it was not a good period.”
「混乱があった……良い時期ではなかった。」 — arXiv内部関係者
- 転機となったのは2022年で、Simons財団の支援によって開発人員を大幅に確保し、
- CornellのRamin Zabih教授が運営責任者に任命され、
- クラウド移行とPythonベースのコードリファクタリングが本格化した
個人的な一面と省察
- Ginspargは記者とのインタビュー中にも、息子の自転車を整備してやったり、自転車旅行中に相手の体力をからかったりするなど、茶目っ気のある態度を保っていた
- 最後の坂道では彼は
“I might’ve oversold this to you.”
「このコース、ちょっと大げさに勧めすぎたかもしれないね。」
と疲れを認めた
- 最後の坂道では彼は
- 数日間にわたる取材を通じて、記者は彼の粘り強さと頑固さこそがarXivの生存理由だと述べたが、それに対してGinspargは意外な反応を見せた
“One person’s tenacity is another person’s terrorism.”
「ある人にとっての粘り強さは、別の人にとってはテロリズムかもしれない。」 - そして続けて、
“I’ve heard that the staff occasionally felt terrorized.”
「職員たちが時おり恐怖を感じていたと聞いている。」
と認めた
arXivの現在と未来
- 現在も arXiv はなお 波乱含みの運営を続けており、
- 2023年には 常温超伝導体の発見を主張した論文がすぐに反証され、これは arXiv の迅速なフィードバック機構を示す事例となった
- 一方で、通常の論文が「扇動的な表現」や「非専門的な言葉遣い」を理由に撤回される事例もあり、「検閲」をめぐる論争もある
- 代表的な事例: h-index の考案者 Jorge Hirsch の論文撤回騒動
- 一方で、通常の論文が「扇動的な表現」や「非専門的な言葉遣い」を理由に撤回される事例もあり、「検閲」をめぐる論争もある
Ginsparg の現在の姿勢と愛着
- 彼は 自らを「オープンサイエンスの先駆者」として飾り立てることに距離を置き、大仰なミッションよりも アイデアを試す場として arXiv を楽しんでいる
“There are various aspects of this that remain incredibly entertaining.”
「このプロジェクトには、今なお非常に面白い側面がいくつもある」
“I have the perfect platform for testing ideas and playing with them.”
「アイデアを試し、いじって遊べる完璧なプラットフォームがある」 - arXiv の運営コードにはもう手を入れていないものの、今も 「偽論文フィルター」を開発する個人プロジェクトに没頭している
“It’s like that Al Pacino quote: They keep bringing me back.”
「あの Al Pacino のせりふみたいなものだよ。何度でもまた引き戻されるんだ」
“But Al Pacino also developed a real taste for killing people.”
「でも Al Pacino は、そのうち人を殺すことに本気で味をしめたんだ」
(→ arXiv に対する愛憎と、自身の執着をユーモアで表現したもの)
1件のコメント
Hacker Newsの意見