Word2Vec、ICLR2013で4回の「強い却下」判定を受ける

(openreview.net)

1 ポイント投稿者 GN⁺ 2023-12-19 | 1件のコメント | WhatsAppで共有

効率的な単語表現のベクトル空間推定

研究者らは、非常に大規模なデータセットから単語の連続ベクトル表現を計算するための2つの新しいモデルアーキテクチャを提案した。
これらの表現の品質は単語類似性タスクで測定され、従来最良の性能を示していたさまざまな種類のニューラルネットワークベース技術と比較された。
研究チームは、はるかに低い計算コストで精度が大きく向上することを観察した。つまり、16億語のデータセットにおいて、100万語彙に対する高品質な300次元ベクトルを1つのCPUで1日以内に導出できる。
また、これらのベクトルが単語類似性のさまざまな種類を測定するためのテストセットで最先端の性能を提供することを示した。
研究コミュニティで利用できるよう、このテストセットを公開する予定である。

意見

レビュアーたちは、提案されたモデルが既存モデルとどのように異なり、なぜより優れているのかについて、明確な動機付けが不足していると指摘した。
モデルの説明は最小限であり、先行研究とどのように異なるのかを判断しにくい。
レビュアーたちは、論文がさまざまなデータセットや異なる次元で学習されたモデル間の一貫性のない比較を含んでおり、論文の主張を説得力あるものにするには一貫した比較が必要だと強調した。

GN⁺の意見

この研究は、単語ベクトルを効率的に推定する新しい手法を提案しており、自然言語処理分野における重要な進展である。
提案されたモデルは、既存の複雑なニューラルネットワークモデルよりもはるかに高速に学習でき、大規模な言語データを扱う研究に有用となる可能性がある。
論文は、単語ベクトルの品質を評価する新しい方法を提示しており、今後の研究で単語類似性を測定する標準として定着する可能性がある。

1件のコメント

GN⁺ 2023-12-19

Hacker Newsのコメント

Tomas Mikolov（word2vecの著者）の最近のFacebook投稿に、より詳しい内容がある: https://www.facebook.com/share/p/kXYaYaRvRCr5K2Ze
興味深くも後味の悪い点は、専門家も間違えるということ。単語アナロジーについて「自分も知っていたが、発表し忘れた」というGeoff Hinton的な反応から、論文を読んだり自分で試したりもせずに「完全な小手先のトリックで、動くはずがない」と言った人たちまでいたという。Ian GoodfellowもTwitterで怒っていた、という形で言及されている
- Tomasは、**エンコーダー・デコーダー（seq-to-seq）**のアイデアは自分が思いつき、自分がFacebookへ移った後にIlyaとQuocが引き継いだと述べている
  しかしQuocは事実ではないと言っている: https://twitter.com/quocleix/status/1736523075943125029
  Quoc側は、Tomasがそのアイデアを提案したのではなく、むしろエンドツーエンド翻訳のアイデアを共有したときに非常に懐疑的で、その懐疑にもかかわらず動くようにするために努力した、と記憶している。誰かが嘘をついているというより、片方が記憶違いをしているように思えるが、後味はよくない
- 公平に見ると、当時の論文と周辺技術はかなり微妙だったという記憶もある。広く使われた実装は論文の内容と実際には異なる動作をしており、技術も単語レベルの比較以上にはあまりよくなかった
  特定の単語にtf-idfの重みを付けると多少効果はあったが、tf-idf重み付きの単語集合も同じくらい強力だった。複数の単語ベクトルの和にコサイン類似度を使う方式は、今見ると本当に愚かに聞こえる
- Goodfellowがどのように怒っていたのかを別スレッドで尋ねたが、見つかったのはこれだけだった: https://twitter.com/goodfellow_ian/status/113352818965167718...
  これが正しいなら、正直Mikolovはかなり不安定に見えるという印象を受ける
- その投稿は正直、いろいろな人を刺すような表現が多すぎて、長広舌のように聞こえる。もっとずっと品よく書くこともできたはずだ
  ただし、ほとんどの研究者も人間なので、共有知の発展を最優先するというより、自尊心とお金の影響を大きく受ける、という点は信じられる。ゴホン OpenAI ゴホン
- その投稿は「忘れられた」FacebookよりTwitterのほうが合っていたかもしれない。言及または示唆された個人や組織がその投稿を見て、自分たちの見解を共有する機会があったはずだから
  そうでなければ、ただの愚痴投稿のように聞こえる
査読者たちはかなりよくやったと思う。査読内容もかなり合理的だ。査読は論文が将来どれほど影響力を持つかではなく、論文の品質を見るプロセスであるべきだ
影響力のある論文がすべて実際によい論文というわけでもない
- 同意する。自分が書いた最も影響力のある論文も、最初に投稿したときは強いリジェクトを受けたし、振り返ると正当だったと思う
  動機づけが不足しており、貢献が明確に示されておらず、説明の仕方も非常に混乱していた。アイデアの核心はほとんど変わらなかったが、最終的に出版された論文はずっとよくなったし、それは最初の査読が厳しかったからだ。査読自体が特に洞察に富んでいたわけではなく、「混乱している、何をしているのか、なぜしているのかわからない」という程度だったが、ときにはそうした外部の視点が本当に必要になる
  自分も、優れたアイデアの種は見えるが、書かれた論文そのものはよくない論文を査読し、リジェクトしたことがある。そうした論文が後にずっと改善された形で出版されるのを見るのは、いつも嬉しい
- 論文が実際にしばしばそのように評価されることには同意するが、そうあるべきだという点には強く反対する。これは査読者が、鍵をなくした場所ではなく街灯の下で探している問題と同じだ
  「この論文はチェックボックスを満たしているか」ではなく、「この論文は分野を前進させるので、もっと露出されるべきか」を見るべきだ。前者が後者によりよくつながらないのは、システムの失敗だ
  きちんとした髪型で、正しい合言葉のようなことを言う応募者を採用し、実際に収益に影響を与える人を見逃す採用観に似ている
  非常に厳密だが何も生み出さない「よい」論文は、本当によい論文なのか？科学の進歩を、厳密な論文は成功確率の高いサイコロ、厳密でない論文は低い確率のサイコロだと見るなら、厳密な論文だけを探せばよい。そうすると、厳密性の低いword2vecが進展を生んだのは「本当に運がよかった」のであり、高く評価される必要はなかったという結論になる
  しかしword2vecは非常に革新的でもあり、その点は査読でプラス要素になるべきだ。むしろ革新的な論文は、その分野で厳密性の定義がまだ確立していないため、非常に厳密であることが難しいのだと思う。極端な境界では、厳密性と革新性は負の相関を持つと主張したい
- 「八股文は、かつて科挙の受験者が官職に必要な資質を示すために必要だった……構造と文体の面で、八股文は制限的で硬直していた。文の数、語数、形式と構造、韻律技法に至るまで、さまざまな規則があった。」
  https://en.wikipedia.org/wiki/Eight-legged_essay#Viewpoints
- それなら、なぜピアレビューシステムにそれほど多くの焦点と労力を注ぐのかわからない
  研究費を出す人たちに聞けば、影響力のない「高品質」な論文の生産よりも、影響力のあるアイデアに投資したいと思う可能性が高い
- これが正しい解釈だ。誰かはこれを「査読者たちが愚かだ」という方向に持っていきたいのだろうが、そうではない
あとで見てみると、レビュアー f5bf のコメントが興味深い。「river」「bank」「bailout」のような非推移的な意味的類似性をこれらのモデルがどう扱うのか説明するとよい、としており、Tversky のような研究者は、意味空間モデルがこうした類似性を適切にモデル化できないと批判していたという
最新のモデル（GPT、画像拡散モデルなど）で目立つのは、曖昧な意味があるときに単語を使って遊べる能力である。以前は非常に人間的な能力に見えたが、今では生成モデルの道具箱に入ったように思える。多くはプロンプトから埋め込みベクトルを得るのに、word2vec に似た何かを使っているのだろうと推測している
word2vec の曖昧性が言葉遊びの能力に寄与しているのかは分からないが、この種の曖昧性は、創造的な目的には機能であり、意味空間を厳密なベクトル空間としてモデル化しようとするとバグになるという、機能対バグの状況を示している
現在のモデルの単語／プロンプト埋め込みは大きすぎて冗長な次元で過積載されており、うまく機能するベクトル空間のような何らかの数学的形式主義は満たさないだろう、と解釈している
- 核心的な違いは、文脈なし埋め込みと文脈的埋め込みと呼べるものだ。word2vec に似た方式は、構造上、すべての文に出てくる「bank」にまったく同じベクトルを割り当てなければならない
  しかしその後のモデル、たとえば Transformer 系、BERT、GPT などは、その「bank」の周辺語の文脈に応じてまったく異なるベクトルを割り当てる
- 小さなモデル（例：隠れ次元 32）でも、アテンションがあればトークンの曖昧性を扱えるはずだ。情報はトークンそのものよりも文脈の中にずっと多くある
論文の初期版が却下されたように見え、その後レビューに基づいて更新と説明の補強が行われた。最終的には有益で、レビュー過程が本来機能すべき形に見える
とくにこの論文が画期的な仕事だったからこそ、良いベンチマーク結果に頼るだけでなく、なぜ機能するのかを説明することにもっと力を入れるのは妥当である
今振り返ると、賢そうに見えていた匿名レビュアーたちはかなり愚かに感じるだろう
査読は新しいアイデアにはうまく機能しない。誰にも、新しいものを理解しようとして何時間も、さらに何時間も費やす時間や余裕がないからだ
- 最高の科学の多くは、査読が支配的になる前に生まれた、という点は指摘しておく価値がある
  以前読んだ記事があるが、今は簡単には見つけられない。現在の査読システムの歴史を大まかに整理したものだった。今日われわれが知る査読は主に1970年代に生まれ、学界のさまざまな資金危機への対応だった。研究をより信頼できるものに見せるための戦略だった、という話である
  査読に対する最も致命的な批判は、もちろん再現性危機を防ぐことに完全に失敗し、場合によっては助長したかもしれない点である。学界は、信頼性のイメージを通じて資金を確保することを主な動機とするシステムであり、原理的に見れば、これは広範な不正への処方箋である
- この1年で AI の博士号を終えたが、レビューをきちんと行うために何時間も費やすレビュアーは実際に存在すると言える。最近は怠惰なレビュアーに当たる可能性が高く、運が悪いこともあるのは事実だが、この論文はそのケースには見えない
  たとえば f5bf のレビューは、CBOW と skip-gram を要約し、モデルの説明が非常に最小限で、既存モデルとどれほど違うのか判断しにくいと指摘していた。図による表現や数学的な詳細をもっと入れるとよく、パラメータ数に関するやや不要な方程式にかなりのスペースを使っているので、ほぼ1ページ残っている紙幅で十分可能だと見ていた
  こうしたレビューは論文のかなりの修正につながったが、ただ十分に大きな修正ではなかったようだ: https://openreview.net/forum?id=idpCdOWtqXd60&noteId=C8Vn84f...
  かなり質の高いレビューであり、個人的には論文はこのレビュー過程を経て利益を得たと思う
- この1年、機械学習会議のトラックには大きく失望した。論文が多すぎ、レビュアーが少なすぎて、博士課程学生のレビュアーが異常に多くなっている
  本当にばかげたレビューを受けたし、科学の精神に反する罪悪も含まれていた。たとえば、新しいアーキテクチャのアイデアと最高性能の結果がなければ出版する価値がない、と事実上こだわるレビュアーがいた。既存のツールをよりよく理解し、単純化することは絶対に許されないかのようだった
- 私が得た結論はそれではなかった。レビュー過程が論文を改善し、より厳密にしたということだ。それがなぜ悪いことなのか分からない
  もちろんレビュアーが「これが A、B、C を革新するのか」ではなく、別の論点に集中することもある
- ここでの問題は、レビュアーが新しいアイデアに対応できなかったことではなかった。彼らは単語埋め込みとその生成方式のどちらにも非常に精通していた
  word2vec には新しい概念が非常に多かったわけではなく、単純で高速で品質が良かった点が違っていた。ソフトウェアと事前学習済みベクトルが、既存手法よりもアクセスしやすく使いやすかった
「strong reject」が4つあるにはあるが、すべて同じレビュアーが同じ時刻に同じ内容を書いたものに見える。これは単に却下一つではないのか？
それに、なぜそのレビュアーのスコアだけが見えているのかも疑問だ
ここで査読の価値や無価値について強く語っている人たちのうち、実際に著者とレビュアーの両方として参加したことがある人がどれくらいいるのか気になる。複数のレビューを一つの勧告に統合し総合する編集者の役割まで経験した人となると、なおさら気になる
形式的な査読なしに研究やアイデアを共有できる場は多く、arXiv/bioRxiv が代表例である。査読そのものを拒否するなら、代替手段は十分にあるように見える
- インターネットなので、どんな話題でも強い確信のかなりの部分は、その分野での経験や能力がほとんどない人たちから出てくる
  HN だから平均よりは少しマシだろうが、同時に先延ばし中の人たちにも偏っているはずだ。その点は各自で差し引いて考えればよい
大学生のとき、授業課題として、いくつかのヒューリスティックに基づいてテキストを校正する簡単なシステムを作った
その授業の先生が、夏に地域の学会でシステムと結果を説明する論文を出してみるよう勧めてくれ、手伝ってもらって書いたが、文法が悪いといった理由ですぐに却下された。学会はブラジルで開かれたが、論文は英語で求められていた。学生だったし、自分の英語は本当にひどいのだと思った
先生は、レビュアーにメールしてフィードバックをもらい、修正して再投稿してみるよう言った。そこで、どの段落が分かりにくいのか具体的に尋ねると、明らかに間違った文の断片が送られてきた。ところがそれは、私のシステムが校正する前/後を示す例のうち、校正前の文だった
文法が間違っているべき箇所だと説明しようとしたが、返事は「英語のミスを直して再投稿しなさい」だった。さらに二、三回試したが、結局諦めた
- ブラジルでのFeynmanの逸話を思い出す。特に「I was invited to give a talk at the Brazilian Academy of Sciences」で探せばよいが、未読なら全体を読む価値がある
  https://southerncrossreview.org/81/feynman-brazil.html
- いかにもそうなりそうで、思わず白目をむいた。それでも出版したいなら、arXivに上げてHNの集合知に適切な投稿先を推薦してもらうこともできる
  arXivへのアクセス権がないなら、推薦者を探せばよい: <https://info.arxiv.org/help/endorsement.html>。短く丁寧なメールを送り、礼儀正しさより簡潔さを優先すればよい。「yyyy年に大学で自動文法校正の論文を書き、図中の文法エラーのためにVenueで却下された。まだ出版したい。arXivアカウントを推薦してもらえるか。また適切な投稿先を推薦してもらえるか？」くらいでよい。推薦依頼時はarXivウェブサイトの案内に従えばよい
- レビュアーだったし、時々似たようなレビューを書いたこともある
  論文とは、読者に情報を伝える訓練である。文章が読者にその情報を理解させるのを非常に難しくしているなら、内側にあるアイデアの質とは関係なく、その論文はほとんど役に立たず、出版に適さない
  レビュアーの仕事は、論文を理解可能な形に書き直すことではない。時間もないし、それは彼らの仕事でもない
  文章を書くのは簡単ではなく、技術論文を書くのは本当に習得が難しいスキルだ。だが、研究が有用になるには必要なことだ
  率直に言えば、論文を書いてみるよう勧めた先生が役割をきちんと果たさず、時間を無駄にさせたように聞こえる。その研究が出版する価値のあるものだったなら、出版可能な形に直すために時間をかけるべきだったし、そうしないのなら最初から提案すべきではなかった
タイトルが誤解を招くのでフラグした。4つのstrong rejectは1人の著者から出たものだ
理由は不明だが4回並んでおり、OpenReviewの特異な挙動である可能性が高い。ページが示している実際の状態は、長いテキスト付きのunknownが2件、weak rejectが1件、strong rejectが1件である
レビュースレッドは、下から始めて上へ読むと、否定的な流れになったShow HNスレッドのように見える
論文が最初に質問と否定的なフィードバックを受けると、著者たちは更新しながらレビュアーたちを少し刺激した。「議論を歓迎する…一部のレビューで見落とされたように思われる主な貢献は、非常に浅いモデルでも優れた単語ベクトル表現を計算できるという点だ」と返答した
その更新への応答は「修正と反論は、レビュアーが提起した問題を解決していない。現状の形ではこの論文を採択すべきではないと考える。品質評価: Strong reject。確信度: レビュアーは知識がある」だった

Word2Vec、ICLR2013で4回の「強い却下」判定を受ける

効率的な単語表現のベクトル空間推定

意見

GN⁺の意見

関連記事

1件のコメント

Hacker Newsのコメント