17万件の英単語のうち、あなたはいくつ知っていますか?
(vocabowl-870366514258.us-west1.run.app)- VocabOwl は、171,476件の英単語を基準に、ユーザーが実際に知っている単語数を推定する Scientific Word Count ツール
- 結果を見るには 100問チャレンジ に挑戦する必要があり、短いテストから全体の語彙規模を推定する仕組み
- 問題の構成には 層化抽出法(stratified sampling) が使われていると案内している
- サイトは Gemini 3 Flash AI の利用を打ち出しており、単語テストの生成・運用方法にAIを組み込んでいる
- The Rest Is Science ポッドキャストと、Prof. Hannah Fry、Michael Stevens から着想を得たプロジェクト
VocabOwlが提供するテスト
- VocabOwl は、「How many of the 171,476 English words do you actually know?」という問いを中心にした 英語語彙数推定 サービス
- ユーザーは 100問 で構成されたチャレンジに挑戦し、自分が知っている英単語数を確認できる
- テスト問題は scientifically stratified な方式で構成されていると案内している
実装方式と着想の出典
- サイトでは Stratified Sampling が中核的な方式として示されている
- 使用技術として Gemini 3 Flash AI が表示されている
- 着想の出典として The Rest Is Science ポッドキャスト、Prof. Hannah Fry、Michael Stevens が記載されている
1件のコメント
Hacker Newsの意見
単語ごとのクリック数が多すぎる。こういう「知っている単語数」クイズは好きなので最後までやったが、全体として分類が怪しい
前半の単語は易しく後半の単語は難しいという大きな流れはあるものの、中間難度はかなり入り混じっている。breviary は中級というにはずっと珍しいし、Hippopotomonstrosesquippedaliophobia のような恐怖症の単語は、実際に使われる語というより小学生が辞書で見つけて見せびらかしそうな冗談に近い。metamorphosis と kinetic を expert に置いたのも納得しづらい
定義もだいたい見分けがつくものだったが、lethargy を「無気力な状態」としたのはありきたりだし、complacent を「自己満足的なうぬぼれ」と見るのは行き過ぎで、magnanimous に「競争相手」が必須というわけでもなく、gauche は「社交的にぎこちない」だけでは tactless のニュアンスを取りこぼしている
「科学的」だと言いながら雑に公式を示すだけで、単語を最初にどう層化したのかを説明していない。層化標本抽出がこういう用途で正式に認められた方法なら、実際の参考文献リンクがあってほしい。自分は単語をかなり知っているほうだと思うが、このアプリが出した 75k 以上という推定値は信じがたい
Hippopotomonstrosesquippedaliophobia は単語全体を覚えろというより、構成要素を見て意味を推測させる問題に見える。sesquippedalian は知っていたし、phobia も簡単にわかるし、hippo も動物というよりラテン語語根的には「大きい」に近いのではと推測できる
complacent と gauche もそういう用法を聞いたことがあるし、辞書なら悪くても 2〜3 番目の定義あたりには入りそうなので不満はない。昔 spelling bee で成績を出したことがあり、週末ごとに辞書を数時間勉強する規律さえあれば、もっと上まで行けたかもしれない
自分が選んだ答えと間違えた答えの正解を見せる要約があると、ずっとよくなると思う
ただ、そちらでは smug も self-satisfied や self-complacent に近い形で説明されているので、予想と違うのは smug の意味のほうかもしれない。自分の感覚では smug は単なる「自己〜」的な性質というより関係的で、誰かより優位にある状況を楽しんでいる感じだ。complacent は基本的に自分の状況に満足していることだが、もっと良くするために行動すべきなのにそうしない、という否定的含意がよく付く
単語ごとのクリック数が多すぎて終えるまで時間がかかったし、知らない単語でも選択肢があるせいで推測があまりに簡単だった
コンセプトは興味深いが、100単語を解くのはかなり多い。最初の簡単な単語群をやり過ごすのが退屈で、面白い単語が出る前に飽きてしまった
こういうシステムなら、内部でスコアと信頼度を持たせてもっと素早く補正できるはずだ。最初は信頼度が低く、時間とともに上がっていき、序盤では正解・不正解がスコアを大きく動かし、次第に安定していく形だ
実際には、最初はだんだん珍しい単語が出てきて、間違えるともっと易しい単語に戻り、再び当たり始めると最終的に自分のレベル近辺の単語をうろうろすることになる。そして単語ごとのクリック数も多すぎる。気軽なテストなのだから、定義を一度クリックしたら即処理でよく、誤クリックが心配なら取り消しボタンを置けばいい
各選択肢に文字や数字を付けて、キーボードで押せるようにするとよいと思う。昔そういうフォームサービスがあってかなりうまく動いていたが、Typeform だった気がする。確認しようと開いてみたら、今では AI への言及だらけで埋め尽くされていて、確かめる気が失せた
他の指摘に加えて、構造的な欠陥のせいで 計算が半分しか合っていない。数え方によっては100%間違っているとも言える
英語ネイティブで、本をたくさん読むオタクで、SAT満点の自分が、検索なしで100問すべて正解した。それなのに「SCIENTIFIC ESTIMATE」では、170,000語のうち85,000語しか知らないと表示されて混乱した
最後の「How is this calculated」ページを見ると、Oxford English Dictionary Second Edition基準で現在使われている単語は約171,476語だとし、難易度帯を Core Basics 3,000、Intermediate 7,000、Advanced 10,000、Expert 25,000、The Obscure 40,000+ に分けている。総得点は各帯域の正答率 × 帯域サイズの合計だという
しかし、これらの帯域を全部足しても 85,000 なので、満点を取っても50%にしかならない。しかも、言語のごく限られた、難易度代表性にも欠けるかもしれない部分集合を使っている。かわいいけれど、いろいろな意味で間違っている
英語語彙テストではよくあることだが、ギリシャ語を知っていると高難度で有利になる
専門的な単語もあるにはあるが、ほとんどは Radio 4 の普通の会話でも聞きそうな単語だ
78,000だった。第2言語としてはかなり良い。このテストの最大値は 85,000 のように見える
選択肢はLLMが作ったようで、「now」や「forever」が頻出するなど、いくつかパターンがある
数年前に似たゲームをやったことがあり、十分に連続正解するとレベルが上がり、1つ間違えると下がるという形で延々とプレイできた。かなり高レベルになるとかえって簡単になった。古英語の単語が混ざり、その単語が自分の母語であるオランダ語と実質的に同じだったからだ。チャリティ要素もあった気がするし、たぶん https://freerice.com/ だったと思うが、今はゲームが簡略化されたようだ
ベルギーの Ghent University にも面白いテストがあり、特定の教育水準の平均点と比較して習熟度を評価していた。そちらでは41,000くらいで、大学レベルの英語ネイティブ平均と評価された気がする。https://languagehat.com/ghent-vocabulary-test/ の下部アップデートに、そのテストがどこへ行ったかと、いくつか代替案がある
かなり面白い
提出ボタン をなくして、押したら正誤を表示し、1秒ほどして次へ進むようにしてほしい。提出を2回押さなければならない流れが没入感を壊す
あと、自分が見た単語では、4択のうち1つが正解、1つが正解の反意語、残り2つはほぼランダムだった。実質的に、反意語が一緒に出ていない選択肢は飛ばしてよい
まず、単語をありふれた英単語に分解した答えは除外できた。そんなに簡単に分解できる単語なら、そもそも obscure なはずがないからだ
多肢選択問題の 誤答選択肢 を作るのは難しい。自分の知る試験の中では、計算や暗記を要する試験を除けば、ポーランドの医師国家試験 LEK がほとんど残酷なくらいうまい。その分野外の人が勘で選んでランダム以上の確率を出すのはほぼ不可能だ
「わからない」で答えられるべきだ。本当に知らないときでも1/4の確率で当たるのは不公平だし、よくある多肢選択の解法テクニックを使えばさらに当てやすくなることもある
喜んで間違い扱いにしてほしかった単語がいくつか、正解として数えられてしまった
難易度も少し混ぜるべきだ。最後の30問くらいは退屈な作業に感じた。アイデア自体はすばらしい
最悪の場合でも、偶然当たる25%の確率は補正できる
問題はかなり簡単に コツで解けてしまう。多くの選択肢が単語の定義らしく見えず、「正解 + 反対の意味 + 無関係な2つ」という構造が頻出し、後半では最も長い答えが正解であることが非常に多い。誤答選択肢の設計がよくない
単語サンプルも、単語、話すこと、話者、説得に関する概念にひどく偏っている。おそらくLLMが単語選定のためのプロンプトを受ける過程で、「単語」に関連する単語を選ぶようになってしまったのだろう
背景を言うと、自分は第2言語話者で言語学オタクであり、英語は主に学術・専門的な環境で使っている。上のコツを組み合わせて75,400になったが、実際は10〜15kに近いかもしれない
デザインも、見ればわかるが Duolingo に痛々しいほど似ている
ある程度の年齢の人なら、たいていの言語にこういう痛みを指す単語があることに共感すると思う
100問中88問正解したが、そこでわかったのは、自分が 推測がかなりうまい ということだけだった。20問くらいは、もっともらしくない選択肢を消したり、単語の一部の意味から推測したりして正解できた
自分が本当に知っている単語数と、当てられる単語数をもっと正直に評価するには、「わからない」選択肢があってほしい
レベルをより速く見つけるには、ELOレーティングを使うべき。基本単語100個を苦労して解くことには意味がない
OEDの171,476という数値を不正確に使っており、辞書と言語を大きく誤解したやり方である
この数字は、Oxford English Dictionary全20巻のSecond Editionで「current use」と定義された単語のfull entry数を指す。単語数を意味するものではない。OEDの異綴り、屈折形、句、run-on項目もいずれも含まれていない
しかも、OEDが英語の完全な一覧であるわけでもまったくない。実際、更新周期が非常に遅いため、数百万語が抜け落ちている可能性が高い。辞書編集者であり辞書学者としてOEDを毎日使っており、作っている人たちもそれを知っている