1件のコメント

 
GN⁺ 2024-04-02
Hacker Newsの意見
    • GPTモデルについて質問があります。モデルは最も確率の高い単語を選ぶのだと思っていましたが、「あり得る」単語の1つを選ぶなら、次の単語予測の候補一覧はずっとあり得なさそうなものにならないのでしょうか? 「2語をまとめて」の確率を実行することが計算可能なら、そのほうが有益そうで、これは3、4、n語にも適用できるはずです。こうした方式があるのか気になります。
    • 動画を見てコメントを読んだあとで追記: この問題を制御するためにビームサーチ(beam search)と温度(temperature)が使われます。
    • attention mechanismを集団に教えるのに、これ以上ふさわしい人は思いつきません。夢がかなったようです。
    • 4月1日のジョークコンテンツに対する驚くべき解毒剤です。これを直接注入したいです。
    • Andrej Karpathyのチャンネルには、プログラミングを知っている人向けに、ニューラルネットワークとその内部動作について説明する興味深い動画がいくつかあります。これが気に入ったならおすすめです。
    • 次のトークンは、アンエンベディング後に最終列からロジットをサンプリングして選ばれます。しかし、それは単に最後のトークンをもう一度選んでいるだけではないのでしょうか? それとも、どこかの段階で行列がN+1にリサイズされるのでしょうか?
    • 次の動画が待ちきれません。これらがどう動くのかを、ついに腹落ちして理解できそうです。
    • 3B1BはYouTubeで最高のSTEM教育者の1人です。