1 ポイント 投稿者 GN⁺ 2023-12-22 | 1件のコメント | WhatsAppで共有

NLP論文リーディングコレクション

  • 自然言語処理(NLP)に関する論文を読むためのコレクションで、22件の項目で構成されている。
  • このコレクションは最近更新されており、NLP分野の最新研究動向を把握するのに役立つ。
  • NLPは人間の言語をコンピュータが理解し処理できるようにする技術であり、機械翻訳、感情分析、質問応答システムなどさまざまな応用分野がある。

GN⁺の意見

  • このコレクションはNLP分野の最新研究をひと目で見渡せる資料であり、NLPに関心のある研究者や開発者にとって非常に有用だろう。
  • NLPはAI技術の中でも特に急速に発展している分野であり、このコレクションを通じて最新トレンドや革新的なアイデアに触れることができる。
  • 自然言語処理技術は私たちの日常生活に深く統合されており、このコレクションを通じてその技術の発展の方向性と将来の可能性を垣間見ることができる。

1件のコメント

 
GN⁺ 2023-12-22
Hacker Newsのコメント
  • この論文を理解するのに時間がかかった。というのも、これは 'Deja Vu' 論文の技術に基づいており、疎性を活用する複雑な手法を扱っているからだ:

    • 'Deja Vu' 論文は、重みの疎性が低いモデルでも高い「文脈的疎性」を持つことを観察している。つまり、行列積が入力に応じて異なる位置に多数の 0 を含むベクトルを生成する。
    • 論文は、この疎性を利用して行列の一部の行を読み込まないようにできると指摘している。
    • ただし、十分な性能向上を得るには、どの行をスキップするかを事前に予測できる必要がある。これは低次元行列で可能になる。
    • Apple の論文は、こうした発見が RAM からの読み込み性能を改善するだけでなく、フラッシュメモリからの読み込みでも帯域幅を犠牲にせず実現できることを示唆している:
      • 注目すべき点として、論文では attention 行列は軽量であり、フィードフォワードネットワーク (FFN) を疎に読み込むことが重要だと述べている。
      • 論文は、ReLU 層の出力を予測するほうが FFN の入力を予測するよりもはるかに高い疎性を得られると指摘している。つまり、「matmul の後、このベクトルスロットが ReLU の前に負の値になると予測できるなら、その行列の列を読み込まずに 0 を出力できる」という意味だ。
      • 論文は、FFN の行の大半をまったく読み込む必要はなく、各 FFN について最近使われた FFN 行のキャッシュを維持し、必要に応じてフラッシュメモリから更新できると示唆している。
    • 論文にはチャンク読み込みや投影層間の相関に関する話もあるが、主要な洞察は上に挙げた部分だ。
  • 論文の結論部分で、この機能がユーザーにどのように提供されるのかについての節を見つけられることを期待していたが、おそらくその議論は範囲外だったのだろう。

    • こうした機能が CoreML の API 呼び出しや設定としてユーザーに提供されるのか、たとえば use_flash フラグを設定する必要があるのか、それともユーザーから見えないランタイム最適化になるのかが気になる。Apple が CoreML や Metal などの開発ロードマップについて議論している良い講演やプレゼンがあれば知りたい。
  • モデルのどれくらいの部分を読み込まなくても、実際の性能差が見え始めるのか気になる。

    • たとえば、RAM 上での性能の 90% を維持したいなら、メモリは半分で済むのか、それとも 90% や 95% は必要なのか、という問いだ。
    • RAM を減らすことで最大性能に対する性能低下がどれくらい急速に起こるのかが気になる。グラフは RAM を少なくした場合の基本アルゴリズムとの比較だが、それは別の(ただし良い!)問いだ。
    • もし 8GB のモデル全体をスマートフォンのメモリに読み込まなくても良い性能が得られるなら、これは明らかに非常に有用だ。
  • Apple デバイスは、競合他社の類似デバイスと比べて RAM が非常に少ない点が注目に値する。

    • これは Apple のソフトウェアチームが Objective-C のようなより効率的な言語を使っているからでもあるし、iOS アプリケーションがさまざまな画面解像度を対象にしていないため、高解像度テクスチャを読み込んでからダウンスケールすることが少ないからでもある。
    • また、Apple の規模で RAM を調達しても RAM の価格が大幅に安くなるわけではないため、RAM を増やすことは他の機能を追加するよりも利益率に大きな影響を与える。
    • しかし、こうしたことはすべて大規模言語モデル (LLM) を使う際には問題になる。LLM は本質的に RAM を多く消費するからだ。そして、どんなメモリ節約技術でも、より多くの RAM を持つ競合はそれをより大きく優れたモデルの実装に使えてしまう。
  • この話題への理解は限られているが、この技術を使えばモバイルフォンでオフラインモードのまま LLM を動かせるのか気になる。

    • もし可能なら、機密データを外部に送信せずに済む AI 支援コンテンツモデレーションのような、多くの興味深い応用につながるはずだ。
  • 最近の記事が「AI」ではなく「LLM」と書いているのを評価している。

    • そうすることで、マーケティング上の誇張ではなく、具体的な技術についての話だと分かる。
  • この論文が FlashAttention に言及していないのはやや意外だ。

    • どちらの研究もフラッシュメモリを活用しているのだから、少なくとも触れるべきだったように思える。
  • Apple はイランの企業を買収したのか?

  • たとえば、OPT 6.7B モデルは FFN 層内で 97% の疎性を示すという。

    • ここで言われているメトリクスが正確に何を意味しているのか知っている人がいるだろうか。層に 97% の 0 値があるという意味なのか、それともサイズを 3% まで圧縮できるという意味なのか、という質問だ。
  • この技術が llama.cpp と candle に統合されることを願っている。

    • こうした進展は非常に驚くべきもので、いつかこれらのライブラリにも適用されることを期待している。