3 ポイント 投稿者 GN⁺ 2024-09-10 | 1件のコメント | WhatsAppで共有
  • 数日前、驚くべきベンチマーク結果とともに、Llama 3.1 70Bのファインチューニング版だと主張するReflection 70Bが発表された
    • Weightのリリースはひどいものだった。3.1向けのファインチューニングだと主張しながら、3.0向けのLoRAを公開した
    • 公開された重みで実行したところ、当初は評価結果が期待に及ばなかった
    • ホストされたエンドポイントを使うと、評価がSOTA級の性能を示し始めた
  • 人々は、そのエンドポイントで実際にどのモデルが動いているのかを確認できる巧妙な方法を見つけた
    • モデルごとのトークンや、モデル固有の検閲の使われ方
    • 判明した内容によれば、彼らがファインチューニングした独自モデルではなく、Sonnet 3.5を包んでいるのだと主張されている
    • Sonnetだと特定されたことがTwitterに投稿された後、内容が変更された
    • すると別のユーザーが、同様の方法を使ってホストモデルがGPT-4oに切り替えられた証拠を見つけたと主張した
  • 結果は入り混じっており一貫性もないため、何が真実で何が虚偽なのかは明確ではない
  • 元の制作者によるリリースツイート : https://twitter.com/mattshumer_/status/1831767014341538166
  • プロンプト経由で何かが継続的に変化していることを追跡したTwitterスレッド : https://x.com/RealJosephus/status/1832904398831280448

1件のコメント

 
GN⁺ 2024-09-10
Hacker Newsの意見
  • Llama 3.1 70Bモデルの性能が優れていると発表されたが、さまざまな問題が発生した

    • Lora for Llama 3.0の重みが誤って配布された
    • 初期評価が期待に及ばなかった
    • ホストされたエンドポイントではSOTA性能を示した
    • 実際にどのモデルなのか確認するため、さまざまな方法が使われた
    • Sonnet 3.5モデルを使用していたことが判明した
    • その後、GPT 4oモデルに切り替えた証拠が見つかった
    • 混乱と時間の浪費が生じた
  • この投稿はもっと注目されるべきだと主張している

    • AI分野の大物として知られる人物の評判が傷ついた
    • "claude" のフィルタリング、タグの誤り、モデル自身がclaudeだと認める証拠などがある
    • Llamaバージョンではサポートされていないアラビア語で質問に答えるモデルの挙動が、最も決定的だ
  • 人は名声のために多くのことをする。Schumerの最終的な目的が何なのか気になる

  • 著者の元のツイート(まもなく削除される予定)

    世界最高のオープンソースモデル、Reflection 70Bを発表できてうれしいです。
    Reflection-Tuningを使って訓練されており、LLMが自分自身のミスを修正できるようにしました。
    来週には405Bを公開する予定で、世界最高のモデルになると期待しています。
    
  • "odd" と韻を踏み、3文字目で始まる名前を持つ人物(C*** Debussy)というジョークがある

  • 信頼できる情報源から「確認」を取ったのか気になる。Redditの投稿、Twitterのスレッド、出所不明のスクリーンショットは信頼しづらい