- 数日前、驚くべきベンチマーク結果とともに、Llama 3.1 70Bのファインチューニング版だと主張するReflection 70Bが発表された
- Weightのリリースはひどいものだった。3.1向けのファインチューニングだと主張しながら、3.0向けのLoRAを公開した
- 公開された重みで実行したところ、当初は評価結果が期待に及ばなかった
- ホストされたエンドポイントを使うと、評価がSOTA級の性能を示し始めた
- 人々は、そのエンドポイントで実際にどのモデルが動いているのかを確認できる巧妙な方法を見つけた
- モデルごとのトークンや、モデル固有の検閲の使われ方
- 判明した内容によれば、彼らがファインチューニングした独自モデルではなく、Sonnet 3.5を包んでいるのだと主張されている
- Sonnetだと特定されたことがTwitterに投稿された後、内容が変更された
- すると別のユーザーが、同様の方法を使ってホストモデルがGPT-4oに切り替えられた証拠を見つけたと主張した
- 結果は入り混じっており一貫性もないため、何が真実で何が虚偽なのかは明確ではない
- 元の制作者によるリリースツイート : https://twitter.com/mattshumer_/status/1831767014341538166
- プロンプト経由で何かが継続的に変化していることを追跡したTwitterスレッド : https://x.com/RealJosephus/status/1832904398831280448
1件のコメント
Hacker Newsの意見
Llama 3.1 70Bモデルの性能が優れていると発表されたが、さまざまな問題が発生した
この投稿はもっと注目されるべきだと主張している
人は名声のために多くのことをする。Schumerの最終的な目的が何なのか気になる
著者の元のツイート(まもなく削除される予定)
"odd" と韻を踏み、3文字目で始まる名前を持つ人物(C*** Debussy)というジョークがある
信頼できる情報源から「確認」を取ったのか気になる。Redditの投稿、Twitterのスレッド、出所不明のスクリーンショットは信頼しづらい