GPT-3.5の速度と16kコンテキストでGPT-4を上回るPhindモデル
(phind.com)- 「Phindモデル、GPT-3.5の速度と16kコンテキストでコーディングにおいてGPT-4を上回る」というタイトルの記事
- Phindモデルは、GPT-3.5の速度と16kコンテキストを維持しながら、コーディング作業でGPT-4を上回る
- www.phind.com ウェブサイト。アクセス前にセキュリティ確認が必要
- ウェブサイトは、ユーザーのブラウザが旧バージョンであるため更新が必要だと通知
- Cloudflare開発者ページでブラウザ対応に関する追加情報を確認可能
- ウェブサイトのパフォーマンスとセキュリティはCloudflareが提供
1件のコメント
Hacker Newsの意見
分散ジョブキューに関するかなり曖昧な高レベル設計の質問で、PhindとGPT-4を数分比較してみたところ、Phindは実装に関わる具体的なライブラリを積極的に推薦し、自分の調査ともよく一致していて、推薦したライブラリを使ったサンプルコードも出してくれた。
PhindはGitHub、Stack Overflowなど関連する出典を豊富に付けてくれるので、追加調査の出発点として使いやすく、フォローアップ質問の提案もかなり良かった。
ただしGPT-4のほうが回答品質は高く、システム設計面接ならより優れた候補に見えた。ロギングやメトリクスのような質問外の文脈まで押さえ、「質問の裏にある質問」をよりうまく捉え、フォローアップ質問でも会話の方向を絞り込んでいく感覚が強かった。
これはアルゴリズム実装のようなコーディング能力テストではなく、高レベル設計とアーキテクチャ判断のための思考補助ツールとしての比較だった。
LLMによく投げるひっかけ質問として、「GeoJSONのような地理空間データを入力と出力に使う最新の機械学習論文とコードを5つ挙げて」と聞いてみた。
そういう最新研究分野は存在しないと理解しており、地理情報データは非連続的なのでトランスフォーマーには不向きで、文脈依存でもあるため他の方式にも難しいと見ている。実際の機械学習専門家によるより良い説明があれば従いたい。
通常LLMは存在しない論文やコードを5つ捏造するが、Phindは実在するリンクを5つ示したうえで、それらがなぜGISデータを使う論文+コードではないのかも説明してくれ、これまで受け取った回答の中で最も良かった。
ChatGPT 4 Webブラウジング未使用: https://chat.openai.com/share/7e11b4a6-52f2-441a-8614-7266c3...
一方、リモートセンシングデータや衛星画像はGeoTIFFのようなラスター形式で保存でき、実質的には地理参照情報が付いたTIFF画像である。
入力と出力がどちらも地理空間データである衛星画像の機械学習は十分に可能だ。たとえば土地利用分類では、入力がマルチスペクトル画像で、出力は各ピクセル値が識別された土地利用を表す画像になり得る。
衛星画像ベースの建物フットプリント検出・輪郭抽出にも機械学習を使うことができ、出力される多角形はGeoJSONとして保存可能だ。こうしたものは「地理空間データを入力と出力に使う機械学習」の例に該当すると考える。
[1]: https://azure.microsoft.com/en-us/blog/how-to-extract-buildi...
競争が増えるのは歓迎だが、まだGPT-4のほうが優れていると思う。PostgreSQLテーブルの
full_textからおおよそ最初の200語をteaserに埋めるクエリを頼んだとき、Phindは別途PL/pgSQL関数を作ってループで単語を数える回答を出し、GPT-4はgenerate_seriesとSTRING_AGGで直接UPDATEするクエリを提案した。UPDATE your_table SET teaser = substring(full_text from '(\S+\s*){1,200}')のような回答を得た。「単一ストリームで毎秒100トークンまで可能で、GPT-4はよくても毎秒20トークン程度」というのは、バッチ処理を使った結果なのか気になる。もしそうならかなり印象的
Phind Modelが難しい質問で正解にたどり着くにはGPT-4より多くの生成試行が必要かもしれないという部分は、一部はサンプラーのチューニング問題に見える
まだ使っていないなら、文法ベースのサンプリング(https://github.com/ggerganov/llama.cpp/pull/1773)と、
mirostat、dynatempのような動的サンプリング(https://github.com/LostRuins/koboldcpp/pull/464)を見るべきNvidia実装でもサンプリングだけをHugging Face版に差し替えれば動きそうだし、こうした実験的機能を直接実装できることが、OpenAIから離れる大きな利点
GPT-4をよく使っているが、Phindは最初に投げた複数のプログラミング作業で、驚くほどGPT-4に匹敵していた。Phindの長いコンテキストウィンドウを考えると、一部の作業ではGPT-4を超える可能性もありそうで、かなりの成果として印象的
Phindが拾ってきたものの出典を引用する点が良い。すべてのLLMに義務化されるべきだと思うし、だからChatGPTよりPhindを使うようによく勧めている
言語と人間の言語を学習した何百万もの例に知識が分散していて、人間が理解できる形で残っているわけでもない
以前、自分で書いたプログラムを試させてGPT-4と比較したが、Phindは自分が望んでいることをきちんと理解できず、GPT-4は完璧に理解し、そのままプロンプトを続けて完成させる準備ができていた
https://www.phind.com/agent?cache=cloeowfla000dl1084ermly3c
vs
https://chat.openai.com/share/4147da33-3669-4657-88fa-3a9dfc...
全体を代表しているとは限らないが、求めていない的外れな内容と、すでに知っている基本情報へ流れていった
基本検索でPhind Modelを使うとうまく動作するようだ: https://www.phind.com/search?cache=ln6dpdtv5auwn4cq1ofg3gs9
ChatGPTのBing検索でもこの現象は見られるし、自分のプロジェクトでも経験した
CodeLlamaが16kトークンまで対応しているのは驚き。トークンウィンドウは、ユーザーを記憶し、過去の会話を続けるAIを作るうえでの制約の一つ
長い会話が数週間、数か月、数年続く未来のAIアプリでは大きなコンテキストウィンドウが核心で、今でも技術は印象的だが、本物のペアプログラマーのように過去に一緒に学んだことや作業したことをすべて記憶するようになれば、さらに興味深くなるはず
[0] https://huggingface.co/docs/transformers/main/model_doc/llam...
人気がないのは分かっているが、これを Emacs や Vim の中で使える方法があればいいのにと思う。もう VS Code は使いたくない
Java 開発で IntelliJ がそうだったし、エコシステムにとって非常に健全ではなかったと思う。Copilot が Vim をサポートしていて本当にありがたいが、近いうちにそうではなくなるのではないかと心配している
例えば、数十人にとって100万ドルの価値があるアルバムを作るより、数千万人にとって10ドルの価値があるアルバムを作るほうがはるかに儲かるため、音楽や芸術が低い水準へ均質化していく、という論理がある
アルバムの価格は結局10ドルに設定されるからだが、同じ現象が 開発ツール にも当てはまるのだと、今になって思うようになった
:'<,'>y|call system('firefox ?q='.shellescape(@*).' &')までは試した残る問題はテキストが URL エンコード されない点で、おそらくエレガントな方法はあるはずだが、まだ見つけられていない
M1 Mac では推論1回あたり通常7秒ほどかかり、望むより遅いし、どんなコンテキストを送るかも非常に単純だが、それでもかろうじて使えるレベルではある
Copilot スタイルのリクエスト・レスポンスを ollama とやり取りするために Python の façade に依存しているので公開するつもりはなかったが、興味があれば整えて出すことはできる
ざっと比較してみたところ結果は素晴らしく、Web 検索と参照 が付くという利点まで考えると、GPT-4 に近い一方でより高速。とはいえ、些細な不満が2つある
ダークモードは回答本文のフォントが太すぎて明るすぎるため、長い非コード段落を読むのが難しく、ライトモードは全体的に明るすぎる。長いテキストには OpenAI のようなグレーのダーク背景や、HN のようなセピア調のライト背景のほうがよさそう
料金ページの「1日500回以上の best model uses (GPT-4)」で、GPT-4 が何を意味するのかも分かりにくい。Phind が GPT-4 の競合だと発表しながら、同時に GPT-4 の利用量を料金に記載しているのは奇妙に感じる