13 ポイント 投稿者 xguru 2023-07-13 | 1件のコメント | WhatsAppで共有
  • プロンプトエンジニアリングはまるで錬金術のようなもの: 何が最も効果的かを予測できる明確な方法はない
  • 最も適切なプロンプトを見つけるには、ひたすら実験を続けるしかない
  • gpt-prompt-engineerは、この実験をはるかに簡単にしてくれるツール
  • 作業内容を説明し、簡単なテストケースを与えると、システムが複数のプロンプトを生成・テスト・評価して、最良のプロンプトを見つけてくれる
  • 提供機能
    • プロンプト生成: GPT-4 と GPT-3.5-Turbo を使って多様なプロンプトを生成
    • プロンプトテスト: 各プロンプトをテストケースに基づいてテストし、性能を算出してELOレーティングシステムで順位付け
    • ELOレーティングシステム: 各プロンプトは1200 ELOから開始し、互いに競い合いながら性能に応じて変化。これにより、どのプロンプトが最も優れているかを確認できる
    • Classification版: 分類作業向けに設計されたノートブック。各テストケースの正確性を評価し、各プロンプトのスコアをテーブルで表示
    • Weights & Biases Logging: 温度、最大トークン、システム/ユーザープロンプト、テストケース、最終ELOレーティングなどの値のログ取得をサポート

GN⁺が要約した内容

  • プロンプトエンジニアリングは、実験が核心となる錬金術のようなものだ。
  • gpt-prompt-engineerは、プロンプトエンジニアリングを新たなレベルへ引き上げるツールである。
  • GPT-4とGPT-3.5-Turboを使って、ユースケースとテストケースに基づくプロンプトを生成する。
  • システムはELOレーティングシステムを使ってプロンプトをテストし、順位付けする。
  • ELOレーティングシステムによって、最も効果的なプロンプトを簡単に確認できる。
  • gpt-prompt-engineerには、分類タスクを処理する分類版もある。
  • テストケースの正確性を評価し、各プロンプトのスコアを提供する。
  • Weights & Biasesへのオプションのログ記録により、構成と順位を追跡できる。
  • gpt-prompt-engineerを使うには、Google ColabまたはローカルのJupyterノートブックでノートブックを開く必要がある。
  • OpenAI APIキーを追加し、適切なモデルバージョンを選択する。
  • ユースケースとテストケースを定義する。
  • 生成するプロンプト数を選択する。
  • プロンプトを生成してテストするため、適切な関数を呼び出す。
  • 最終的なELOレーティングまたはスコアがテーブルに表示される。
  • プロジェクトへの貢献は歓迎される。
  • このプロジェクトはMITライセンスの適用を受ける。
  • 詳細はMatt Shumerに問い合わせること。

1件のコメント

 
GN⁺ 2023-07-13
Hacker Newsの意見
  • 実際のモデル応答に基づいてベンチマークするのではなく、代わりにGPT-4がプロンプトの性能をどれだけうまく想像できるかに応じて順位付けしています。
  • AI開発者の間でこのツールが人気なのは、LLMを評価するLLMという発想の魅力によるものかもしれませんが、実際のアプリケーションでの性能評価に近道はありません。
  • プロンプトエンジニアリングは、従来のエンジニアリング分野のような厳密な科学とは見なされていません。
  • GPT-4とこのツールを使うコストや難しさ、そして最適なプロンプトを見つけた後にプロンプトを変更することに価値があるのかという懸念があります。
  • プロンプトエンジニアリングのためのプロンプト生成は、メタエンジニアリングの一形態と見なせます。
  • GPT-Engineerによるユーザーデータ収集と、その動機に対する懸念があります。
  • 人間の入力をさらに減らすために、GPTを使ってプロンプトを生成することを提案する人もいます。
  • 記事では、プロンプトの順位付け方法は説明されていません。