- AICI - Artificial Intelligence Controller Interface
- 大規模言語モデル(LLM)の出力をリアルタイムで制限・指示するコントローラーを構築できる
- コントローラーは、制約付きデコーディング、プロンプトおよび生成テキストの動的編集、並列生成間の調整が可能
- コントローラーは、トークンごとのデコーディング中にカスタムロジックを統合し、LLMリクエスト中に状態を保持する
- AICIの目的は、既存および新しいコントローラー戦略を容易に構築し、実験できるようにすること
- 基盤となるLLM推論・提供エンジンの実装詳細を抽象化することで、
- コントローラー開発を簡素化し、
- 高速なコントローラーをより容易に記述できるようにし、
- LLM推論・提供エンジン間の互換性を容易に実現することを目指す
- AICIは、(最終的には)マルチテナントLLMデプロイを含め、ローカルおよびクラウド実行向けに設計されている
- コントローラーは、GPUがトークン生成で稼働している間にCPUを活用し、LLM推論エンジンと同じシステム上で実行される軽量なWebAssembly(Wasm)モジュールとして実装される
- AICIは推論スタックの一層として、Guidance、LMQLなどの制御ライブラリがその上で動作し、LLM推論・サービスエンジン全体にわたる移植性、効率性、性能向上のすべてを得られるよう設計されている
- AICIは
- 柔軟性 : コントローラーは、Wasmにコンパイル可能なあらゆる言語(Rust, C, C++, ...)で記述するか、Wasm内でインタープリタ実行できる(Python, JavaScript, ...)
- セキュリティ : コントローラーはサンドボックス化されており、ファイルシステム、ネットワーク、その他のリソースにアクセスできない
- 高速 : Wasmモジュールはネイティブコードにコンパイルされ、LLM推論エンジンと並列に実行されるため、生成プロセスに最小限のオーバーヘッドしか生じない
- Microsoft Researchが設計・制作したプロトタイプ
まだコメントはありません。