aipack: BGE-M3ベースの中立的なセマンティックチャンク化Parquetジェネレーター + MCPサーバー
(github.com/rkttu)BGE-M3、MarkItDown、そしてMarkdown構造パーサーを用いてセマンティックチャンク化を行い、その結果をParquetファイルに保存する aipack フレームワークの最初のバージョンをリリースします。モデルやデータベースに依存しない中立的な状態を保ち、いつでも再利用できるファイルフォーマットを基盤としてRAGを実装し、MCPサーバーまで動かせるように設計しました。
aipack の目指す方向は、NPU や GPU に依存しない RAG を実装すると同時に、今後さまざまな RAG 構成へ拡張しやすい環境を作ることにあります。「高品質な Parquet ファイルを作り出せるなら何でもできる」という前提のもと、業界でよく使われる RAG パイプラインをデカップリング(Decoupling)してみた実験的なプロジェクトです。
普段考えていたアイデアを実装してみたものなので粗い部分も多いですが、ぜひ多くのフィードバックや意見をいただければ、それをもとにより良いプロジェクトへ育てていきたいと思います!
まだコメントはありません。