- reMarkable 2で手書きを認識し、ジェスチャーや画面のコンテンツに応じて反応して画面に再び書き込む実験
- 手書きと画面インタラクションを探求するプロジェクト
設定/インストール
OPENAI_API_KEY などの環境変数を設定する必要がある。
- reMarkableにバイナリをインストールして実行する必要がある。
使い方
- reMarkableで
ghostwriter を起動する必要がある。
- 画面に絵を描き、右上をタッチして補助機能を有効にできる。
- 処理中は点が描かれ、タイピングまたは描画された応答を確認できる。
状態 / 日誌
- 2024-10-06: 基本的な概念実証を完了。画面に再描画する機能はまだうまく動作していない。
- 2024-10-07: 基本ジェスチャーと状態表示を実装。
- 2024-10-10: 仮想キーボードの設定を開始。
- 2024-10-20: テキスト出力およびその他のモードを導入。
- 2024-10-21: バイナリのリリースビルドを完了。
- 2024-10-23: コードのリファクタリングと新しいAnthropicモデルのテストを計画。
- 2024-11-02: ツール提供へ移行。
- 2024-11-07: Claude/Anthropicを追加。
- 2024-11-22: 評価システムのスケッチを開始。
- 2024-12-02: 基本的な画像分割ステップを追加。
- 2024-12-15: エンジン統合。
- 2024-12-18: システムアップグレードの問題を解決。
- 2024-12-19: ローカルネットワークVLMモードを試行。
- 2024-12-22: 評価システム構築を開始。
- 2024-12-25: CLIを簡素化し拡張。
- 2024-12-28: 使い勝手を改善。
アイデア
- ジェスチャーやコンテンツでリクエストをトリガーする。
- スクリーンショットをビジョンモデルに入力し、結果を画面に出力する。
- キーボードイベントを送信可能。
- 基本的な評価システムを構築。
- プロンプトライブラリを開発。
- 初期設定を自動化。
- 図表生成機能を追加。
- 外部情報の検索および送信機能を追加。
- 対話モードを実装。
- ネットワーク上のローカルVLMの利用を試みる。
参考資料
- Awesome reMarkableのリソースを活用。
- reSnapの画面キャプチャ技術を適用。
- rmkit lampから画面描画の着想を得た。
resvg でSVGをpngに変換。
rM-input-devices でキーボード入力デバイスを生成。
- reMarkableAIでOCR→OpenAI→PDF→Deviceのプロセスを発見。
- rMAIは別アプリで、モデルAPIサービスとしてreplicateを使用。
- Crazy Cowはテキストをペンストロークに変換するツール。
1件のコメント
Hacker Newsのコメント
プロジェクト作者です。プロジェクトは継続的に進行中で、視覚モデルの空間認識の限界が最大の発見です
本当に素晴らしいです。reMarkable タブレット向けのアプリをハックしている人たちを見るのは嬉しいです
reMarkable タブレットがあまりロックダウンされていなければいいのにと思います
素晴らしい
本当に素晴らしいです。今週末に試してみます
PDF 文書の読者として、reMarkable の11インチというサイズで十分なのか気になります
このプロジェクトが大好きです。ベクター拡散モデルがありますが、モデルが何かを描くと決めたとき、それをツール呼び出しで外部委託するのはどうでしょうか?
手書き入力と LLM を組み合わせたこのユースケースは素晴らしいです
私は boox タブレット(完全な Android タブレットと e-ink 画面)を持っており、これにはこうしたものが完璧だと思います
Android ベースの Onyx Boox 電子書籍リーダーでこのプロジェクトはどうでしょうか?