1 ポイント 投稿者 GN⁺ 2025-02-10 | 1件のコメント | WhatsAppで共有
  • reMarkable 2で手書きを認識し、ジェスチャーや画面のコンテンツに応じて反応して画面に再び書き込む実験
    • 手書きと画面インタラクションを探求するプロジェクト

設定/インストール

  • OPENAI_API_KEY などの環境変数を設定する必要がある。
  • reMarkableにバイナリをインストールして実行する必要がある。

使い方

  • reMarkableで ghostwriter を起動する必要がある。
  • 画面に絵を描き、右上をタッチして補助機能を有効にできる。
  • 処理中は点が描かれ、タイピングまたは描画された応答を確認できる。

状態 / 日誌

  • 2024-10-06: 基本的な概念実証を完了。画面に再描画する機能はまだうまく動作していない。
  • 2024-10-07: 基本ジェスチャーと状態表示を実装。
  • 2024-10-10: 仮想キーボードの設定を開始。
  • 2024-10-20: テキスト出力およびその他のモードを導入。
  • 2024-10-21: バイナリのリリースビルドを完了。
  • 2024-10-23: コードのリファクタリングと新しいAnthropicモデルのテストを計画。
  • 2024-11-02: ツール提供へ移行。
  • 2024-11-07: Claude/Anthropicを追加。
  • 2024-11-22: 評価システムのスケッチを開始。
  • 2024-12-02: 基本的な画像分割ステップを追加。
  • 2024-12-15: エンジン統合。
  • 2024-12-18: システムアップグレードの問題を解決。
  • 2024-12-19: ローカルネットワークVLMモードを試行。
  • 2024-12-22: 評価システム構築を開始。
  • 2024-12-25: CLIを簡素化し拡張。
  • 2024-12-28: 使い勝手を改善。

アイデア

  • ジェスチャーやコンテンツでリクエストをトリガーする。
  • スクリーンショットをビジョンモデルに入力し、結果を画面に出力する。
  • キーボードイベントを送信可能。
  • 基本的な評価システムを構築。
  • プロンプトライブラリを開発。
  • 初期設定を自動化。
  • 図表生成機能を追加。
  • 外部情報の検索および送信機能を追加。
  • 対話モードを実装。
  • ネットワーク上のローカルVLMの利用を試みる。

参考資料

  • Awesome reMarkableのリソースを活用。
  • reSnapの画面キャプチャ技術を適用。
  • rmkit lampから画面描画の着想を得た。
  • resvg でSVGをpngに変換。
  • rM-input-devices でキーボード入力デバイスを生成。
  • reMarkableAIでOCR→OpenAI→PDF→Deviceのプロセスを発見。
  • rMAIは別アプリで、モデルAPIサービスとしてreplicateを使用。
  • Crazy Cowはテキストをペンストロークに変換するツール。

1件のコメント

 
GN⁺ 2025-02-10
Hacker Newsのコメント
  • プロジェクト作者です。プロジェクトは継続的に進行中で、視覚モデルの空間認識の限界が最大の発見です

    • https://github.com/awwaiid/ghostwriter/blob/main/evaluation_results/2024-12-29_21-05-47/results.md で基本的な評価例を見ることができます
    • 次の目標は、yaml+shellscript エージェントフレームワーク/ツールとして構築し、抽出を継続することです
    • 空間認識のための事前分割や別の方法を引き続き探求することです
    • 多数の点の代わりに実際のペンストロークを送る reSvg バックエンドを書くことです
  • 本当に素晴らしいです。reMarkable タブレット向けのアプリをハックしている人たちを見るのは嬉しいです

  • reMarkable タブレットがあまりロックダウンされていなければいいのにと思います

    • 私のお気に入りのハードウェアの1つで、もっと多くのアプリがあればいいのにと思います
  • 素晴らしい

    • ここ数か月、これを実装してみたいと思っていました。本当によくやりました
  • 本当に素晴らしいです。今週末に試してみます

    • PDF をメールで送って LLM に渡し、やることを書いたときに自動でタスクを作成するアイデアをいじっていました
    • このプロジェクトは、その目標をリアルタイムで達成するより良い方法を開いてくれます
  • PDF 文書の読者として、reMarkable の11インチというサイズで十分なのか気になります

    • 私は 13 インチの Sony DPT 第2世代バージョンを持っていますが、完璧な閲覧体験です
    • しかし、このようなプロジェクトのせいで、私はまたしても reMarkable 製品に引き寄せられます
  • このプロジェクトが大好きです。ベクター拡散モデルがありますが、モデルが何かを描くと決めたとき、それをツール呼び出しで外部委託するのはどうでしょうか?

    • そうすれば座標範囲とプロンプトを指定できます
  • 手書き入力と LLM を組み合わせたこのユースケースは素晴らしいです

    • 乱れた手書きをどれほどうまく処理できるのか、個人メモ向けのファインチューニングで時間とともに認識が改善するのか気になります
  • 私は boox タブレット(完全な Android タブレットと e-ink 画面)を持っており、これにはこうしたものが完璧だと思います

    • 5年後にはモバイルハードウェアがローカルでこれをサポートできるのか気になります
  • Android ベースの Onyx Boox 電子書籍リーダーでこのプロジェクトはどうでしょうか?

    • 可能でしょうか?