8 ポイント 投稿者 GN⁺ 2023-12-29 | 1件のコメント | WhatsAppで共有
  • コンピューター画面で起こるすべての動作を記録(2秒ごとに1回スクリーンショットを撮影)
  • タイムライン表示で左右にスクロールして時間移動が可能
    • Live Textがテキストを認識するとテキストを選択可能
  • 特定の単語を検索して画面を見つけ、画面内でOCRされた全文を見たり、そのテキストをChatGPTなどに送って追加作業が可能
  • Apple Siliconでのみテストされており、リリースもApple Silicon専用。
  • かなり初期のバージョン: 休暇中に数日で作成、Swift初心者

はじめに

  • 自分でビルドするか、リリースをダウンロードした後に xattr -c rem.app を実行してmacOSでアプリを承認。
  • アプリ起動後に "Start Remembering" をクリックして "Screen Recording" アクセス権限を付与。
  • "Open timeline" または "Cmd + Scroll Up" でタイムラインビューを開く。
  • タイムラインで左または右にスクロールして時間移動。
  • "Search" をクリックして検索ビューを開き、タイムラインでサムネイルをクリックしてその時点へ移動。
  • タイムラインでLive Textを有効にするとテキストを選択可能。
  • "Copy Recent Context" をクリックして、最近見た内容をLLMとやり取りするためのプロンプトとしてコピー。
  • "Purge All Data" をクリックしてすべてのデータを削除可能。

現在サポートされている機能:

  • 過去に戻る(見たものすべてのフルスクリーンスクラバー)。
  • 過去のテキストをコピー。
  • 見たものすべてを検索。
  • LLMとやり取りするための最近のコンテキストを簡単に取得。

追加したい機能:

  • ローカルベクトル埋め込みの更新による自然言語検索/エージェントとの相互作用。
  • ベクトルデータベースへの新しいアプローチの探索。
  • マルチモニター対応。

1件のコメント

 
GN⁺ 2023-12-29
Hacker Newsの意見
  • 1つ目のコメント要約:

    • このツールはすごく良さそうだ。最近ディスク容量を空けようとしていたとき、ほぼ1年前の9時間分の画面録画ファイルを見つけたことを思い出した。どうやら誤って録画をオンにしたままにしていたようだ。高速でスクラブしながら数分で全体を見るのは、そのときの思考プロセスを垣間見る魅力的な体験だった。オンラインで何かを調べている過程を見ることができ、スポーツの試合を見返すように教育的で役に立った。また、その当時の細部を見直すことで変化も生まれた。私は DownloadNet というツールを作っており、訪問したすべてのページをオフラインで保存し、完全にインデックス化する。ブックマークしたページだけを保存するようにも設定できる。このツールはオープンソースなので、ぜひ見てほしい: DownloadNet GitHubリンク
    • 保存された映像からテキストをコピーできるのは驚きだ。
  • 2つ目のコメント要約:

    • 昔、私は TimeSnapper Classic というユーティリティを使って一定間隔でスクリーンショットを撮っていた。だが、スクリーンショットがディスクを埋め始め、しかもその大半がほとんど同じに見えた。画像シーケンス向けに最適化されたコーデックを作るべきだと思ったが、結局 GIF/動画コーデックを再発明していることに気づいた。そこで ImageMagick で画像にタイムスタンプを入れ、ffmpeg で動画に変換するスクリプトを書いた。その結果、ファイルサイズを99.9%削減できた。
  • 3つ目のコメント要約:

    • ずっと前に、数秒ごとにスクリーンショットを撮って自動で情報を抽出するプロジェクトに取り組んでいた。PNG DBを作り、PNG画像を複数のブロックに分割して各ブロックをデータベースに保存した。同一ブロックは一度しか保存されず、ハッシュテーブルで高速検索が可能だった。このPNG DBで約400〜500%の圧縮率を達成した。PNG DB GitHubリンク ただし、スクリーンショットを分析するスクリプトは最終的にはあまり大きな成功にはならなかった。screenshooting GitHubリンク この経験は別のプロジェクトにつながり、そこでは使用中のアプリや開いているファイルの情報をより直接的に保存した。timecapture GitHubリンク
  • 4つ目のコメント要約:

    • プライバシーとセキュリティを重視している人に見えるのに、クローズドソースのウェブブラウザ(Arc Browser)を使っているのは興味深い。
  • 5つ目のコメント要約:

    • 私は、真にマルチプラットフォームでローカル動作するこうしたツールを求めている。LinuxとWindowsは必須で、インターネットなしでも使える100%オフラインでなければならない。メジャーバージョンごとに年60ドルなら喜んで払う。寛容なオープンソースライセンスまで付けば、一生の顧客になるだろう。もし他の人も興味を持つなら、自分で作ることになるのかもしれない。
  • 6つ目のコメント要約:

    • Remember Everything について言うと、私はChromeとFirefoxで見たすべてのウェブページのコピーを保存する singleFile ブラウザ拡張を使っている。さらに、ブラウザ以外の画面操作を記録するために AutomaticScreenshotter も使っている。これによって、過去のある日にPCで何をしていたか分かる。すべてのファイルは年/月/日のディレクトリ構造で保存される。現在はWindows Searchでファイルを探している。私は ditto を使って、すべてのコピー&ペーストを mysqldb に保存している。このディレクトリ構造は2010年以前から使っており、拡張機能とスクリーンショットは3〜4年前から始めた。フォレンジック用PC調査ツールを使うか改造して、PC上の活動タイムライン作成に役立てられるのではないかと考えている。
  • 7つ目のコメント要約:

    • こうした技術が今後5年後、あるいは10年後にどう使われるのかを見るのは興味深い。私たちはこれまでで最も強力な記憶装置を持っているのに、それを使わないよう常に努力しているのが不思議だ。もっと深刻な面として、こうしたツールは創造性を妨げるかもしれないとも思う。自分で記憶するのではなく、こうしたツールに依存する習慣がつく可能性があるからだ。創造性とは、過去の記憶を未来のものと再結合する能力だからである。
  • 8つ目のコメント要約:

    • OPのデモはとても良い。なぜこれがApple Silicon専用なのか気になる。Windowsより優れたMLサポートがあるからだろうか? Olama がWindowsで使えないのは残念だ。私はApple SiliconのノートPCを持っておらず、Apple Intelと高性能なWindows機しかないので、これを試せない。基礎的なプログラマーとして、あるいはSwiftなしで、こういうものをゼロからどう作るのか見当がつかない。自分がOPなら、まずSwiftのチュートリアルをたくさんやるだろう。これをLinuxやWindowsで動くようにJavaやC#でクローンするのは願望レベルだが、MLやDirectX API、LinuxデスクトップAPIの経験がまったくない。プロジェクトを始める前に慣れておくべきAPIやツールが多い。OPはSwift経験がないのにどうやってこれを作ったのか、Apple Siliconではこうしたプロジェクトの方が作りやすいのか気になる。私は4年の経験があり、JavaとC#でWeb APIやWinForm/DevExpressの仕事をしている。
  • 9つ目のコメント要約:

    • これを使って、自分自身の行動管理に役立てることもできると思う。スクリーンショットを「時間の浪費」と「生産的」な活動に簡単に分類できるのか気になる(おそらくMLモデルで可能だろう)。統計をゲーム化するのも選択肢だ。たとえば、直近1時間で78%が生産的、12%がHacker News、10%が非活動だった、というような統計を見られる。自分のハイスコア更新を目指すこともできるだろう(例えば、1日に3回100%生産的な時間を作れたら、かなり良い日かもしれない!)。動画デモが気に入った。30秒足らずでこのツールが何をするか理解できた。ありがとう! PPS: (かなり些細なことだが)動画速度コントローラー(ブラウザアドオン)が今ではLoom動画でも動作するようになった。数か月前はそうではなかった。
  • 10つ目のコメント要約:

    • こうした技術には潜在的な悪夢のシナリオがある。雇用主は従業員を完全に監視するためにこの種のツールを使いたがるだろう。AIと結びつけば、誰もが何をしているかをリアルタイムで監視し、アラートを受け取れるようになる。