6 ポイント 投稿者 GN⁺ 2025-06-21 | 1件のコメント | WhatsAppで共有
  • AIベースのエージェント機能を備えたオープンソースブラウザー
  • ユーザーのプライバシーを優先し、AIモデルをローカルで実行してデータ保護の強みを提供
  • 主な利点として、Chrome拡張機能との互換性と透明性の高いオープンソース方針を強調
  • Arc、Dia、Perplexity Comet など既存のブラウザー代替と比べ、ローカル処理ユーザーデータの統制性に差別化ポイントを置く
  • 継続的な機能拡張とコミュニティ主導の発展を目指し、多様な貢献方法をサポート

Nxtscapeとは

  • Nxtscapeは、オープンソースのエージェントブラウザーであり、AI機能をローカル環境で実行する
  • Arc、Dia、Perplexity Comet のようなブラウザーの代替として、ユーザープライバシーとデータ統制を求める場合に適した選択肢
  • ユーザーは自分のAPIキーを使うか、Ollama のようなローカルモデルを連携できるため、Web利用履歴などの情報が外部に流出しない

中核機能

  • Chrome拡張機能との完全互換により、既存の使い慣れた環境を維持可能
  • AIエージェントがクラウドを経由せず、ブラウザー内で直接動作
  • ユーザーがAPIキーを直接入力するか、ローカルモデル連携を選べることで、高いデータ保護を担保
  • オープンソースかつコミュニティ主導の開発方式で、コードの透明性を確保
  • 今後はMCPストアAIベースの広告ブロックなど、さまざまな機能を追加予定

デモと利用例

  • AIエージェントを活用した自動化シナリオを提供
  • ローカルAIチャット機能を統合し、対話型の支援を受けられる
  • 生産性ツールと連携した、さまざまな業務自動化の可能性を実演

開発の背景

  • ブラウザー技術が長年停滞していることに問題意識を持つ
  • 開発者の生産性を飛躍的に高めるAIエージェントベースの環境を構築することが目標
  • 単純な反復作業、たとえば "Amazonの注文履歴からTide Podsを注文する" といった依頼を自動化することで、ユーザーはブラウザーと「競争」するのではなく、ブラウザーの助けを受けられるべきだとする
  • AIエージェントはローカル環境で安全に動作すべきだという確固たる原則を提示

主要ブラウザーとの比較

  • Chrome: オープンソースのChromiumをベースとしているが、過去10年間でAIや自動化、MCP(Multi Capability Plug-in)などの革新的機能の導入は限定的
  • Brave: 暗号資産、検索、VPNなどへ方向性を広げたが、NxtscapeはAI中心に集中
  • Arc/Dia: 人気はあったが、クローズドソースであり、サービス終了時の代替がない。Nxtscapeは完全なオープンソース
  • Perplexity Comet: 検索/広告企業であり、ブラウザー履歴などのデータが企業側に帰属する問題がある。Nxtscapeはユーザーのあらゆる記録をローカルに限定する

コミュニティ参加と貢献

  • バグレポートや機能提案、Discord参加、Twitterフォローなど、さまざまな方法で貢献可能

ライセンスと技術的参考情報

  • AGPL-3.0 ライセンスの下でソースコードを公開
  • Chromium、browser-use、Stagehand、Nanobrowser などのオープンソースプロジェクトから着想を得て制作

1件のコメント

 
GN⁺ 2025-06-21
Hacker Newsの意見
  • これまでのコメントを見ると、全体像よりも細部ばかりに注目しているように感じる。個人的には、ローカルLLMに接続され、ブラウザが見ているすべてをタイムスタンプ付きでローカルDBに保存し、自分がやり取りする内容を自動でパース・要約し、Puppeteerのようにスクリプト化でき、コードプロンプトベースの自動化をサポートするブラウザには非常に大きな価値があると思う。自分専用のデジタルアシスタントとして、忘れた情報や必要なものを簡単に見つけられ、検索・広告・スパム・不要な情報まで積極的にフィルタリングし、さらには望むインターネット上の作業を自動で処理することもできる。25年間積み上がったブックマークに対して、もはやブックマークだけでは十分ではない。ノイズだらけのWebサイトで欲しい情報を1つ探しているうちに深みにはまる状況を、ボディーガードボットが雑音や無駄な情報を取り除く形で改善できる。もしこれが本当にうまく動くなら、デジタル空間の個人秘書、ツアーマネージャー、ドアマン、ハウスキーパー、整備士など、いくつもの役割を一度に担えるし、ブラウザが混沌としたインターネットの主要ポータルになった2025年には、こういう方向性は悪くない考えだと思う。結局は実行力が鍵だが、このプロジェクトがどう発展していくのかとても気になる

    • 率直なフィードバックに本当に感謝する。これこそ私たちが描いていたビジョンだ。1日の90%以上をブラウザで過ごしているのに、今でもただの「愚かな窓」にすぎない。閲覧履歴を覚え、重要な記事をクリップしてEvernote web clipperのようにハイライトも保存し、すべての内容を意味ベースで検索できるなら、生活は変わるはずだ。すべてのデータはローカルのPostgresDBに保存され、「先月の価格比較って何だったっけ?」「ブラウザ自動化のハイライトを探して」といった質問にもすぐ対応できる。集中が必要なときは邪魔なサイトをブロックする機能も含まれる。検索や記憶を超えて、ブラウザが実際に自分の仕事を助ける時代だ。たとえば、タブをトピック別に自動グループ化したり、サイトごとのHDD価格を比較したり、Discordサーバーの新着投稿を要約したりといったことを、すべてローカルで処理できる。ブラウザはインターネットの混沌の中で私たちを助けるべきであって、むしろもっと複雑にする必要はない。特に、日常のどんなワークフローが最も不便か、ユーザー事例があればぜひ聞きたい

    • 実際、これはMicrosoftがRecallでやろうとしていたこととほとんど同じだ。Recall機能はAIブームの中で唯一生活を改善してくれそうだと期待していたが、よく考えてみると、自分が本当に欲しいのはAIではなく、自分のコンピュータがローカルで詳細な記録を持ち、高度な検索を提供してくれることだ。コンピュータでやったすべてを無条件に覚えていてほしい。訪れたサイト、各ページでどこまでスクロールしたか、入力しては消した考えまで、すべてを保存する「total recall」機能が必要だ。その理由は、自分の脳の記憶には常に誤りがあるので、コンピュータにはもっと完全な記憶を期待したいからだ。そして検索は常に一貫して決定論的に動作してほしい。正確なタイムスタンプとブール演算子が使えるべきで、NLPはLuceneがすでに20年前にうまく提供していた。外部コーパスから自動生成された要約ではなく、自分のコンピュータで自分がしたこと自体を正しく記憶してくれればいい。LLMは個人検索に大きな価値を付け加えないと思う。LLMの性質上、実際のデータを正確に返すのは難しく、結局は従来の方法でインデックス化しないと検索は正確にならない。いまLLMが主流なのは、「すべて」を効率的にインデックスする方法が未熟だからだと思うし、実際、パーソナル検索では「すべて」ではなく、自分の画面に表示されたテキストとメタデータ(時刻、カーソル位置、クリップボード、URLなど)さえ分かれば十分だ。LLMによるインデックスが必要なのは、実際のテキストスナップショットを従来のインデックスに保存するには容量が大きすぎる場合だけで、そうでないなら曖昧な対話型検索は自分の目標ではない。本当の目標はtotal recallだ

    • 本当にすばらしいビジョンだ。自分が集中力を失ったときにブラウザが注意を促してくれたり、自分が何をしていたのかを自ら分析してくれたりしてほしい。自己省察はここでは強力な武器になる

    • 長い間、自分が使いたかった機能は、30秒以上滞在したページの全文テキストを自動保存・インデックス化して検索できるブラウザ拡張だった。このプロジェクトはそれをはるかに超えている

    • 自分の見方では「LLMベースのネイティブ広告ブロッカー」だ……これは森が大きすぎて、その発想だけで頭が痛くなるレベルだ(冗談)

  • nanobrowserのようにブラウザ自体を新しく作るのではなく、堅牢な拡張機能で十分なのではと思う。nanobrowserはwebdriverの露出なしによくできていて、JS実行やLLM連携にも不足がない。完全なagentic機能まで提供しているのに、なぜ新しいブラウザがどうしても必要なのか気になる

  • もしかすると馬鹿げた質問かもしれないが、「agentic browser」とは正確に何なのか説明してもらえるだろうか。みんながすでに知っている前提で話しているように聞こえるが、自分にはこの言葉が一般的な用語なのか、それとも単に「AI機能付きのWebブラウザ」という意味なのかよく分からない

    • 聞いてくれてありがとう。決して馬鹿げた質問ではない。「agentic browser」とは、AIエージェントが代わりにWebナビゲーションをしてくれるブラウザのことだ。Amazonで注文を並べ替えたり、フォームを入力したりすることまでエージェントが直接行うブラウザを意味する

    • エージェントとは、LLMがツール(例: calculate(expression))と一緒に動作する構造のことだ。望む結果を得るために必要な作業があれば、自動的にそのツールを実行する。複雑なワークフローでは、LLMが受け取った入力が、ユーザーエージェントを特定の文字列にsetするなど、複数ツールの組み合わせになることもある。たとえば set_user_agent(…) のような命令実行や、ページ上でのクリック、ページが開かれたときのcustom JS挿入などがそれに当たる

    • 「agentic」という用語を初めて聞いたのは1か月前だった。その後の2〜3日のあいだ、社内タウンホールですら何度も繰り返し耳にした。要点をまとめると、エージェントが自分で判断して自律的に行動するAIということだ

  • agentic browserという概念はとてもクールなアイデアに聞こえる。クライアント側エージェントで何かを自動化できるのは本当に強力だ。しかし同時に、セキュリティ面では「絶対に安全ではない可能性がある」。ブラウザはほぼすべての機密アカウントにログインしており、自然にインターネット上の信頼できない入力にさらされている。プロンプトインジェクションが1回起きただけで、人生が数秒でめちゃくちゃになるかもしれない。コンセプト自体は本当に良いが、サプライチェーン全体がPCI/SOC2/ISO 27001などの認証を取得し、第三者のセキュリティ分析者たちのお墨付きまであるのでなければ、自分は触りたくない

    • この点を挙げてくれて本当にありがとう。まったくその通りの懸念だ。だからこそ私たちはlocal-firstとオープンソースにこだわっている。クラウドエージェント(例: Manus.im)の場合、認証情報を検証不能なブラックボックスに預けることになるが、ローカルエージェントならユーザーが主導権を持てる。エージェントは明示的に実行をトリガーしたときだけ動作し、進行状況をリアルタイムで見ながらいつでも停止でき、別のChromeユーザープロファイルで分離実行もできる。そして最も重要なのは、オープンソースなのでコードを自分で監視・検証できることだ
  • 自分のユースケースは、水関連のWebサイトからCSVやデータファイルを抽出することだ。たとえばSouth Australiaの貯水池水位データの抽出には本当に苦労した(特にフロントエンド経験が少ない身としては)。こうした作業をagentで自動化できるなら、ぜひ試してみたい

  • 本当にすばらしいプロジェクトだと思う! HNでローンチしたのもすごい。初期体験での率直な感想として、ブラウザの「すべてのタブをトピックごとにグループ化」プロンプトを実行したら本当にうまく動いた。その後、すべてのタブグループを削除してリセットするよう頼んだところ、「これはブラウザ自動化タスクなので『Agent Mode』で実行せよ」と返された。Agent Modeで頼むと、今度は「これは生産性タスクなのでChat Modeで実行せよ」と戻された。結局、ずっと行ったり来たりのやり取りになり、すべてのタブを1つの新しいグループにまとめるところまではできたが、グループ自体を削除することには失敗した。おそらくそのAPI自体がないのだと思う。全体として、ブラウザレベルのアクションにはどれも「undo」ボタンがあってほしい。難しいなら、せめて数秒前に自分が作ったタブグループを自分で消せるようにしてほしい。これからも使い続けるつもりだ。edit1: chrome内部ページ(例: chrome://extensions)でchatインターフェースを使っていると、ときどきgoogle.comに飛ばされる現象もあった。edit2: 生産性モードにはグループ解除ツールがなく、作成しかできないことを確認した

    • フィードバック本当にありがとう! 不便をかけて申し訳ない。まだ初期ベータ段階だ。agent modeとchat modeはそれぞれ別ツールとして設計している。現状のプロンプトはまだ不十分なので、改善の必要性を感じている。グループ解除についてはChrome API自体にまだないので、自前で実装する必要がありそうだ。「undo」機能は多くの人から要望があるので、Cursorの「restore checkpoint」のような形で導入を検討している。生産性機能が日常でどれほど重要だと思うか、具体例があればぜひ聞きたい :)
  • 「nxtscape」という名前に昔のSCSIっぽい懐かしさを感じる。「GPT」みたいに短くて一発で言えるネーミングを勧めたい。製品自体は本当に良い

    • 今日のフィードバックを見ると、名前とブランディングにもっと時間を使うべきだと感じた。考えてみる :)
  • この市場は完全にwinner-take-allだ。挑戦したこと自体は本当にすごいが、2〜3人程度のチームでブラウザを作るのはあまりにも大きすぎる仕事だ。しかもGoogleはすでにI/Oで未来の方向性を少し見せていて、この分野はGoogleがChromeにすぐ実装できるので、十分な速さで市場シェアを取りに来ると思う。ディープテックの創業者たちは何年もChrome制覇を試みてきたが、一度も成功していない。現実的には、ICPが明確な小さなニーズから始めるべきだと思う。情熱とエネルギーが無駄になるのがあまりにも惜しい

    • 率直なフィードバックに感謝する! 競争が激しいのは事実だ。それでも、オープンソース、コミュニティ主導、privacy-firstなAIブラウザ(Braveのような)市場には確かな空白があると考えている
  • ユーザーのための機能、とくにユーザーに敵対的なWebコンテンツを自動処理・加工してくれるブラウザには、間違いなく大きな価値があると思う。具体的な利用例としては、1) ソファを買うときにマーケティング誇張ではなく特定条件だけで絞り込む、2) 友人がFacebookに投稿したときだけ通知を受け取り、それ以外はフィルタリングする、3) 地域コミュニティがFacebookやnextdoorで運営されている場合に、いつも同じ人の繰り返し投稿だけ見えなくする、4) 政府の公聴会ページが無駄に700ページに膨れ上がっているのを自動要約して、本当に重要な内容だけ抽出する、など多くのドメインに応用できる

    • ソファ購入のように、特定条件で項目をフィルタリングする機能は、大手サイト(Amazonを含む)でも根本的に不足している。以前はscrapingとデータサイエンスを組み合わせてdiskprices.comのようなサイトを自分で作っていたし、LLMがこの用途に本当に有用なら、今後もブラウザで直接プロンプトを書く代わりに、こうした機能特化サイトは増えていくだろう。繰り返し投稿のブロックについては、nextdoorにはユーザーブロック機能があるので参考になるかもしれない(nextdoorブロックガイド

    • これは本当にすばらしい例だ!

  • robots.txtは遵守していますか?

    • まだ遵守していない。でも実際、agentが「人間」のための用途にしか使われないならscrapingではないわけで、重要なのかよく分からない

    • これは明らかにユーザー向けagentだ。robots.txtまで律儀に守るなら、正直かなり窮屈になると思う。robots.txtはもともとWebクローラーの礼儀として設計されたものであって、個々のユーザーの要求を代行するツールまで止めるためのものではない。ターミナル、普通のブラウザ、AIブラウザなど、どんな手段であれ自分のサイトへのアクセスをサイト運営者が制限するのは、Webの強みを損なう。AIツール嫌悪のためにWebの多様性を犠牲にするのは、将来的にも危険だ。参考: robots.txt FAQ