1 ポイント 投稿者 GN⁺ 2023-12-23 | 1件のコメント | WhatsAppで共有

このリクエストの内容は要約できない。提供された記事の内容が実際の記事ではなく、403 Forbiddennginx というエラーメッセージであり、アクセス権限がないことを示すHTTPステータスコードであるため。これは一般に、Webサーバーがリクエストを理解したものの、そのリクエストを実行する権限がない場合に発生するエラーである。

GN⁺の意見

  • 403 Forbidden エラーは、Web開発者やシステム管理者にはなじみのある問題で、権限設定やサーバー構成の誤りによって発生することがある。
  • このエラーメッセージは、ユーザーがWebサイトの特定の部分にアクセスしようとした際に、サーバーがアクセスを拒否したことを意味する。
  • このようなエラーはWebセキュリティと深く関係しており、ユーザーが適切な権限なしに機密情報へアクセスするのを防ぐ重要な機能である。

1件のコメント

 
GN⁺ 2023-12-23
Hacker Newsの意見
    • これはサンプリングの非常に巧妙な方法で、著者たちに拍手を送りたい。Pewで働いていたとき、APIの「関連動画」エンドポイントを通じたランダムウォークでYouTubeをマッピングしようとしたことがあったが、1年後には飽和状態に達したように見えた。しかし、ここで説明されている規模は、レーダーの下を飛ぶロングテールが存在することを示唆している。私たちが研究を発表した直後、Googleはほぼ即座にAPIを締め始めたが、人々が今でも昔ながらのスクレイピングで研究を続けているのを見るのはうれしい。私たちの分析はチャンネルレベルで行われ、人気チャンネルのみに焦点を当てていたが、TubeStatsのいくつかの数値が私たちの発見とかなり近いのは興味深い(例: 言語分布)。*
    • 巧妙なサンプリング手法への称賛と、Pewでの類似研究の経験の共有
    • GoogleがAPIアクセスを制限したものの、スクレイピングによる研究が続いていることへの好意的な反応
    • 自身の研究とTubeStatsのデータの類似点への言及
    • これはドイツ戦車問題に対する緩和的な攻撃手法として興味深い。最適な解決策はアドレス空間を広げ、ランダムサンプルが統計的に有意な結論に到達するために必要なデータを収集できないようにすることだろう。他にもよい解決策はあるだろうが、真にランダムなサンプルならその方向性を制限できる。*
    • ドイツ戦車問題への言及と、データ収集を防ぐためのアドレス空間拡張の提案
    • 「YouTube dislike」データセットを確認することを勧める。このデータセットは、低評価機能が削除される前に情報を収集するためのアーカイブの試みとして作られた。これを使えば、最も議論を呼んだ動画や、特定の言語で説明された上位動画などを見つけられる。*
    • YouTube dislikeデータセットを使った分析可能性についての情報提供
    • YouTubeがどれほどのデータを持っているのか調べようとしたが、その数字は見つからなかった。平均動画長を500秒、ビットレートを400 KB/s、動画数を13億本と仮定して、2.7エクサバイトと計算した。これは、YouTubeが人気動画を複数のデータセンターに保存し、VP9やAV1形式で保存していることを考えると、必要なストレージ量より低めの見積もりだ。YouTubeが不人気な動画を圧縮したり、別形式からオンデマンドでトランスコードしたりしている可能性はあるが、それは推定値を押し上げうるとしても、そうは思わない。*
    • YouTubeデータ量の推定値と保存方式に関する推測
    • Googleは一部のポジションでYouTubeのスケーリング問題を尋ねることがあった。しばしば、成長する分散インフラでログデータを同期する際のビッグO計算量の質問につながった。結果はほとんど説明不能なくらい複雑なビッグO(f(n))関数だった。面白かった。*
    • Googleの面接経験に基づくYouTubeのスケーラビリティ問題への言及
    • この記事の結果としての付随ウェブサイトはこれだ: TubeStats.org*
    • 記事に関連するウェブサイトへのリンク提供
    • 大きすぎる。昨夜、スマホにYouTubeアプリを更新しろという通知が来た。問題は、それがそのスマホで動く最後のバージョンだということだ。少なくともWebはまだ動いている。*
    • YouTubeアプリの大きさとアップデート問題に関する個人的体験の共有
    • このデータセットは面白い。論文はチャンネル統計についてやや誤解を招く印象を与えている。サンプリング傾向を補正して登録者数を再調整しない限り、あるチャンネルが現れる確率はそのチャンネルの公開動画数に比例するため、チャンネルごとの動画数に対してはおおよそ1/#で重み付けすべきだ。*
    • チャンネル統計に関するデータセットの誤解の可能性とサンプリング手法の説明
    • サンプリング関数は、すべての「地域コード」に同じ数の利用可能な番号が含まれていると仮定しているのか? 一部の大規模サイト(例: Twitterなど)では、より多く要求されるデータを持つシャードははるかに密度が低い場合がある。たとえば、ジャスティン・ビーバーがいる地域コードには番号が少ないだろう。これはかなり歪む可能性がある。*
    • サンプリング手法への疑問提起と、特定データシャードの密度差が結果に与える影響の指摘
    • 特定ウェブサイトへの感嘆の表明