8 ポイント 投稿者 GN⁺ 2024-07-05 | 1件のコメント | WhatsAppで共有
  • Hacker Newsの「Ask HN: Who Is Hiring」スレッドを通じて、現在の就職市場とトレンドを把握しようとした
  • Seleniumを使って毎月「ask hn who is hiring {month} {year}」でGoogle検索し、スレッドIDを収集
  • HN-APIを使って上位コメントのIDを収集し、sqlite3データベースに保存
  • GPT-4oを使ってコメントを分類
  • LangChainのllm.batch(array)メソッドを使って並列処理し、データを高速に処理

結果

どれくらいの求人がリモートワークを許可しているか?
  • パンデミック中は、リモートワークを認めない求人は5分の1にすぎなかった
  • 予想に反して、リモートワーク対応率は大きく低下していない
どれくらいの求人がビザをスポンサーしているか?
  • ビザスポンサー求人の割合は過去2年間、比較的安定していた
  • それでもビザスポンサーの求人を見つけるのは難しい
経験レベルの分布はどう変化しているか?
  • 今後6〜12か月以内に、8年以上の経験を積んでいることが重要になる
米国内の州別の求人数は?
  • Bay AreaとNYCで提供される求人は、他地域よりはるかに多い
どのデータベースが使われているか?
  • PostgreSQLが他のデータベースを圧倒している
どのJavaScriptフレームワークの需要が高いか?
  • Reactの需要が非常に高い
  • 対数スケールを使わず、three.jsでインタラクティブなバブルチャートを作成
給与分布は?
  • 給与分布についての具体的な内容は示されていない

学んだこと

  • モデルのフィールドは可能な限り正確に説明すべき
  • 分類時には、説明の中でクラスを明示すべき
  • 集合を抽出する際には、区切り文字を説明に明記すべき

今後の作業

  • 初期作業を土台に、ユーザーが「Ask HN: Who is hiring?」スレッドで探している仕事を説明すると、それを分類して月ごとにマッチングするミニSaaSを構築できそう

GN⁺の見解

  • この記事は、データサイエンスと自然言語処理技術を活用して就職市場を分析する方法をうまく示している
  • GPT-4oとLangChainを使った並列処理は、大規模データを素早く処理するのに有用
  • ビザスポンサー求人を見つける難しさという現実を反映しており、関連情報を探している人に役立つ
  • ReactとPostgreSQLの高い需要は、それらの技術を学ぼうとしている人にとって良い参考資料になる
  • ミニSaaSのアイデアは、実際に実装されれば多くの求職者の助けになる可能性がある

1件のコメント

 
GN⁺ 2024-07-05
Hacker Newsの意見
  • GPT-4oを使った分析が興味深い

    • 最近、"Who is Hiring" と "Who wants to be hired" のデータセットをpandasとspacyで分析した
    • LLMが gorust を区別できるのは有用そう
    • node.jsとnodejs、react-nativeとreact nativeを統合していない点が惜しい
    • seleniumスクリプトを使ってGoogle検索を繰り返す理由が気になる
    • APIを直接使い、タイトルをマッチさせる正規表現を使うスクリプトを共有している
  • プロジェクトのソースコードがGitHubで見つからないのが残念

    • langchainを初めて触ったが、APIは思ったより一貫性がない
    • Ollamaでもできるのではないかと気になる
    • 複数のラッパー(wrapper)が複雑に絡み合っていて混乱する
    • 初心者向けのチュートリアルが必要
  • このプロジェクトに時間とお金を投じてくれたことに感謝

    • "remote" と "in-person" に関する追加統計が興味深い
    • in-person企業が繰り返し採用している理由は、成長しているからかもしれないし、候補者を見つけにくいからかもしれない
    • remote企業が消える理由は、必要な人材を見つけたか、事業をたたんだ可能性もある
  • LLMと従来型分析の見事な組み合わせ

    • LLMは人間のニュアンス、風刺、慣用句を理解するのが得意
    • MLは文脈から情報を抽出するのに優れている
    • LLMは実際の数値計算には信頼できない
  • グラフで棒を積み上げるのはよくない

    • 2層目を適切に評価できないため
    • 各タイムスタンプごとにremoteとnon-remoteを横に並べるほうがよい
  • グラフが不自然に見えないようにするには対数スケールを使うべき

    • その代わりに300行のコードでthree.jsを使ったバブルチャートを作成した
    • ハッカーはハッカーらしく振る舞う
  • Claude 3 Haikuを使って同じ分析をすると面白そう

    • GPT-4oの1/40の価格
    • 結果は似たようなものになる気がする
  • IndeedやLinkedInのランダムサンプルと比較すると面白そう

    • Hacker Newsは一般的な業界と比べて偏った集団
  • JSフレームワークのグラフに "React Native" と "React-Native" の両方のバブルが存在する

  • "Who Wants to be Hired" に関する同様の分析も見てみたい

    • 求職に苦労している人たちのトレンドを把握できる
    • これはキャリア成長を目指す人たちに役立つ可能性がある