- Hacker Newsの「Ask HN: Who Is Hiring」スレッドを通じて、現在の就職市場とトレンドを把握しようとした
- Seleniumを使って毎月「ask hn who is hiring {month} {year}」でGoogle検索し、スレッドIDを収集
- HN-APIを使って上位コメントのIDを収集し、sqlite3データベースに保存
- GPT-4oを使ってコメントを分類
- LangChainの
llm.batch(array)メソッドを使って並列処理し、データを高速に処理
結果
どれくらいの求人がリモートワークを許可しているか?
- パンデミック中は、リモートワークを認めない求人は5分の1にすぎなかった
- 予想に反して、リモートワーク対応率は大きく低下していない
どれくらいの求人がビザをスポンサーしているか?
- ビザスポンサー求人の割合は過去2年間、比較的安定していた
- それでもビザスポンサーの求人を見つけるのは難しい
経験レベルの分布はどう変化しているか?
- 今後6〜12か月以内に、8年以上の経験を積んでいることが重要になる
米国内の州別の求人数は?
- Bay AreaとNYCで提供される求人は、他地域よりはるかに多い
どのデータベースが使われているか?
- PostgreSQLが他のデータベースを圧倒している
どのJavaScriptフレームワークの需要が高いか?
- Reactの需要が非常に高い
- 対数スケールを使わず、
three.jsでインタラクティブなバブルチャートを作成
給与分布は?
学んだこと
- モデルのフィールドは可能な限り正確に説明すべき
- 分類時には、説明の中でクラスを明示すべき
- 集合を抽出する際には、区切り文字を説明に明記すべき
今後の作業
- 初期作業を土台に、ユーザーが「Ask HN: Who is hiring?」スレッドで探している仕事を説明すると、それを分類して月ごとにマッチングするミニSaaSを構築できそう
GN⁺の見解
- この記事は、データサイエンスと自然言語処理技術を活用して就職市場を分析する方法をうまく示している
- GPT-4oとLangChainを使った並列処理は、大規模データを素早く処理するのに有用
- ビザスポンサー求人を見つける難しさという現実を反映しており、関連情報を探している人に役立つ
- ReactとPostgreSQLの高い需要は、それらの技術を学ぼうとしている人にとって良い参考資料になる
- ミニSaaSのアイデアは、実際に実装されれば多くの求職者の助けになる可能性がある
1件のコメント
Hacker Newsの意見
GPT-4oを使った分析が興味深い
goとrustを区別できるのは有用そうプロジェクトのソースコードがGitHubで見つからないのが残念
このプロジェクトに時間とお金を投じてくれたことに感謝
LLMと従来型分析の見事な組み合わせ
グラフで棒を積み上げるのはよくない
グラフが不自然に見えないようにするには対数スケールを使うべき
Claude 3 Haikuを使って同じ分析をすると面白そう
IndeedやLinkedInのランダムサンプルと比較すると面白そう
JSフレームワークのグラフに "React Native" と "React-Native" の両方のバブルが存在する
"Who Wants to be Hired" に関する同様の分析も見てみたい