【Python】電話帳サイトをスクレイピング

 スクレイピングの練習でもするか、と思い立ってPythonで実装してみた。
練習の題材として某電話帳サイトを選択した。
題材のサイトでは基本的には県、市区町村、住所区分に相当するコードが決められており、それらを組み合わせてURLを生成して、requestsでGETしてやるとページ情報が取得できる。以下参考URL。

 そして取得してきたデータから必要なものを抽出してくるときはBeautiful Soupを使った。スクレイピングしたい要素のタグ種、ID、CSSセレクタなどから要素を抽出してやって、ファイルに書き込んでいく。
ちなみに Beautiful Soup で要素を抜き出してくる処理にはFind系とSelect系があって、CSSセレクタを使って検索できるのはSelect系のみだった。 以下参考URL。

 上記で取得してきたデータをテキストファイルかなんかに書き出してやったらスクレイピング完了!というわけだ。
今回は非常に簡単な例をSeleniumなどを使わなかったので、ほかの題材の時に使って勉強してみたい、、、
以下ソースです。中身ぐちゃぐちゃで汚いけどすみません。それでは。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です