クローリングとスクレイピング
クローリングとスクレイピングについてのお話し。
そもそもPythonやるまでこの言葉聞いたことすらなかったんだけどね。
クローリングってのは、クローラっていうのを使ってインターネット上にあるWebサイトから必要な情報を収集してくることで、クローラっていうのが情報収集してくるやつ。
いわゆるbotとかって呼ばれてるらしいけどなるほどね。
GoogleとかBingとかもクローラになる。
スクレイピングは、クローリングで集めた情報をいい感じに処理していい感じにすること。
雑だねごめんね。
とりあえず実践。
まずはPython Package Index 略してPyPIからpipっていうコマンドをつかって、requestsっていうライブラリを持ってくるよ。
ハイ成功。
じゃあ実際にWebサイトのデータ持ってくるね。
200が返ってきてるってことは成功してるみたいだね。
じゃあ実際どんなデータが持ってこれたかっつーと
まぁほしいものリストだね。
初めて知ったけど最後にAAはいってたんだ。
っつってもこれだけだとさっぱりピーマンなんでいったんHTMLファイルに出してみましょ。
このwith構文ってのが本当に最強すぎて生きてるのが辛い。
close勝手にやってくれるのやさしくない?できる男って感じ。いや女の子のほうがいいな。
んで肝心の出力結果
文字コードのせいで楽しげになってしまった。
文字コード指定してーの。
っちゅー分けできれいにもってこれました。
とりあえず今日はここまで。