落書き

ゴミ箱に入れてもいいようなこと

クローリングとスクレイピング

クローリングとスクレイピングについてのお話し。

そもそもPythonやるまでこの言葉聞いたことすらなかったんだけどね。

クローリングってのは、クローラっていうのを使ってインターネット上にあるWebサイトから必要な情報を収集してくることで、クローラっていうのが情報収集してくるやつ。
いわゆるbotとかって呼ばれてるらしいけどなるほどね。
GoogleとかBingとかもクローラになる。

スクレイピングは、クローリングで集めた情報をいい感じに処理していい感じにすること。
雑だねごめんね。

とりあえず実践。

まずはPython Package Index 略してPyPIからpipっていうコマンドをつかって、requestsっていうライブラリを持ってくるよ。

f:id:haku_qoo:20190713140003p:plain

 

ハイ成功。

じゃあ実際にWebサイトのデータ持ってくるね。

f:id:haku_qoo:20190713140122p:plain

200が返ってきてるってことは成功してるみたいだね。

じゃあ実際どんなデータが持ってこれたかっつーと

f:id:haku_qoo:20190713140319p:plain

まぁほしいものリストだね。

初めて知ったけど最後にAAはいってたんだ。

っつってもこれだけだとさっぱりピーマンなんでいったんHTMLファイルに出してみましょ。

f:id:haku_qoo:20190713141214p:plain

このwith構文ってのが本当に最強すぎて生きてるのが辛い。

close勝手にやってくれるのやさしくない?できる男って感じ。いや女の子のほうがいいな。

んで肝心の出力結果

f:id:haku_qoo:20190713141420p:plain

文字コードのせいで楽しげになってしまった。

f:id:haku_qoo:20190713141907p:plain

文字コード指定してーの。

f:id:haku_qoo:20190713141946p:plain

っちゅー分けできれいにもってこれました。

とりあえず今日はここまで。