栗’s diary

Python勉強中。トレードに役立つようなTwitter bot開発中。暗号通貨の自動売買もやってみたい。

【読書メモ】Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-

 

 グーグル先生(とどり先生)のお力を借り、素人に毛の生えた程度にはスクレイピングが出来るようになり、取得した情報をbotでツイートすることができるようになったわけだが、ここでもう一段大人の階段を昇りたくこの本を購入した。(ちなみにKindle版。)

 

1章からいきなりWindowsユーザーは仮想マシンUbuntuを利用してね(ニコッ)ってきて私にはレベル髙すぎたかと思ったが、そこは何とか回避してもある程度OKな気がしている。(まだやってみてないのでわからないが。)

Pythonの基礎知識」なる項目も存在するがたぶんこれだけじゃわからないだろう。Pythonに関しての基礎知識は別途必要になるのでそれを習得しているのが前提。

最初に素人に毛の生えた程度と言ったが、そんな私が「そうだよね。うん、やったやった。」と頷いていたのが3章まで。4章「実用のためのメソッド」からは本格的な学びの時間。クローラー(クローリングとスクレイピングは違うんですよ!)作成にあたっての注意、エラー処理など直近気になっていたことが目白押し!5章は様々な実例。「これはやったことあるな」「そんな事も出来るのか。また使う機会あるかもな。」とか思いながら読み進める。

頭がついていかず、また使う時にきっちり読もうと流し読みになったのが6章から。Scrapyについて熱くその利便性を語られているんだが、今はまだそんな高度なことしようと思っていない私は「・・・」。

7章はサーバーで運用する話。これは検索結果 Google App Engine (GAE)を使って多少やっているんだけど、この本ではAmazon Web ServicesAWS)を使っての説明。また調べて試してみようかねって気にはさせられたが今の段階ではピンと来ず。並列処理の箇所だけは「これ使いこなしたい」ってなった。

 

というわけで、まだ理解できていない部分が多く残ってはいるが、Pythonによるクローリング・スクレイピングについて基礎的なところから高度なところまで網羅的に学べるのではないかと、素人に毛の生えた私が言ってみる。

ただ、実例コードがいくつも乗っているがそこから自分のしたいことに応用が出来るのか、そう簡単じゃない気がしてるがそこは適宜グーグル先生の力を借りながら右往左往するしかないのかなと。

とりあえず本見ながらやってみますわ。実践第一。プログラミングするために新しいPCも購入したので仮想マシンUbuntuもやってみますよ、えぇ。