読者です 読者をやめる 読者になる 読者になる

ボールを蹴りたいシステムエンジニア

ボール蹴りが大好きなシステムエンジニア、ボールを蹴る時間確保の為に時間がある時には勉強する。

scrapyのクロールしたURLを調べる

ログの出力形式はデフォルトの状態。 $ less scrapy.log | grep "DEBUG: Crawled" | awk -F '[<>]' '{print $2}' | sort | uniq -c同じURLを複数回クロールしてないか調べる為sortとuniqをしてみたけど、そんな事はしてなかった。 一度クロールしたURLはクロ…

scrapyで独自設定値を設定ファイルに追加して利用する

scrapyで独自設定値を設定ファイルに追加して利用する方法。setting.pyに追記 TESTKEY = HOGEHOGE こんな感じで利用 from scrapy.conf import settings ~~~ value = settings.get("TESTKEY") int型、boolean型、float型の指定も出来るみたい。 settings.g…

scrapyでcookieを設定してクロールする

spidersパッケージ内のクロール処理メインのモジュールで以下のようにmake_requests_from_urlを定義してその中でcookieセット処理を実装する事でログインが必要なサイトでもクロールできた。 class ExampleSpider(CrawlSpider): ~~~ def make_requests_fr…

Python製のクローラー「scrapy」の利用方法や初期設定など纏め

Python製のクローラーフレームワークscrapyを使用してクローラーを構築する。 目次 目次 環境 やりたい事 scrapyのインストール 手順 クローラプロジェクトの雛形作成 スパイダーの作成 起点URLを定義 アイテムクラスを実装 パース処理実装 Scrapy Shellによ…

python3でscrapyを使ってWEBクローラー実装

環境 Windows10(64bit) Python3.5 cygwin scrapy1.1 手順 cygwinで作業。 pip-windowsはwindowsのPythonのalias。scrapyをインストール $ pip-windows install scrapyプロジェクトの雛形作成 crawl_testというプロジェクトを作成する。 $ scrapy startprojec…