ボールを蹴りたいシステムエンジニア

ボール蹴りが大好きなシステムエンジニア、ボールを蹴る時間確保の為に時間がある時には勉強する。

scrapyのクロールしたURLを調べる

ログの出力形式はデフォルトの状態。

$ less scrapy.log  | grep "DEBUG: Crawled" | awk -F '[<>]' '{print $2}' | sort | uniq -c

同じURLを複数回クロールしてないか調べる為sortとuniqをしてみたけど、そんな事はしてなかった。
一度クロールしたURLはクロールしないよう内部的に処理がされてるのかも。