scrapyのクロールしたURLを調べる
ログの出力形式はデフォルトの状態。
$ less scrapy.log | grep "DEBUG: Crawled" | awk -F '[<>]' '{print $2}' | sort | uniq -c
同じURLを複数回クロールしてないか調べる為sortとuniqをしてみたけど、そんな事はしてなかった。
一度クロールしたURLはクロールしないよう内部的に処理がされてるのかも。
ログの出力形式はデフォルトの状態。
$ less scrapy.log | grep "DEBUG: Crawled" | awk -F '[<>]' '{print $2}' | sort | uniq -c
同じURLを複数回クロールしてないか調べる為sortとuniqをしてみたけど、そんな事はしてなかった。
一度クロールしたURLはクロールしないよう内部的に処理がされてるのかも。