読者です 読者をやめる 読者になる 読者になる

ボールを蹴りたいシステムエンジニア

ボール蹴りが大好きなシステムエンジニア、ボールを蹴る時間確保の為に時間がある時には勉強する。

【Python3】PhontomJsを使ってCookieを登録してスクレイピング

PhontomJsを使ってCookieを登録してスクレイピングする。

環境

Windows10
cygwin
python3.4
phantomjs-2.1.1

プログラム抜粋

def scraping(url):
    log_name = "/tmp/phantomjs.log" #ログを出力しない場合はos.path.devnull
    userAgent = "Mozilla/5.0 (iPhone; CPU iPhone OS 7_1_2 like Mac OS X) AppleWebKit/537.51.2 (KHTML, like Gecko) Version/7.0 Mobile/11D257 Safari/9537.53"
    driver = webdriver.PhantomJS(
        desired_capabilities={
            'phantomjs.page.settings.userAgent': userAgent,
        },
        service_log_path=log_name
                                 )

    cookieList = [
    {
        "domain": ".hogehoge.com",
        "name": "test1",
        "path": "/",
        "value": "123"
    },
    {
        "domain": ".hogehoge.com",
        "name": "foo",
        "path": "/",
        "value": "abc"
    }
    ]
    for c in cookieList:
        driver.add_cookie(c)
    driver.get(url)
    html = driver.page_source
    soup = BeautifulSoup(html, "lxml")
    header = soup.find("head")
    title = header.find("title").text
    print(title)