ツール② Playwright — インストール・ブラウザ取得・動作確認

requestsで取得したHTMLに肝心のINPUT要素が一つも見つからず、しばらく原因がわからなかったことがあります。JavaScript描画後のDOMを扱う必要に気づいた時の話を踏まえて、Playwrightの使いどころを書きました。

なぜ Playwright が必要か

図1: Playwrightによる動的ページスクレイピングフロー

requests + BeautifulSoup は HTML を そのまま取得して解析する。しかし多くの現代的な Web アプリは、ページ読み込み後に JavaScript が実行されてフォームや INPUT 要素が動的に生成される。この場合 requests が取得するのは「JS 実行前の空の HTML」になり、INPUT 要素が見つからない。

📌 Playwright が解決すること

Playwright は実際のブラウザ（Chromium / Firefox / WebKit）を裏で起動し、JavaScript を実行した後の 完成した DOM を取得する。この「JS 実行後の HTML」を BeautifulSoup に渡すことで、動的生成の INPUT 要素も抽出できる。

pip でのインストール

Shell — pip インストール

# 仮想環境が有効な状態で実行
pip install playwright

⚠️ pip だけでは動かない

pip install playwright はライブラリ本体のインストールにすぎない。次のステップ「ブラウザバイナリのインストール」を必ず実行すること。

ブラウザバイナリのインストール

Playwright は Chromium・Firefox・WebKit の各ブラウザを自前で管理する。 playwright install コマンドで使用するブラウザをダウンロードする。

Shell — ブラウザのインストール

# Chromium だけインストール（最小構成・本シリーズ推奨）
playwright install chromium

# 全ブラウザをインストール（Firefox・WebKit も含む）
playwright install

# インストール済みブラウザを確認
playwright install --dry-run

chromium インストール時の出力例

Downloading Chromium 124.0.6367.29 (playwright build v1117)...
  131.0 Mb [====================] 100% 0.0s
Chromium 124.0.6367.29 (playwright build v1117) downloaded to:
  C:\Users\user\AppData\Local\ms-playwright\chromium-1117

OS 別の注意事項

OS	注意点	対処
Windows	通常は追加作業不要。ただしアンチウイルスがブラウザ起動をブロックすることがある。	一時的にアンチウイルスの除外設定に `ms-playwright` フォルダを追加。
macOS	Gatekeeper でブロックされる場合がある。	`playwright install` 後にシステム設定 → プライバシーとセキュリティで「許可」をクリック。
Linux（Ubuntu）	ヘッドレス Chromium の依存ライブラリが不足することがある。	`playwright install-deps chromium` を実行。内部的に `apt-get` で依存パッケージを自動インストールする（sudo 権限が必要）。
Linux（CI / Docker）	GUI が存在しないのでヘッドレスモードが必須。追加で `--no-sandbox` フラグが必要なことがある。	公式の `mcr.microsoft.com/playwright/python` Docker イメージを使うと依存関係が解決済みで楽。

Shell — Linux 依存パッケージインストール

# Ubuntu / Debian 系 Linux での依存ライブラリ一括インストール
sudo playwright install-deps chromium

動作確認コード

以下のスクリプトで「ブラウザが起動してページタイトルを取得できる」ところまで確認する。

Python — hello_playwright.py

from playwright.sync_api import sync_playwright

def main():
    with sync_playwright() as p:
        # Chromium をヘッドレスで起動
        browser = p.chromium.launch(headless=True)
        page = browser.new_page()

        # ページを開いて待機
        page.goto("https://example.com", wait_until="networkidle")

        # タイトルを取得
        print("タイトル:", page.title())

        # ページ全体の HTML を取得（BeautifulSoup に渡せる）
        html = page.content()
        print("HTML 先頭100文字:", html[:100])

        browser.close()

if __name__ == "__main__":
    main()

実行結果

タイトル: Example Domain
HTML 先頭100文字: <html><head><meta charset="utf-8"><title>Example Domain</title>...

✅ 非同期 API もある

Playwright には sync_playwright（同期）と async_playwright（非同期）の両方がある。本シリーズでは可読性を優先して同期 API を使う。

ヘッドレス vs ヘッドフル

ヘッドレス（headless=True）はブラウザウィンドウを表示しない。CI や本番運用で使う。 ヘッドフル（headless=False）は実際のブラウザ画面が開く。デバッグや動作確認に便利だ。

Python — ヘッドフルで起動（デバッグ用）

browser = p.chromium.launch(headless=False, slow_mo=500)
# slow_mo=500 は各操作の間隔を 500ms 遅らせる（目で追いやすくなる）

✅ 次の章では…

PART 05 では抽出対象となる INPUT 要素の種類・属性・Python の dataclass によるエンティティモデルの定義を解説します。

→ PART 05 — INPUT 要素の整理へ

Playwright活用でよくある誤り

Playwrightで動的WebページをスクレイピングするときにWait処理やブラウザ設定のミスで取得に失敗しやすいです。

誤り/失敗パターン	何が起きるか	正しい対処/防止策
page.goto()の直後に要素を取得してタイムアウトが発生する	JavaScript読み込みが完了する前にLocatorが実行されて要素が見つからない	page.wait_for_selector()またはLocatorのexpect_to_be_visible()でレンダリング完了を待ってから取得する
ヘッドレスモードでスクレイピングしてBotブロックにかかる	サイトのBot検出機能によりアクセスが403またはCAPTCHA画面になる	User-Agentや追加ヘッダーを実際のブラウザに近づけstealth設定を検討する
ブラウザインスタンスをwith文で管理せずにリークさせる	スクリプト終了後もChromiumプロセスが残りメモリ・プロセスが枯渇する	with sync_playwright() as p: 構文でブラウザを管理してclose()が確実に呼ばれるようにする

PART 04 — ツール② Playwright
インストール・ブラウザバイナリ取得・OS 別注意点・動作確認