無人運用 agent のためのブラウザ：chrome-use はどうやって自力でログインし、スライダー認証を通過するのか

無人むじん運用うんようの agent が動うごき始はじめると、最初さいしょの難所なんしょはほとんどがログインです。リモートで動うごき、定期ていき実行じっこうされるため、そばに验证码けんしょうコードを入力にゅうりょくしてくれる人ひとはいません。再利用さいりようできる、すでにログイン済ずみのブラウザもありません。できるのは自分じぶんだけです。ブラウザを開ひらき、アカウントとパスワードを入力にゅうりょくし、ログイン時じに出でてくるスライダーを通過つうかすることです。

普通ふつうの headless ブラウザは、この三みっつの関門かんもんをどれも越こえられません。最初さいしょから反はんクローリングに検出けんしゅつされるか、フォームを入力にゅうりょくしてスライダーを発火はっかさせたところで止とまってしまいます。chrome-use は「無人むじん運用うんようの agent が自分じぶんでログインを最後さいごまで進すすめられるようにする」ために作つくられています。この記事では、それがこの三みっつの関門かんもんをどう越こえるのか、そしてまだ解決かいけつできていない部分ぶぶんについて説明せつめいします。

三みっつの関門かんもん

本物ほんものの Chrome を駆動くどうして識別しきべつされない: CDP で本物ほんものの Chrome に接続せつぞくし、headless の指紋しもんを使つかいません。
自分じぶんで認証にんしょう情報じょうほうを入力にゅうりょくしてログインする: profile-use と連携れんけいし、パスワード庫こからアカウントとパスワードを取とり出だしてフォームに入力にゅうりょくします。
ログインのスライダーを通過つうかする: solve-slider が NetEase Yidun の欠かけたパズルを自動じどうで解ときます。

以下いかでは、後うしろの二ふたつの関門かんもんを取とり上あげます。これらは無人むじん運用うんようでもっとも止とまりやすい場所ばしょです。

一、認証にんしょう情報じょうほうの入力にゅうりょく: profile-use との連携れんけい

chrome-use はブラウザを開ひらき、入力にゅうりょく欄らんを特定とくていし、入力にゅうりょくし、送信そうしんします。認証にんしょう情報じょうほうをどこから取とるか、どう漏もらさないかは、profile-use という skill に任まかせます。

profile-use はアカウントとパスワードをパスワード庫こに置おきます（rbw、Bitwarden / 自前じまえの Vaultwarden と互換ごかん）。「入力にゅうりょくが必要ひつようなその瞬間しゅんかん」にだけ一度いちど読よみ出だし、JSON、ログ、スクリーンショット、チャット記録きろくには絶対ぜったいに書かき込こみません。低てい機密きみつの項目こうもく（ユーザー名めい、メール、携帯けいたい番号ばんごう）はそのまま入力にゅうりょくします。パスワードのような高こう機密きみつの項目こうもくは別べつに取とり出だし、使つかい終おわったら捨すてます。

実測じっそくでは、知乎のパスワードログインで、profile-use がドメイン zhuanlan.zhihu.com に基もとづいて庫こから携帯けいたい番号ばんごう + パスワードを取とり出だし、chrome-use が二ふたつの入力にゅうりょく欄らんに入力にゅうりょくしてログインをクリックしました。全ぜん過程かていでパスワードはメモリを一度いちど通とおるだけで、保存ほぞんされるのは「入力にゅうりょく済ずみ（脱だつ機密きみつ化か）」という一文いちぶんだけです。送信そうしんした瞬間しゅんかんに NetEase Yidun のスライダーが発火はっかし、ちょうど第二だいにの関門かんもんにつながりました。

2FA と passkey はどうするか

無人むじん運用うんようで二に段階だんかい認証にんしょうに当あたったら、一ひとつ覚おぼえておくべきです。標準ひょうじゅんの passkey ポップアップをクリックしに行いってはいけません。 そのような「Bitwarden / システムキーチェーン」から出でる選択せんたく画面がめんは、OS レベルのウィンドウであり、ウェブ要素ようそではありません。CDP はそこに届とどかず、chrome-use はクリックできません。進すすめる道みちは二ふたつあります。

CDP 仮想かそう認証器にんしょうき: Chrome の CDP には WebAuthn ドメインがあります。仮想かそう認証器にんしょうきを登録とうろくし、認証にんしょう情報じょうほうを事前じぜんに入いれておけば、passkey の手順てじゅんはブラウザ内部ないぶで自動じどう完了かんりょうし、標準ひょうじゅんウィンドウはそもそも出でません。これが passkey 自動化じどうかの正攻法せいこうほうです。
パスワード + TOTP に戻もどす: 多おおくのサイト（GitHub の sudo 二次にじ確認かくにんなど）は「パスワードを使つかう」入口いりぐちを残のこしています。それはウェブリンクなので、chrome-use がクリックできます。パスワードは profile-use に任まかせ、TOTP 認証にんしょうコードも rbw から出だせます。

二、スライダーを通過つうかする（NetEase Yidun）

フォームを入力にゅうりょくして送信そうしんすると、知乎のようなサイトでは NetEase Yidun の欠かけたパズルが出でます。人ひとがいなければ、この壁かべが処理しょりを完全かんぜんに止とめます。solve-slider（v1.5.34 から内蔵ないぞう）はこれを自力じりきで通過つうかします。

下したの図ずは、アルゴリズムが欠かけ部分ぶぶんを特定とくていした結果けっかです。緑みどりの枠わくはパズルピースの開始かいし位置いち、赤あかの枠わくは検出けんしゅつされた欠かけ部分ぶぶん、オレンジの矢印やじるしはドラッグすべき距離きょりです。赤あかの枠わくは背景はいけい画像がぞうのくぼみに重かさなっており、誤差ごさは 1 ピクセル以内いないです。

NetEase Yidun の欠け部分検出: 緑枠はパズルピースの開始位置、赤枠は検出された欠け部分、オレンジ矢印はドラッグ距離

Yidun 公式こうしき demo で、6 回かいすべて新規しんきロードし、毎回まいかい再生成さいせいせいされたパズルです。

load 1: SOLVED  attempts=1  err=-0.2px
load 2: SOLVED  attempts=1  err=-0.8px
load 3: SOLVED  attempts=1  err= 0.2px
load 4: SOLVED  attempts=1  err=-0.5px
load 5: SOLVED  attempts=1  err=-0.8px
load 6: SOLVED  attempts=1  err=-0.5px

6/6、すべて一回目いっかいめの試行しこうで成功せいこうし、着地点ちゃくちてんは目標もくひょうから 0.8 ピクセル以内いないでした。通過つうか後ご、Yidun のスライダーは緑みどりになり、チェックマークが付つきます。

検証通過: Yidun のスライダーが緑になりチェックマークが付く

三みっつの手順てじゅん

一、欠かけ部分ぶぶんがどこかを計算けいさんする。 Yidun は二ふたつの画像がぞうを渡わたします。くぼみのある背景はいけい画像がぞうと、透明とうめい背景はいけいのパズルピース PNG です。ドラッグすべきピクセル数すうは、欠かけ部分ぶぶんの X 座標ざひょうからパズルピースの開始かいし位置いちを引ひいたものです。よくある方法ほうほうはスクリーンショットを撮とって切きり抜ぬくことですが、写真しゃしんのテクスチャ（マスト、船ふね、山やま）が欠かけ部分ぶぶんと一緒いっしょに切きり出だされ、正確せいかくに測はかれません。chrome-use は別べつの道みちを使つかいます。Yidun 自身じしんの二ふたつの切片せっぺんを URL から直接ちょくせつダウンロードし、メモリ内ないで計算けいさんします。スクリーンショットは使つかわず、canvas のクロスオリジン汚染おせんもありません。アルゴリズムは、灰度かいど化か + Sobel の縦たて方向ほうこうエッジ + マスク正規化せいきか相互そうご相関そうかんです。純粋じゅんすいな Rust で書かかれており、opencv は入いれず、バイナリは単一たんいつファイルのままです。

二、人間にんげんらしくドラッグする。 ここは、ほとんどの突破とっぱが失敗しっぱいする場所ばしょです。Yidun はドラッグ先さきだけを見みているわけではありません。どうドラッグしたかも見みています。等速とうそく、直線ちょくせん、瞬間しゅんかん移動いどうは、見みれば機械きかいだと分わかります。chrome-use は humanize を使つかい、曲率きょくりつ、減速げんそく、揺ゆれ、速度そくど変化へんかを持もつ人間にんげんらしい軌跡きせきを生成せいせいしてドラッグします。6 回かいのドラッグで、Yidun の行動こうどう検証けんしょうには一度いちども止とめられませんでした。

三、閉へいループで補正ほせいする。 ハンドルをどれだけドラッグするとパズルがどれだけ動うごくか、その比率ひりつはサイトごと、描画びょうがモードごとに変かわる可能性かのうせいがあります。固定こていすると数すうピクセルずれやすくなります。そこで、一度いちどドラッグした後あとにパズルの実際じっさいの着地点ちゃくちてんを読よみ、差分さぶんを補おぎないます。1.5 ピクセル以内いないになるまで補正ほせいしてから手てを離はなします。比率ひりつやスケールを事前じぜん設定せっていする必要ひつようはなく、閉へいループが自分じぶんで収束しゅうそくします。知乎は popup モードを使つかっており、入場にゅうじょうアニメーションもありますが、この仕組しくみはそれにも対応たいおうしています。

正直しょうじきに言いうと、まだ終おわりではない

バックエンド指紋しもん: Yidun はサーバー側がわでアカウント履歴りれき、IP、タイミングも見みています。このドラッグが完璧かんぺきでも、アカウントや IP 自体じたいが機械きかいらしければ、失敗しっぱいと判定はんていされる可能性かのうせいがあります。これは実機じっきのエンドツーエンドでしか分わかりません。
強化きょうかスライダー: アイコン形状けいじょうのピース + 背景はいけい内ないの囮おとり図形ずけい、低ていコントラストの写真しゃしんです。現在げんざいの検出器けんしゅつきは囮おとりに引ひっ張ぱられることがあり、より安定あんていした方法ほうほうを作つくっています。
クリック選択せんたく型がた CAPTCHA: 指定していされた文字もじやアイコンを順番じゅんばんにクリックするものです。認識にんしき + 位置いち特定とくてい + 順番じゅんばんクリックが必要ひつようで、さらに難むずかしい関門かんもんです。これも作つくっています。

ただし、標準ひょうじゅんスライダーの関門かんもんはすでに越こえました。無人むじん運用うんようにとって、これは「ログインでそのまま止とまる」から「自分じぶんで先さきへ進すすめる」への一歩いっぽです。

使つかい方かた

$ bash

# インストール（npm なし、token なし）
curl -fsSL https://raw.githubusercontent.com/leeguooooo/chrome-use/main/install.sh | sh

chrome-use solve-slider      # 現在ページの Yidun スライダーを検出して自動で解く
chrome-use solve-slider 5    # 失敗時に最大 5 回リトライ（毎回更新して別のパズルにする）

profile-use と組くみ合あわせた完全かんぜんな無人むじん運用うんようログインは、profile-use がアカウントとパスワードを取得しゅとく → chrome-use がフォーム入力にゅうりょく → 送信そうしん → solve-slider がスライダーを通過つうか、という流ながれです。リポジトリは github.com/leeguooooo/chrome-use にあります。

# 無人運用 agent のためのブラウザ：chrome-use はどうやって自力でログインし、スライダー認証を通過するのか