文章目录
前言
近期因项目需要, 试着抓取几个网站的书籍信息
- 豆瓣
- 亚马逊
豆瓣
豆瓣反爬虫策略 web, 使用ip池, 每次可以拿到400+页面
豆瓣 APP
ChatGPT: https://chatgpt.com/share/69797f50-c014-8001-b62d-61d3b23f467d
直接安装 mitmproxy 证书, 无效, 豆瓣server 不信任证书 需要使用 Frida / Objection 绕过 Pinning Frida 做的事:“不管你怎么校验证书,我都帮你返回 true” Frida = 底座 Objection = 懒人模式
|
|
安卓模拟器: Android Studio more action, 仅使用模拟器, 不创建应用
pixel 5 Android 11 no google api
douban app 7.13.0 https://apkpure.com/cn/%E8%B1%86%E7%93%A3/com.douban.frodo/download/7.13.0
推送到模拟器
|
|
adb root 模式下
|
|
下载 frida-server (17.4.4) 17.6 会出现 abort
|
|
|
|
mitmproxy
运行 mitmweb
设置代理: adb shell settings put global http_proxy 192.168.1.250:8080
从 mitmproxy 中分析请求参数和返回信息, 构建python脚本
亚马逊
亚马逊反爬虫策略 使用 playwrite, 一次抓取 100+ 没什么问题
运行在树莓派中
|
|
树莓派3 功耗, 中等负载 3.5–4.5 W, 一晚上, 5 W × 8 h = 40 Wh = 0.04 度电(kWh), 0.04 × 0.5(昆明电价) ≈ 0.02 元, 2分钱
文章作者 种瓜
上次更新 0001-01-01