摘要: 本篇文章针对大家熟知的技术站点作为目标进行技术实践。 确定需求 访问目标网站并按照筛选条件(关键词、日期、作者)进行检索并获取返回数据中的目标数据。进行技术拆分如下: 打开目标网站 找到输入框元素输入关键词,找到日期元素设置日期,找到搜索按钮触发搜索动作 解析搜索返回的html元素构造目标数据 将目 阅读全文
posted @ 2020-07-21 14:50 戴箍的三佬 阅读(1792) 评论(0) 推荐(1)
摘要: 连接浏览器 上一篇说到了Puppeteer本质是使用了Chrome Devtools协议控制浏览器,本篇就说说连接方式。 常规Hook浏览器 此方式其实就是需要一个浏览器可执行文件(不同平台需要下载对应平台文件),Puppeteer有两种方式,一种是安装Puppeteer包时下载的文件,另一种是自己 阅读全文
posted @ 2020-04-09 22:33 戴箍的三佬 阅读(2532) 评论(0) 推荐(1)
摘要: Puppeteer 爬虫技术实践 信息简介 Puppeteer是Chrome开发团队发布的一个通过Chrome DevTool Protocol来控制浏览器Chrome(下文若无显式称呼Chromium,浏览器都同指Chromium吧,至于Chrome、Chromium的区别大家自行搜索吧)的一组基 阅读全文
posted @ 2020-04-07 22:22 戴箍的三佬 阅读(1132) 评论(1) 推荐(2)