随笔分类 - Python爬虫
Python爬虫
摘要:为什么要用代理池? 许多网站有专门的反爬虫措施,可能遇到封IP等问题。 互联网上公开了大量免费的代理,利用好资源。 通过定时的检测维护同样可以得到多个可用的代理。 代理池要求 多站抓取,异步检测 定时筛选,持续更新 提供接口,易于读取 代理池架构
阅读全文
摘要:1.搜索关键字 利用Selenium驱动浏览器搜索关键字,得到查询后的商品列表 2.分析页码并翻页 得到商品页码数,模拟翻页,得到后续页面的商品列表 3.分析提取商品内容 利用PyQuery分析源码,解析得到商品列表 4.存储至MongoDB 将商品列表信息存储到数据库MongoDB 无法解决登录的
阅读全文
摘要:1.抓取索引页内容 利用requests请求目标站点,得到索引网页HTML代码,返回结果。 2.抓取详情页内容 解析返回结果,得到详情页的链接,并进一步抓取详情页的信息。 3.下载图片与保存数据库 将图片下载到本地,并把页面信息及图片URL保存到MongDB。 4.开启循环及多线程 对多页内容遍历,
阅读全文
摘要:流程框架 1. 抓取单页内容 利用requests请求目标站点,得到单个网页HTML代码,返回结果。 2. 正则表达式分析 根据HTML代码分析得到电影的名称、主演、上映时间、评分、图片链接等信息。 3. 保存至文件 通过文件的形式将结果保存,每一部电影一个结果一行Json字符串。 4. 开启循环及
阅读全文
摘要:自动化测试工具,支持多种浏览器。爬虫中主要用来解决JavaScript渲染的问题。 用法讲解 模拟百度搜索网站过程: 声明浏览器对象 访问页面 查找元素 单个元素 输出结果: 常用的一些方法: find_element_by_name find_element_by_xpath find_eleme
阅读全文
摘要:强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,如果你觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的最佳选择。 安装 pip3 install pyquery 用法讲解 字符串初始化 显示效果如下: URL初始化 直接输入网址,显示效果如下:
阅读全文
摘要:安装 pip3 install beautifulsoup4 解析库 | 解析器 | 使用方法 | 优势 | 劣势 | | |: :| :| :| | Python标准库 | BeautifulSoup(markup,'html,parser') | Python的内置标准库、执行速度适中、文档容错
阅读全文
摘要:非Python独有,re模块实现 re.match re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none. re.match(pattern,string,flags=0) 最常规的匹配 41 (0, 41) Hello 123 4567 W
阅读全文
摘要:Requests基于urllib,比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求。 实例引入 200 ] 各种请求方式 基本GET请求 { "args": {}, "headers": { "Accept": " / ", "Accept Encoding": "gzip,
阅读全文
摘要:Urllib库详解 Python内置的Http请求库: urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robots.txt解析模块 相比在python2基础上的变化 Python2 Py
阅读全文
摘要:原装requests >>> import requests >>> response = requests.get('http://www.baidu.com') >>> response.text 打印源代码 >>> res
阅读全文

浙公网安备 33010602011771号