Python爬虫 - 随笔分类 - cicarius

用Flask+Redis维护代理池

摘要：为什么要用代理池？许多网站有专门的反爬虫措施，可能遇到封IP等问题。互联网上公开了大量免费的代理，利用好资源。通过定时的检测维护同样可以得到多个可用的代理。代理池要求多站抓取，异步检测定时筛选，持续更新提供接口，易于读取代理池架构阅读全文

posted @ 2018-12-11 11:43 cicarius 阅读(198) 评论(0) 推荐(0)

Python爬虫系列-Selenium+Chrome/PhantomJS爬取淘宝美食

摘要：1.搜索关键字利用Selenium驱动浏览器搜索关键字，得到查询后的商品列表 2.分析页码并翻页得到商品页码数，模拟翻页，得到后续页面的商品列表 3.分析提取商品内容利用PyQuery分析源码，解析得到商品列表 4.存储至MongoDB 将商品列表信息存储到数据库MongoDB 无法解决登录的阅读全文

posted @ 2018-12-10 21:38 cicarius 阅读(405) 评论(0) 推荐(0)

Python爬虫系列-分析Ajax请求并抓取今日头条街拍图片

摘要：1.抓取索引页内容利用requests请求目标站点，得到索引网页HTML代码，返回结果。 2.抓取详情页内容解析返回结果，得到详情页的链接，并进一步抓取详情页的信息。 3.下载图片与保存数据库将图片下载到本地，并把页面信息及图片URL保存到MongDB。 4.开启循环及多线程对多页内容遍历，阅读全文

posted @ 2018-12-10 17:40 cicarius 阅读(383) 评论(0) 推荐(0)

Requests+正则表达式爬取猫眼电影

摘要：流程框架 1. 抓取单页内容利用requests请求目标站点，得到单个网页HTML代码，返回结果。 2. 正则表达式分析根据HTML代码分析得到电影的名称、主演、上映时间、评分、图片链接等信息。 3. 保存至文件通过文件的形式将结果保存，每一部电影一个结果一行Json字符串。 4. 开启循环及阅读全文

posted @ 2018-12-05 15:19 cicarius 阅读(326) 评论(0) 推荐(0)

Python爬虫系列-Selenium详解

摘要：自动化测试工具，支持多种浏览器。爬虫中主要用来解决JavaScript渲染的问题。用法讲解模拟百度搜索网站过程：声明浏览器对象访问页面查找元素单个元素输出结果：常用的一些方法： find_element_by_name find_element_by_xpath find_eleme 阅读全文

posted @ 2018-12-03 17:17 cicarius 阅读(358) 评论(0) 推荐(0)

Python爬虫系列-PyQuery详解

摘要：强大又灵活的网页解析库。如果你觉得正则写起来太麻烦，如果你觉得BeautifulSoup语法太难记，如果你熟悉jQuery的语法，那么PyQuery就是你的最佳选择。安装 pip3 install pyquery 用法讲解字符串初始化显示效果如下： URL初始化直接输入网址，显示效果如下：阅读全文

posted @ 2018-12-03 13:21 cicarius 阅读(583) 评论(0) 推荐(0)

Python爬虫系列-BeautifulSoup详解

摘要：安装 pip3 install beautifulsoup4 解析库 | 解析器 | 使用方法 | 优势 | 劣势 | | |: :| :| :| | Python标准库 | BeautifulSoup(markup,'html,parser') | Python的内置标准库、执行速度适中、文档容错阅读全文

posted @ 2018-12-03 08:53 cicarius 阅读(497) 评论(0) 推荐(0)

Python正则表达式基础

摘要：非Python独有,re模块实现 re.match re.match尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none. re.match(pattern,string,flags=0) 最常规的匹配 41 (0, 41) Hello 123 4567 W 阅读全文

posted @ 2018-12-02 04:26 cicarius 阅读(234) 评论(0) 推荐(0)

Python爬虫系列-Requests库详解

摘要：Requests基于urllib，比urllib更加方便，可以节约我们大量的工作，完全满足HTTP测试需求。实例引入 200 ] 各种请求方式基本GET请求 { "args": {}, "headers": { "Accept": " / ", "Accept Encoding": "gzip, 阅读全文

posted @ 2018-11-28 03:14 cicarius 阅读(594) 评论(0) 推荐(0)

Python爬虫系列-Urllib库详解

摘要：Urllib库详解 Python内置的Http请求库: urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robots.txt解析模块相比在python2基础上的变化 Python2 Py 阅读全文

posted @ 2018-11-26 18:12 cicarius 阅读(551) 评论(0) 推荐(0)

python爬虫用到的一些东西

摘要：原装requests >>> import requests >>> response = requests.get('http://www.baidu.com') >>> response.text 打印源代码 >>> res 阅读全文

posted @ 2018-11-26 08:30 cicarius 阅读(216) 评论(0) 推荐(0)

cicarius

随笔分类 - Python爬虫

公告