随笔分类 - python爬虫
摘要:urllib库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib。在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个
阅读全文
摘要:马上端午节放假,又是抢票的时间,利用Python程序实现自动抢票。 Splinter是一个自动化测试网络应用的Python库。有了Splinter,就可以将打开浏览器、输入URL、填写表单、点击按钮等全部操作自动化。因此,我们需要引入这个库。通过pip install splinter来安装。 小技
阅读全文
摘要:1 import os 2 import requests 3 from urllib.parse import urlencode 4 from hashlib import md5 5 from multiprocessing.pool import Pool 6 7 GROUP_START = 1 8 GROUP_END = 5 9 10 def get_...
阅读全文
摘要:1.搜索关键词:利用Selenium驱动浏览器,得到商品列表。 2.分析页码并翻页:得到商品页码数,模拟翻页,得到后续页面的商品列表。 3.分析提取商品内容:利用PyQuery分析源码,解析得到商品列表。 4.存储到MongoDB:将商品列表信息存储到数据库MongoDB。 spider.py co
阅读全文
摘要:提取猫眼电影TOP100的电影名称、时间、评分、图片等信息,提取的站点URL为,提取的结果会以文件形式保存下来。
阅读全文

浙公网安备 33010602011771号