python爬虫 - 随笔分类(第4页) - 王琳杰

python爬虫基础

摘要：urllib库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib。在Python 2中，有urllib和urllib2两个库来实现请求的发送。而在Python 3中，已经不存在urllib2这个阅读全文

posted @ 2018-06-14 00:18 王琳杰阅读(229) 评论(0) 推荐(0)

python自动抢票

摘要：马上端午节放假，又是抢票的时间，利用Python程序实现自动抢票。 Splinter是一个自动化测试网络应用的Python库。有了Splinter，就可以将打开浏览器、输入URL、填写表单、点击按钮等全部操作自动化。因此，我们需要引入这个库。通过pip install splinter来安装。小技阅读全文

posted @ 2018-06-13 22:08 王琳杰阅读(367) 评论(0) 推荐(0)

分析Ajax爬取今日头条街拍美图

摘要：1 import os 2 import requests 3 from urllib.parse import urlencode 4 from hashlib import md5 5 from multiprocessing.pool import Pool 6 7 GROUP_START = 1 8 GROUP_END = 5 9 10 def get_... 阅读全文

posted @ 2018-06-01 19:50 王琳杰阅读(275) 评论(0) 推荐(0)

使用Selenium模拟浏览器抓取淘宝商品美食信息

摘要：1.搜索关键词：利用Selenium驱动浏览器，得到商品列表。 2.分析页码并翻页：得到商品页码数，模拟翻页，得到后续页面的商品列表。 3.分析提取商品内容：利用PyQuery分析源码，解析得到商品列表。 4.存储到MongoDB：将商品列表信息存储到数据库MongoDB。 spider.py co 阅读全文

posted @ 2018-06-01 00:21 王琳杰阅读(417) 评论(0) 推荐(0)

抓取猫眼电影排行

摘要：提取猫眼电影TOP100的电影名称、时间、评分、图片等信息，提取的站点URL为，提取的结果会以文件形式保存下来。阅读全文

posted @ 2018-05-30 19:26 王琳杰阅读(275) 评论(0) 推荐(0)

一蓑烟雨

随笔分类 - python爬虫

公告