随笔分类 -  爬虫学习

摘要:1、流程框架 2、在命令行中输入scrapy,会有scrapy常见命令参数 在命令中输入scrapy startproject quote创建一个叫quote的项目 cd到创建好的项目目录中,然后执行scrapy genspider quotes quotes.toscrape.com,创建spid 阅读全文
posted @ 2018-06-28 12:02 飞奔的小水牛 阅读(226) 评论(0) 推荐(0)
摘要:#! /usr/bin/env python # coding: utf-8 import requests import os from hashlib import md5 from multiprocessing.pool import Pool headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X... 阅读全文
posted @ 2018-06-06 23:41 飞奔的小水牛 阅读(334) 评论(0) 推荐(0)
摘要:参考链接:https://www.jianshu.com/p/7041a7ba7fe0 阅读全文
posted @ 2018-06-04 16:50 飞奔的小水牛 阅读(240) 评论(0) 推荐(0)
摘要:#! /usr/bin/env python # coding: utf-8 #环境要求:python3 #抓取猫眼电影top100 ''' 抓取的目标网站为:http://maoyan.com/board/4 页面中显示的有效信息有影片名称、主演、上映时间、上映地区、评分、图片等信息 点击下一页发现url会变成http://maoyan.com/board/4?offset=30,主要增加了o... 阅读全文
posted @ 2018-06-01 17:00 飞奔的小水牛 阅读(253) 评论(0) 推荐(0)
摘要:转载:https://www.jianshu.com/p/cfbdacbeac6e 阅读全文
posted @ 2018-05-30 17:06 飞奔的小水牛 阅读(114) 评论(0) 推荐(0)
摘要:环境要求:python3+以上版本 一、Selenium(转载:https://cuiqingcai.com/5141.html) Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。下面 阅读全文
posted @ 2018-05-25 23:50 飞奔的小水牛 阅读(220) 评论(0) 推荐(0)