爬虫 - 随笔分类 - cuzz_z

BeautifulSoup 抓取网站url

摘要：1 # -*- coding:utf-8 -*- 2 import urlparse 3 import urllib2 4 from bs4 import BeautifulSoup 5 6 url = "http://www.baidu.com" 7 8 urls = [url] # stack of urls to scrape 9 visited =... 阅读全文

posted @ 2017-10-08 15:43 cuzz_z 阅读(825) 评论(0) 推荐(0)

爬取豆瓣电影储存到数据库MONGDB中以及反反爬虫

摘要：1.代码如下： doubanmoive.py items.py 2.在管道文件中更改储存位置 3.新建中间件 middlewares.py 进行反反爬虫 4.setting的设置阅读全文

posted @ 2017-10-06 19:17 cuzz_z 阅读(1073) 评论(0) 推荐(0)

爬取二重网页

摘要：1.用 scrapy 新建一个 sun0769 项目 scrapy startproject sun0769 2.在 items.py 中确定要爬去的内容 3.快速创建 CrawlSpider模板 scrapy genspider -t crawl dongguan wz.sun0769.com 注阅读全文

posted @ 2017-10-06 00:10 cuzz_z 阅读(211) 评论(0) 推荐(0)

CrawlSpiders

摘要：1.用 scrapy 新建一个 tencent 项目 2.在 items.py 中确定要爬去的内容 3.快速创建 CrawlSpider模板 scrapy genspider -t crawl tencent_spider tencent.com 注意此时中的名称不能与项目名相同 4.打开tenc 阅读全文

posted @ 2017-10-05 13:39 cuzz_z 阅读(266) 评论(1) 推荐(0)

Tencent社会招聘scrapy爬虫 --- 已经解决

摘要：1.用 scrapy 新建一个 tencent 项目 2.在 items.py 中确定要爬去的内容 1 # -*- coding: utf-8 -*- 2 3 # Define here the models for your scraped items 4 # 5 # See documentat 阅读全文

posted @ 2017-10-03 16:17 cuzz_z 阅读(863) 评论(0) 推荐(0)

关于scrapy的piplines

摘要：1.进入setting中把ITEM_piplines文件注销去掉 2.在piplines中写好代码 3.注意在主文件中不用return, 用yield. 阅读全文

posted @ 2017-10-03 15:02 cuzz_z 阅读(1067) 评论(0) 推荐(0)

pycharm运行scrapy

摘要：1.打开pycharm, 点击File>Open找到mySpider项目导入 . 2.打开File>Settings>Project 点击Project Interpreter 右边有个Scrapy, 选中确定. 3.在spiders文件下新建一个启动文件,我命名为start.py 4.选择conf 阅读全文

posted @ 2017-10-03 13:48 cuzz_z 阅读(4767) 评论(0) 推荐(0)

cuzz

随笔分类 - 爬虫

公告