Scrapy - 随笔分类 - benchdog

Scrapy-Twisted源码解析

摘要：from twisted.internet import defer from twisted.web.client import getPage from twisted.internet import reactor def download(*args,**kwargs): print(args,kwargs) def stop(*args,**kwargs): re... 阅读全文

posted @ 2018-07-21 22:38 benchdog 阅读(164) 评论(0) 推荐(0)

Scrapy-自定制scrapy命令

摘要：在spiders同级创建任意目录，如：commands 在其中创建 crawlall.py 文件（此处文件名就是自定义的命令）在settings.py 中添加配置 COMMANDS_MODULE = '项目名称.目录名称' 在项目目录执行命令：scrapy crawlall 阅读全文

posted @ 2018-07-21 22:36 benchdog 阅读(201) 评论(0) 推荐(0)

Scrapy-拓展类和settings.py配置文件

摘要：EXTENSIONS = { # 'scrapy.extensions.telnet.TelnetConsole': None, 'pro_scrapy.extensions.MyExtend': 300,} # -*- coding: utf-8 -*- # Scrapy settings for 阅读全文

posted @ 2018-07-21 19:09 benchdog 阅读(902) 评论(0) 推荐(0)

Beautifulsoup-基础知识

摘要：soup = BeautifulSoup(html_doc,features='lxml')tag1 = soup.find(name='a') #找到第一个a标签，返回一soup对象tag2 = soup.find_all(name='a') #找到所有a标签，返回一列表，列表中所有元素为soup对象tag3 = soup.select('#link2') #找到id=link2的标签n... 阅读全文

posted @ 2018-07-09 23:17 benchdog 阅读(266) 评论(0) 推荐(0)

Scrapy-requests模块

摘要：1. requests pip3 install requests response = requests.get('http://www.autohome.com.cn/news/') response.text 总结: response = requests.get('URL') respons 阅读全文

posted @ 2018-07-08 22:18 benchdog 阅读(333) 评论(0) 推荐(0)

Scrapy-爬虫介绍

摘要：爬虫基本操作 1.应用 - 舆情系统：监听各大门户网站的热门词条、热门新闻，做进一步分析处理和展示 2.爬虫 - 定向 - 非定向 3. - 下载页面： http://www.autohome.com.cn/news/ - 筛选：正则表达式开源模块 1.requests pip3 install 阅读全文

posted @ 2018-07-08 14:58 benchdog 阅读(159) 评论(0) 推荐(0)

benchdog

随笔分类 - Scrapy

公告