随笔分类 -  Scrapy

摘要:from twisted.internet import defer from twisted.web.client import getPage from twisted.internet import reactor def download(*args,**kwargs): print(args,kwargs) def stop(*args,**kwargs): re... 阅读全文
posted @ 2018-07-21 22:38 benchdog 阅读(164) 评论(0) 推荐(0)
摘要:在spiders同级创建任意目录,如:commands 在其中创建 crawlall.py 文件 (此处文件名就是自定义的命令) 在settings.py 中添加配置 COMMANDS_MODULE = '项目名称.目录名称' 在项目目录执行命令:scrapy crawlall 阅读全文
posted @ 2018-07-21 22:36 benchdog 阅读(199) 评论(0) 推荐(0)
摘要:EXTENSIONS = { # 'scrapy.extensions.telnet.TelnetConsole': None, 'pro_scrapy.extensions.MyExtend': 300,} # -*- coding: utf-8 -*- # Scrapy settings for 阅读全文
posted @ 2018-07-21 19:09 benchdog 阅读(898) 评论(0) 推荐(0)
摘要:soup = BeautifulSoup(html_doc,features='lxml')tag1 = soup.find(name='a') #找到第一个a标签,返回一soup对象tag2 = soup.find_all(name='a') #找到所有a标签,返回一列表,列表中所有元素为soup对象tag3 = soup.select('#link2') #找到id=link2的标签n... 阅读全文
posted @ 2018-07-09 23:17 benchdog 阅读(262) 评论(0) 推荐(0)
摘要:1. requests pip3 install requests response = requests.get('http://www.autohome.com.cn/news/') response.text 总结: response = requests.get('URL') respons 阅读全文
posted @ 2018-07-08 22:18 benchdog 阅读(332) 评论(0) 推荐(0)
摘要:爬虫基本操作 1.应用 - 舆情系统:监听各大门户网站的热门词条、热门新闻,做进一步分析处理和展示 2.爬虫 - 定向 - 非定向 3. - 下载页面: http://www.autohome.com.cn/news/ - 筛选: 正则表达式 开源模块 1.requests pip3 install 阅读全文
posted @ 2018-07-08 14:58 benchdog 阅读(157) 评论(0) 推荐(0)