摘要:
css选择器标准格式:reponse.css(css选择器::获取值) css选择器有哪些? * 选择所有节点 #id 选择id的节点 .container 选取所有class包含container的节点 li a 选取所有li元素下的所有a节点 ul + p 选取ul后面的第一个p元素 div#c 阅读全文
posted @ 2017-07-26 07:19
梦_鱼
阅读(327)
评论(0)
推荐(0)
摘要:
什么是xpath? xpth节点关系是什么? xpth语法 xpath-谓法 如何获取抓取节点的值? /text() 获得文本值 a['href'] 获取一个a节点的href属性值 xpath返回的对象可以继续xpath进行筛选 .extract() 返回data对应的数组值列表 对有多个属性的标签 阅读全文
posted @ 2017-07-26 07:16
梦_鱼
阅读(247)
评论(0)
推荐(0)
摘要:
如何创建scrapy项目? 输入命令: 在当前目录下创建名字叫project_name的scrapy项目 命令格式:scrapy startproject 项目名 如何启动官方提供的爬虫模版? 进入project_name这个项目目录下,输入命令 命令格式:“srapy genspider 爬虫模块 阅读全文
posted @ 2017-07-26 07:12
梦_鱼
阅读(514)
评论(0)
推荐(0)
摘要:
为什么需要网页URL设计? 每个url不同的结构代表着不同的网页模块和信息的展现形式,为了方便维护与管理 网页url怎么设计? 分层: 主域名,子域名 一般形式为: 主域名: www.job.com 子域名 head.job.com bolg.job.com 子子域名 head.job.com/ho 阅读全文
posted @ 2017-07-26 07:08
梦_鱼
阅读(249)
评论(0)
推荐(0)
摘要:
如何对url去重? 那,如何实现bloomfilter方式url去重? 阅读全文
posted @ 2017-07-26 07:07
梦_鱼
阅读(484)
评论(0)
推荐(0)
摘要:
scrapy vs requests+beautifulsoup 分布式爬虫使用技术有哪些? requests + scrapy 互联网有哪些类型网页? 静态网页 -- css, js, 动态页面 -- webservice(restapi) -- 动态填充 爬虫有哪些作用? 阅读全文
posted @ 2017-07-26 07:02
梦_鱼
阅读(743)
评论(0)
推荐(0)
摘要:
scrapy开发所具备的环境 IDE pycharm 数据库 mysql, redis 开发环境 python 3.5 阅读全文
posted @ 2017-07-26 06:58
梦_鱼
阅读(131)
评论(0)
推荐(0)
摘要:
如何快速安装第三方库? 通过python 豆瓣园源https://pypi.douban.com/simple/进行安装,利用国内网速 如何安装? pip -i install https://pypi.douban.com/simple/ 第三方库名字 阅读全文
posted @ 2017-07-26 06:56
梦_鱼
阅读(913)
评论(0)
推荐(0)