上一页 1 ··· 41 42 43 44 45 46 47 48 49 ··· 54 下一页
摘要: css选择器标准格式:reponse.css(css选择器::获取值) css选择器有哪些? * 选择所有节点 #id 选择id的节点 .container 选取所有class包含container的节点 li a 选取所有li元素下的所有a节点 ul + p 选取ul后面的第一个p元素 div#c 阅读全文
posted @ 2017-07-26 07:19 梦_鱼 阅读(327) 评论(0) 推荐(0)
摘要: 什么是xpath? xpth节点关系是什么? xpth语法 xpath-谓法 如何获取抓取节点的值? /text() 获得文本值 a['href'] 获取一个a节点的href属性值 xpath返回的对象可以继续xpath进行筛选 .extract() 返回data对应的数组值列表 对有多个属性的标签 阅读全文
posted @ 2017-07-26 07:16 梦_鱼 阅读(247) 评论(0) 推荐(0)
摘要: 如何创建scrapy项目? 输入命令: 在当前目录下创建名字叫project_name的scrapy项目 命令格式:scrapy startproject 项目名 如何启动官方提供的爬虫模版? 进入project_name这个项目目录下,输入命令 命令格式:“srapy genspider 爬虫模块 阅读全文
posted @ 2017-07-26 07:12 梦_鱼 阅读(514) 评论(0) 推荐(0)
摘要: 为什么需要网页URL设计? 每个url不同的结构代表着不同的网页模块和信息的展现形式,为了方便维护与管理 网页url怎么设计? 分层: 主域名,子域名 一般形式为: 主域名: www.job.com 子域名 head.job.com bolg.job.com 子子域名 head.job.com/ho 阅读全文
posted @ 2017-07-26 07:08 梦_鱼 阅读(249) 评论(0) 推荐(0)
摘要: 如何对url去重? 那,如何实现bloomfilter方式url去重? 阅读全文
posted @ 2017-07-26 07:07 梦_鱼 阅读(484) 评论(0) 推荐(0)
摘要: scrapy vs requests+beautifulsoup 分布式爬虫使用技术有哪些? requests + scrapy 互联网有哪些类型网页? 静态网页 -- css, js, 动态页面 -- webservice(restapi) -- 动态填充 爬虫有哪些作用? 阅读全文
posted @ 2017-07-26 07:02 梦_鱼 阅读(743) 评论(0) 推荐(0)
摘要: scrapy开发所具备的环境 IDE pycharm 数据库 mysql, redis 开发环境 python 3.5 阅读全文
posted @ 2017-07-26 06:58 梦_鱼 阅读(131) 评论(0) 推荐(0)
摘要: 如何快速安装第三方库? 通过python 豆瓣园源https://pypi.douban.com/simple/进行安装,利用国内网速 如何安装? pip -i install https://pypi.douban.com/simple/ 第三方库名字 阅读全文
posted @ 2017-07-26 06:56 梦_鱼 阅读(913) 评论(0) 推荐(0)
摘要: 场景实例: 西班牙足球联赛,每轮球员进球统计: 第一轮:{’1’:1,‘2’:4,‘5’:2,‘7’:3} 第一轮:{’2’:1,‘5’:4,‘6’:2,‘3’:3} 第一轮:{’1’:1,‘4’:4,‘6’:2,‘7’:3} …… 问题:统计前N轮,都进球的球员? 如何解决这个问题呢? 方法1: 阅读全文
posted @ 2017-07-25 22:45 梦_鱼 阅读(344) 评论(0) 推荐(0)
摘要: 案例: 某班英语成绩以字典的形式存储为: {‘lili’:78, ‘jin’:50, ‘liming’: 30, ......} 依据成绩高低,进行学生成绩排名 如何对字典排序? 方法1: 方法2: 按key排序 按value排序 先把字典变成列表中元组形式,然后通过sorted函数,lambda迭 阅读全文
posted @ 2017-07-25 21:58 梦_鱼 阅读(403) 评论(0) 推荐(0)
上一页 1 ··· 41 42 43 44 45 46 47 48 49 ··· 54 下一页