梦_鱼 - 博客园

2017年7月26日

摘要：为什么要items？当数据量多的时候，没有统一的数据管理，统一格式化麻烦 items中除了能添加字段，还能做什么？ 1. 进行预先处理 2. 对从items出去的数据进行处理 3. 写上sql语句逻辑注意点：对于通过itemloda进行解析的值存放在列表中，传递给items时候，会把列表中一个阅读全文

posted @ 2017-07-26 07:27 梦_鱼阅读(168) 评论(0) 推荐(0)

scrapy_简介页面和详情页面

摘要：如何对提取的URL进行限定？往上找id和class属性值，进行多次层级选择，进行内容限定如何实现获取主页所有urls，然后交给scrapy下载后并解析详情页面，返回结果？(文章简介页面和文章详细页面) 如何实现当前页面href的值为不完全域名，获得完整域名？如何把主页面获取的值传给子页面的解析阅读全文

posted @ 2017-07-26 07:25 梦_鱼阅读(177) 评论(0) 推荐(0)

scrapy_css

摘要： css选择器标准格式：reponse.css(css选择器::获取值) css选择器有哪些？ * 选择所有节点 #id 选择id的节点 .container 选取所有class包含container的节点 li a 选取所有li元素下的所有a节点 ul + p 选取ul后面的第一个p元素 div#c 阅读全文

posted @ 2017-07-26 07:19 梦_鱼阅读(329) 评论(0) 推荐(0)

scrapy_xpath

摘要：什么是xpath？ xpth节点关系是什么？ xpth语法 xpath-谓法如何获取抓取节点的值？ /text() 获得文本值 a['href'] 获取一个a节点的href属性值 xpath返回的对象可以继续xpath进行筛选 .extract() 返回data对应的数组值列表对有多个属性的标签阅读全文

posted @ 2017-07-26 07:16 梦_鱼阅读(248) 评论(0) 推荐(0)

scrapy_创建_调试

摘要：如何创建scrapy项目？输入命令：在当前目录下创建名字叫project_name的scrapy项目命令格式：scrapy startproject 项目名如何启动官方提供的爬虫模版？进入project_name这个项目目录下，输入命令命令格式：“srapy genspider 爬虫模块阅读全文

posted @ 2017-07-26 07:12 梦_鱼阅读(518) 评论(0) 推荐(0)

爬虫_网页url设计

摘要：为什么需要网页URL设计？每个url不同的结构代表着不同的网页模块和信息的展现形式，为了方便维护与管理网页url怎么设计？分层：主域名，子域名一般形式为：主域名: www.job.com 子域名 head.job.com bolg.job.com 子子域名 head.job.com/ho 阅读全文

posted @ 2017-07-26 07:08 梦_鱼阅读(251) 评论(0) 推荐(0)

爬虫_url去重策略

摘要：如何对url去重？那，如何实现bloomfilter方式url去重？阅读全文

posted @ 2017-07-26 07:07 梦_鱼阅读(493) 评论(0) 推荐(0)

爬虫_能做什么？

摘要： scrapy vs requests+beautifulsoup 分布式爬虫使用技术有哪些？ requests + scrapy 互联网有哪些类型网页？静态网页 -- css, js, 动态页面 -- webservice(restapi) -- 动态填充爬虫有哪些作用？阅读全文

posted @ 2017-07-26 07:02 梦_鱼阅读(746) 评论(0) 推荐(0)

scrapy_开发环境

摘要： scrapy开发所具备的环境 IDE pycharm 数据库 mysql, redis 开发环境 python 3.5 阅读全文

posted @ 2017-07-26 06:58 梦_鱼阅读(134) 评论(0) 推荐(0)

Python_快速安装第三方库-pip

摘要：如何快速安装第三方库？通过python 豆瓣园源https://pypi.douban.com/simple/进行安装，利用国内网速如何安装？ pip -i install https://pypi.douban.com/simple/ 第三方库名字阅读全文

posted @ 2017-07-26 06:56 梦_鱼阅读(915) 评论(0) 推荐(0)

梦鱼

公告