上一页 1 ··· 40 41 42 43 44 45 46 47 48 ··· 54 下一页
摘要: 案例: 把某个字符串依据分隔符拆分,该字符包含不同的多种分隔符,如下 s = '12;;7.osjd;.jshdjdknx+' 其中 ; . + 是分隔符 有哪些解决方案? 方法1:通过str.split()方法,每次处理一个分隔符 方法2:通过re.split()方法,一次性拆分所有字符串,推荐 阅读全文
posted @ 2017-07-29 11:13 梦_鱼 阅读(14889) 评论(2) 推荐(0)
摘要: 案例: 如何解决? 1. 方法1:通过索引 方法2: 通过zip函数,同时迭代3个列表 2. 方法1: 通过 itertools中 chain方法 阅读全文
posted @ 2017-07-29 00:21 梦_鱼 阅读(3537) 评论(0) 推荐(0)
摘要: 案例: 对于某个文件,我只想读取到其中100~200行之间的内容,是否可以通过切片的方式进行读取? 我想: 可行? 如何解决这个问题? 方法1: 全部读取到内存中来 方法2: 把这个文件变成可迭代对象,通过 itertools 中 islice 方法 解决该问题的思路 阅读全文
posted @ 2017-07-28 11:17 梦_鱼 阅读(633) 评论(0) 推荐(0)
摘要: 案例: 实现一个连续的浮点数发生器,FloatRange,根据给定范围(start, end) 和步进值,产生一些列的浮点数,例如:FloatRange(3,4,0.2),将产生下列序列: 正向:3.0 3.2 …… 4.0 反向:4.0 3.8 …… 3.0 如何实现? 方法1:列表翻转 方法2: 阅读全文
posted @ 2017-07-28 10:22 梦_鱼 阅读(710) 评论(0) 推荐(0)
摘要: 如何通过twisted实现数据库异步插入? 1. 导入adbapi 2. 生成数据库连接池 3. 执行数据数据库插入操作 4. 打印错误信息,并排错 阅读全文
posted @ 2017-07-26 22:07 梦_鱼 阅读(3867) 评论(0) 推荐(0)
摘要: 如何实现对值进行预处理? 对于传递进items的值,首先明白有两个动作,进和出,那就可以分别对这两个动作进行逻辑处理 input_processor 进 处理 output_processor 出 处理 MapCompose 绑定处理函数 Join 进行拼接 TakeFirst 出,取列表第一个值 阅读全文
posted @ 2017-07-26 07:45 梦_鱼 阅读(1044) 评论(0) 推荐(0)
摘要: 什么是Itemloader? 一种容器,实现直白高效字段提取 直接赋值取值的方式,会出现一下几个问题 如何解决以上两个问题? 通过scrapy中的ItemLoader模块来处理 那如何使用呢? 1. 声明一个容器 2. 往容器中添加值 3. 加载容器 4. 把值传yield给 items 阅读全文
posted @ 2017-07-26 07:40 梦_鱼 阅读(652) 评论(0) 推荐(0)
摘要: 需要安装第三方库: 安装 pillow库 如何对图片进行自动下载? 首先明白,图片去哪下?图片如何下?保存到哪? setting: 如何获得图片的路径并保存? 在pipelines.py中定义一个处理图片的类,继承scrapy中处理的图片的类 阅读全文
posted @ 2017-07-26 07:38 梦_鱼 阅读(198) 评论(0) 推荐(0)
摘要: 为什么要items? 当数据量多的时候,没有统一的数据管理,统一格式化麻烦 items中除了能添加字段,还能做什么? 1. 进行预先处理 2. 对从items出去的数据进行处理 3. 写上sql语句逻辑 注意点: 对于通过itemloda进行解析的值存放在列表中,传递给items时候,会把列表中一个 阅读全文
posted @ 2017-07-26 07:27 梦_鱼 阅读(166) 评论(0) 推荐(0)
摘要: 如何对提取的URL进行限定? 往上找id和class属性值,进行多次层级选择,进行内容限定 如何实现获取主页所有urls,然后交给scrapy下载后并解析详情页面,返回结果?(文章简介页面和文章详细页面) 如何实现当前页面href的值为不完全域名,获得完整域名? 如何把主页面获取的值传给子页面的解析 阅读全文
posted @ 2017-07-26 07:25 梦_鱼 阅读(176) 评论(0) 推荐(0)
上一页 1 ··· 40 41 42 43 44 45 46 47 48 ··· 54 下一页