python - 随笔分类 - 若鸟

python基础一 ------排序和查找算法

摘要：插入排序; 假设数组长度为n,先从第二个元素开始，与前一个元素比较，之后将较小的元素放在前面,现在前两个元素是有顺序的，这时取第三个元素，与前一个元素(也就是第二个)比较，较小的放在前面因为前面两个元素顺序已经排好，再将这个新进入到前面的较小元素与前面排好顺序的元素依次比较，直到找到合适位置插入阅读全文

posted @ 2017-06-06 21:11 若鸟阅读(588) 评论(0) 推荐(0)

Scrapy基础(十四)————Scrapy实现知乎模拟登陆

摘要：模拟登陆大体思路见此博文，本篇文章只是将登陆在scrapy中实现而已之前介绍过通过requests的session 会话模拟登陆；必须是session,涉及到验证码和xsrf的写入cookie验证的问题；在scrapy中不需担心此问题，因为Request会保证这是一个会话，并且自动传递cookie 阅读全文

posted @ 2017-06-05 21:18 若鸟阅读(349) 评论(0) 推荐(0)

Scrapy基础(十四)————知乎模拟登陆

摘要：#-*-coding:utf-8 -*-__author__ = "ruoniao"__date__ = "2017/5/31 20:59" 之前我们通过爬取伯乐在线的文章,伯乐在线对爬取没有什么限制，这次爬取知乎，就有了爬取限制，首先就是登录限制；为破解限制，首先就是模拟登录模拟登陆首先要明白的阅读全文

posted @ 2017-06-02 21:23 若鸟阅读(414) 评论(0) 推荐(0)

Scrapy基础(十三)————ItemLoader的简单使用

摘要：ItemLoader的简单使用：目的是解决在爬虫文件中代码结构杂乱，无序，可读性差的缺点经过之前的基础，我们可以爬取一些不用登录，没有Ajax的，等等其他的简单的爬虫回顾我们的代码，是不是有点冗长，将所需字段通过xpath或者css解析出来，再自定义语句(还不是函数中)进行清洗;然后再装入Item 阅读全文

posted @ 2017-05-31 20:35 若鸟阅读(3184) 评论(0) 推荐(0)

Scrapy基础(十二)————异步导出Item数据到Mysql中

摘要：异步导出数据到Mysql中上次说过从Item中同步写入数据库，因为网络的下载速度和数据库的I/O速度是不一样的所以有可能会发生下载快，但是写入数据库速度慢，造成线程的堵塞；关于堵塞和非堵塞，同步和异步的关系，因为没接触过，所以也不是很好的理解，这里查看了些资料，已做记录链接1：https://w 阅读全文

posted @ 2017-05-25 22:51 若鸟阅读(3246) 评论(0) 推荐(1)

Scrapy基础(十一)————导出数据到json文件中

摘要：之前介绍过将数据写入mysql数据库中，但是对于那些没有数据库的，可以通过写入json文件中或者是写入到csv或者xls；这里只介绍写入json文件中，也为再练习一下自定义的pipeline 思路： 1，写入数据库中，从数据库中可以以各种形式导出 2，自定义pipeline,注册在setting中阅读全文

posted @ 2017-05-24 20:36 若鸟阅读(3018) 评论(0) 推荐(0)

Scrapy基础(十)———同步机制将Item中的数据写在Mysql

摘要：前面讲解到将Item中的所有字段都已经填写完成，那么接下来就是将他们存储到mysql数据库中,那就用到了pipeline项目管道了；对项目管道的理解:做一个比喻，爬取好比是开采石油，Item装的都是原油，需要通过一系列的管道和工艺进行提炼,而这些原油都是通过pipeline进行加工的，才能真正的到阅读全文

posted @ 2017-05-24 19:24 若鸟阅读(1795) 评论(0) 推荐(0)

Scrapy基础(九)————将不定长度的URL进行固定长度写入Item中

摘要：前面讲到将每篇文章的URL写入Item,但是每个url的长度是不同的，可以在Item中设置一个字段怎样使得每个URL的长度相同，这就需要对每个URL进行md5运算，使得长度统一，再加入到设定的Item字段中从项目的根目录下新建一个文件夹，把所有能用到的自定义方法写入，，命名为util并从util下阅读全文

posted @ 2017-05-23 14:39 若鸟阅读(646) 评论(0) 推荐(0)

Scrapy基础(八)————图片下载后将本地路径添加到Item中

摘要：前边讲到简单的图片下载，但是怎样将图片的本地路径和存储在Item中的数据对应起来，所以本篇博文讲解到如何将本地的下载后的图片路径写入到Item中思路：自定义pipline，多加个管道，该管道继承下载图片的类，并重写与Item 交互的方法，从众提取到本地路径，并返回这个Item交给下一个pipli 阅读全文

posted @ 2017-05-22 20:42 若鸟阅读(494) 评论(0) 推荐(0)

Scrapy基础(七)————图片的简单下载

摘要：scrapy 提供了自动下载图片到本地的功能，通过项目管道设置一：在setting 文件中ITEM_PIPELINE添加: 'scrapy.pipelines.images.ImagesPipeline':1 1为处理顺序，顺序越小，越先处理；二：继续在setting中添加图片URL地址获取阅读全文

posted @ 2017-05-22 20:01 若鸟阅读(349) 评论(0) 推荐(0)

python基础一 ------linux某目录下批量的为特定文件加入可执行权限

摘要：需求：一个文件夹中有个文件,要求对特定的文件加入可执行权限某文件系统目录下有一系列文件： quicksort graph.py heap.java install.sh stack.cpp .....编写程序对所有的.sh文件和.py文件加上用户可执行权限解决方法: 使用字符串的str.sta 阅读全文

posted @ 2017-05-22 17:21 若鸟阅读(2846) 评论(0) 推荐(0)

Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段

摘要：上次我们介绍了scrapy的安装和加入debug的main文件，这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫，并且生成了jobbole.py这个文件，又写了xpath和css的基本用法的博文首先分析网页的结构和抓取流程： 1,下载start_urls，阅读全文

posted @ 2017-05-19 15:37 若鸟阅读(2560) 评论(0) 推荐(0)

Scrapy基础(五) ------css选择器基础

摘要：基本语法： * 选择所有节点#container 选择id为container的节点.container 选择所有class包含container的节点li a 选取所有li 下所有a节点ul + p 选取ul后面的第一个p元素div#container > ul 选取id为container的di 阅读全文

posted @ 2017-05-18 19:39 若鸟阅读(6401) 评论(0) 推荐(1)

python基础一 ------字符串的多种分隔符分隔

摘要：#-*-coding:utf-8-*-''' 字符串的切割当需要的分隔符是一个是： s.split("分隔符") 当分隔符是多个时： s = "abcd,1313|;gg2*hhh" 方法一：将多个分隔符每个每个的拆开分隔方法二：通过re模块的split()方法'''#方法一 #方法二：阅读全文

posted @ 2017-05-17 20:01 若鸟阅读(23679) 评论(0) 推荐(0)

Scrapy基础(四)————Scrapy的使用Pycharm进行Debuge设置

摘要：好比Django的Debuge 与前端进行交互时的方便，但是Scrapy 不自带，所以我们写一个main文件来debuge 作用：通过cmd 命令启动爬虫阅读全文

posted @ 2017-05-15 21:23 若鸟阅读(2060) 评论(0) 推荐(0)

Scrapy基础(三) ------xpath基础

摘要：xpath简介 1,使用路径表达式在xml和html中解析 2,包含标准函数路（所有库支持的xpath语法一致） 3,W3C标准节点: 基本语法：举例元素标签为artical标签一： artical 选取所有artical元素的子节点 /artical 选取根元素artical artical 阅读全文

posted @ 2017-05-15 21:12 若鸟阅读(571) 评论(0) 推荐(0)

Scrapy基础（二）————Scrapy的安装和目录结构

摘要：Scrapy安装： 1,首先进入虚拟环境 2,使用国内豆瓣源进行安装，快！ 3,特殊情况出错：缺少c++,解决办法：自己安装了个vs2015 基本命令：创建工程：在这里只能通过命令行：pycharm 没有加载scrapy,与Django 不一样命令： #注意：cd 到所需创建工程的目录下 sc 阅读全文

posted @ 2017-05-14 21:26 若鸟阅读(3631) 评论(0) 推荐(1)

python基础一 ------Python 的编码

摘要：首先了解一下历史，但是本篇文章冗杂，如老太太裹脚布又臭又长编码历史： 1. 计算机只能处理数字，文本文件只有转换为数字才能处理。8bit==1字节所以一个字节能表示的最大的数就是255 2. 美国人发明计算机。用英语，所有一个字节就表示了所有字符就是ASCII(一个字节) 编码就是美国人的阅读全文

posted @ 2017-05-14 11:00 若鸟阅读(403) 评论(0) 推荐(0)

Scrapy基础（一） ------学习Scrapy之前所要了解的

摘要：技术选型： Scrapy vs requsts+beautifulsoup 1,reqests,beautifulsoup都是库，Scrapy是框架 2,Scrapy中可以加入requests beautifulsoup 3,Scrapy基于twisted，异步IO框架，性能最大的优势 4,Scra 阅读全文

posted @ 2017-05-13 17:01 若鸟阅读(499) 评论(0) 推荐(0)

python基础一 ------可迭代类型的连接

摘要：对可迭代迭代进行连接,返回一个可迭代对象两种方式：并行连接 zip() 串行连接 itertools.chain 运行截图：阅读全文

posted @ 2017-05-13 11:21 若鸟阅读(1003) 评论(0) 推荐(0)

若鸟

随笔分类 - python

公告