pyspider - 随笔分类 - 大明湖畔的守望者

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 1: ordinal not in range(128)

摘要：对于写python的人来说，这个异常一点不陌生，只要涉及到中文字符串的操作，一不小心就会出错。关于这个问题的解释，找到一篇好文，分享一下。原文地址：https://blog.csdn.net/u011350541/article/details/78683682 在解决错误之前，首先要了解unic 阅读全文

posted @ 2018-05-09 11:30 大明湖畔的守望者阅读(1289) 评论(0) 推荐(0)

pyspider爬一批文章保存到word中

摘要：最近一直在爬新闻，对于新闻爬取的套路还是比较熟悉的。一个群友发布了一个爬文章入word的任务，我果断接单，自我挑战一下，更何况完成任务还有赏金，哈哈。任务大概是这样的，有一个文章列表【http://www.shui5.cn/article/Bulletin/】，大约7W的量，每篇文章保存到一个wo 阅读全文

posted @ 2018-04-18 10:57 大明湖畔的守望者阅读(624) 评论(0) 推荐(0)

python对word的操作

摘要：from docx import Document from docx.shared import Inches document = Document() document.add_heading('Document Title', 0) p = document.add_paragraph('A plain paragraph having some ') p.add_run('bol... 阅读全文

posted @ 2018-04-17 17:43 大明湖畔的守望者阅读(243) 评论(0) 推荐(0)

pyspider安装完启动报错【connect to scheduler rpc error: error(111, 'Connection refused')】

摘要：调研爬虫框架pyspider有一段时间了，感觉已经比较成熟，跟老板申请了一台机器，打算搭一套正式环境。然而在熟悉的安装步骤过后，启动画面却是这样的：虽然心中有疑惑，但还是熟练的百度起来。一番搜索之后，大概有了方向，可能是schedule的数据链接的问题，解决方案是把pyspider的默认消息队列改阅读全文

posted @ 2018-03-08 16:58 大明湖畔的守望者阅读(1207) 评论(2) 推荐(1)

centos下安装pip-python

摘要：pyspider需要通过pip工具安装首先检查linux有没有安装python-pip包，直接执行 yum install python-pip 没有python-pip包就执行命令 yum -y install epel-release 执行成功之后，再次执行yum install python 阅读全文

posted @ 2018-01-10 15:39 大明湖畔的守望者阅读(199) 评论(0) 推荐(0)

Pyspider抓取静态页面

摘要：近期，我想爬一批新闻资讯的内容。新闻类型的网址很多，我想看看有没有一个网页上能包罗尽可能多的新闻网站呢，于是就发现了下面这个网页 http://news.hao123.com/wangzhi 这个页面的下边还有地方新闻的分类 1、爬取目标按类型分的网址列表按地方分的网址列表 2、按类型运行结果阅读全文

posted @ 2018-01-03 13:37 大明湖畔的守望者阅读(283) 评论(0) 推荐(0)

Python中__init__()方法注意点

摘要：此文转自https://www.cnblogs.com/zyxstar2003/archive/2011/03/21/1989954.html 1、__init__并不相当于C#中的构造函数，执行它的时候，实例已构造出来了当我们执行时，可以理解为即__init__作用是初始化已实例化后的对象。阅读全文

posted @ 2018-01-03 08:41 大明湖畔的守望者阅读(7474) 评论(0) 推荐(0)

2、Pyspider使用入门

摘要：1、接上一篇，在webui页面，点击右侧【Create】按钮，创建爬虫任务 2、输入【Project Name】，【Start Urls】为爬取的起始地址，可以先不输入，点击【Create】进入： 3、进入爬取操作的页面整个页面分为两栏，左边是爬取页面预览区域，右边是代码编写区域。下面对区块进行说阅读全文

posted @ 2018-01-02 17:15 大明湖畔的守望者阅读(588) 评论(0) 推荐(0)

js_script

摘要：使用 self.crawl 的 js_script 参数，在页面上执行一段脚本，实现【点击加载更多】的效果：阅读全文

posted @ 2017-11-02 14:01 大明湖畔的守望者阅读(235) 评论(0) 推荐(0)

爬虫header和cookie

摘要：1 def on_start(self): 2 self.crawl('http://bbs.byr.cn/board/Python', 3 headers={'X-Requested-With': 'XMLHttpRequest'}, 4 callback=self.index_page) 5 6 self.craw... 阅读全文

posted @ 2017-11-02 14:00 大明湖畔的守望者阅读(774) 评论(0) 推荐(0)

爬虫代理squid

摘要：配置文件一般是在/etc/squid3/下的squid.conf文件 pyspider使用的时候只需要设置代理服务器为你配置好的服务器的ＩＰ就可以了 1 class Handler(BaseHandler): 2 crawl_config = { 3 'proxy': '127.0.0.1:6666 阅读全文

posted @ 2017-11-02 13:58 大明湖畔的守望者阅读(937) 评论(0) 推荐(0)

response对象

摘要：1 response.url final url 2 response.text response 内动，unicode编码 3 response.content 字节表示 4 response.doc Pyquery对象 5 response.json类型 6 response.status_co 阅读全文

posted @ 2017-11-02 13:57 大明湖畔的守望者阅读(161) 评论(0) 推荐(0)

pyspider中内容选择器常用方法汇总

摘要：pyspider 的内容选择器默认已经实例化一个pyquery对象，可以直接使用pyquery的api来获取自己需要的内容。例：html:"<head><title>hello</title></head>" response.doc('head').html()#返回<title>hello</ 阅读全文

posted @ 2017-11-02 13:56 大明湖畔的守望者阅读(982) 评论(0) 推荐(0)

pyspider爬取数据存入redis--2.测试数据库连通性

摘要：直接上代码阅读全文

posted @ 2017-10-27 10:10 大明湖畔的守望者阅读(571) 评论(0) 推荐(0)

pyspider爬取数据存入redis--1.安装驱动

摘要：首先安装pyredis的驱动 wget https://pypi.python.org/packages/source/r/redis/redis-2.9.1.tar.gz 解压并cd python setup.py install 阅读全文

posted @ 2017-10-27 09:55 大明湖畔的守望者阅读(329) 评论(0) 推荐(0)

pyspider爬取数据存入es--2.测试数据库连通性

摘要：写一个简单案例测试能否将数据写入es es = Elasticsearch() 方法默认连接本地9200端口，需要本地安装es并启动；如果需要连接远程es数据库，可以这样 es = Elasticsearch("ip") 查看一下es中是否已有数据：阅读全文

posted @ 2017-10-27 09:32 大明湖畔的守望者阅读(1048) 评论(0) 推荐(0)

pyspider爬取数据存入es--1.安装驱动

摘要：跟使用mysql一样，不安装es驱动的话，也会触发模块找不到的错误 ImportError: No module named elasticsearch 通过pip安装 pip install elasticsearch 阅读全文

posted @ 2017-10-27 09:25 大明湖畔的守望者阅读(266) 评论(0) 推荐(0)

pyspider爬取数据存入mysql--2.测试数据库能否连通

摘要：做一个简单的测试，看数据能否存入mysql user表中已经插入了记录：阅读全文

posted @ 2017-10-26 16:43 大明湖畔的守望者阅读(1401) 评论(1) 推荐(0)

1、pyspider安装

摘要：系统环境： centos6.6、python2.7 经测试，python2.6安装的pyspider会导致webui无法正常访问参考博文： http://cuiqingcai.com/2443.html 1.python 预安装 python -V 查看是否系统自带python 如果不是2.7，需阅读全文

posted @ 2017-10-26 16:21 大明湖畔的守望者阅读(310) 评论(0) 推荐(0)

pyspider爬取数据导入mysql--1.安装驱动

摘要：接上篇，刚装好的pyspider，我们打算大显身手，抓一批数据到mysql中。然而，出师未捷，提示我们：ImportError: No module named MySQLdb 这是因为还没有安装MySQL-python驱动，它是python 操作mysql必不可少的模块。好了，开始下载 1.下阅读全文

posted @ 2017-10-26 16:18 大明湖畔的守望者阅读(608) 评论(0) 推荐(0)

大明湖畔的守望者

成长从点滴记录开始。 ------鲁迅

随笔分类 - pyspider

公告