随笔分类 -  pyspider

1
摘要:对于写python的人来说,这个异常一点不陌生,只要涉及到中文字符串的操作,一不小心就会出错。关于这个问题的解释,找到一篇好文,分享一下。 原文地址:https://blog.csdn.net/u011350541/article/details/78683682 在解决错误之前,首先要了解unic 阅读全文
posted @ 2018-05-09 11:30 大明湖畔的守望者 阅读(1283) 评论(0) 推荐(0)
摘要:最近一直在爬新闻,对于新闻爬取的套路还是比较熟悉的。一个群友发布了一个爬文章入word的任务,我果断接单,自我挑战一下,更何况完成任务还有赏金,哈哈。 任务大概是这样的,有一个文章列表【http://www.shui5.cn/article/Bulletin/】,大约7W的量,每篇文章保存到一个wo 阅读全文
posted @ 2018-04-18 10:57 大明湖畔的守望者 阅读(622) 评论(0) 推荐(0)
摘要:from docx import Document from docx.shared import Inches document = Document() document.add_heading('Document Title', 0) p = document.add_paragraph('A plain paragraph having some ') p.add_run('bol... 阅读全文
posted @ 2018-04-17 17:43 大明湖畔的守望者 阅读(242) 评论(0) 推荐(0)
摘要:调研爬虫框架pyspider有一段时间了,感觉已经比较成熟,跟老板申请了一台机器,打算搭一套正式环境。然而在熟悉的安装步骤过后,启动画面却是这样的: 虽然心中有疑惑,但还是熟练的百度起来。一番搜索之后,大概有了方向,可能是schedule的数据链接的问题,解决方案是把pyspider的默认消息队列改 阅读全文
posted @ 2018-03-08 16:58 大明湖畔的守望者 阅读(1203) 评论(2) 推荐(1)
摘要:pyspider需要通过pip工具安装 首先检查linux有没有安装python-pip包,直接执行 yum install python-pip 没有python-pip包就执行命令 yum -y install epel-release 执行成功之后,再次执行yum install python 阅读全文
posted @ 2018-01-10 15:39 大明湖畔的守望者 阅读(197) 评论(0) 推荐(0)
摘要:近期,我想爬一批新闻资讯的内容。新闻类型的网址很多,我想看看有没有一个网页上能包罗尽可能多的新闻网站呢,于是就发现了下面这个网页 http://news.hao123.com/wangzhi 这个页面的下边还有地方新闻的分类 1、爬取目标 按类型分的网址列表 按地方分的网址列表 2、按类型 运行结果 阅读全文
posted @ 2018-01-03 13:37 大明湖畔的守望者 阅读(279) 评论(0) 推荐(0)
摘要:此文转自https://www.cnblogs.com/zyxstar2003/archive/2011/03/21/1989954.html 1、__init__并不相当于C#中的构造函数,执行它的时候,实例已构造出来了 当我们执行 时,可以理解为 即__init__作用是初始化已实例化后的对象。 阅读全文
posted @ 2018-01-03 08:41 大明湖畔的守望者 阅读(7466) 评论(0) 推荐(0)
摘要:1、接上一篇,在webui页面,点击右侧【Create】按钮,创建爬虫任务 2、输入【Project Name】,【Start Urls】为爬取的起始地址,可以先不输入,点击【Create】进入: 3、进入爬取操作的页面 整个页面分为两栏,左边是爬取页面预览区域,右边是代码编写区域。下面对区块进行说 阅读全文
posted @ 2018-01-02 17:15 大明湖畔的守望者 阅读(585) 评论(0) 推荐(0)
摘要:使用 self.crawl 的 js_script 参数,在页面上执行一段脚本,实现【点击加载更多】的效果: 阅读全文
posted @ 2017-11-02 14:01 大明湖畔的守望者 阅读(233) 评论(0) 推荐(0)
摘要:1 def on_start(self): 2 self.crawl('http://bbs.byr.cn/board/Python', 3 headers={'X-Requested-With': 'XMLHttpRequest'}, 4 callback=self.index_page) 5 6 self.craw... 阅读全文
posted @ 2017-11-02 14:00 大明湖畔的守望者 阅读(772) 评论(0) 推荐(0)
摘要:配置文件一般是在/etc/squid3/下的squid.conf文件 pyspider使用的时候只需要设置代理服务器为你配置好的服务器的IP就可以了 1 class Handler(BaseHandler): 2 crawl_config = { 3 'proxy': '127.0.0.1:6666 阅读全文
posted @ 2017-11-02 13:58 大明湖畔的守望者 阅读(934) 评论(0) 推荐(0)
摘要:1 response.url final url 2 response.text response 内动,unicode编码 3 response.content 字节表示 4 response.doc Pyquery对象 5 response.json类型 6 response.status_co 阅读全文
posted @ 2017-11-02 13:57 大明湖畔的守望者 阅读(157) 评论(0) 推荐(0)
摘要:pyspider 的内容选择器默认已经实例化一个pyquery对象,可以直接使用pyquery的api来获取自己需要的内容。 例:html:"<head><title>hello</title></head>" response.doc('head').html()#返回<title>hello</ 阅读全文
posted @ 2017-11-02 13:56 大明湖畔的守望者 阅读(978) 评论(0) 推荐(0)
摘要:直接上代码 阅读全文
posted @ 2017-10-27 10:10 大明湖畔的守望者 阅读(568) 评论(0) 推荐(0)
摘要:首先安装pyredis的驱动 wget https://pypi.python.org/packages/source/r/redis/redis-2.9.1.tar.gz 解压并cd python setup.py install 阅读全文
posted @ 2017-10-27 09:55 大明湖畔的守望者 阅读(326) 评论(0) 推荐(0)
摘要:写一个简单案例测试能否将数据写入es es = Elasticsearch() 方法默认连接本地9200端口,需要本地安装es并启动;如果需要连接远程es数据库,可以这样 es = Elasticsearch("ip") 查看一下es中是否已有数据: 阅读全文
posted @ 2017-10-27 09:32 大明湖畔的守望者 阅读(1044) 评论(0) 推荐(0)
摘要:跟使用mysql一样,不安装es驱动的话,也会触发模块找不到的错误 ImportError: No module named elasticsearch 通过pip安装 pip install elasticsearch 阅读全文
posted @ 2017-10-27 09:25 大明湖畔的守望者 阅读(264) 评论(0) 推荐(0)
摘要:做一个简单的测试,看数据能否存入mysql user表中已经插入了记录: 阅读全文
posted @ 2017-10-26 16:43 大明湖畔的守望者 阅读(1398) 评论(1) 推荐(0)
摘要:系统环境: centos6.6、python2.7 经测试,python2.6安装的pyspider会导致webui无法正常访问 参考博文: http://cuiqingcai.com/2443.html 1.python 预安装 python -V 查看是否系统自带python 如果不是2.7,需 阅读全文
posted @ 2017-10-26 16:21 大明湖畔的守望者 阅读(306) 评论(0) 推荐(0)
摘要:接上篇,刚装好的pyspider,我们打算大显身手,抓一批数据到mysql中。 然而,出师未捷,提示我们:ImportError: No module named MySQLdb 这是因为还没有安装MySQL-python驱动,它是python 操作mysql必不可少的模块。 好了,开始下载 1.下 阅读全文
posted @ 2017-10-26 16:18 大明湖畔的守望者 阅读(606) 评论(0) 推荐(0)

1