python3爬虫 - 随笔分类(第2页) - MARK+

摘要：程序中请求到的和网页中内容不一样，但也是古诗，不是道是不是因为请求头的原因，使得网站推荐的古诗有差异运行结果阅读全文

posted @ 2018-08-06 11:46 MARK+ 阅读(397) 评论(0) 推荐(0)

摘要：。。港澳台的格式不太一样，暂时不想管他们了。。运行结果的话，我爬取得是当日白天的天气，现在晚上了，数据都没有了（一开始还以为是代码改错了，还一直撤销）阅读全文

posted @ 2018-08-05 20:01 MARK+ 阅读(1247) 评论(0) 推荐(0)

摘要：和昨天一样的工作量，时间只用了一半，但还是效率有点低了，因为要把两个网页结合起来，所以在列表操作上用了好多时间目前sublime还输入不了中文，所以把输出注释上，方便看清格式运行结果：红色圈出来的是一个字典，包含第一个网页的信息（职位名称，url，位置）和详情页面的职责（工作职责，工作要求），阅读全文

posted @ 2018-08-04 14:22 MARK+ 阅读(515) 评论(0) 推荐(0)

爬虫_电影天堂热映电影（xpath）

摘要：写了一天才写了不到100行。不过总归是按自己的思路完成了运行结果：（选中的是一部电影，一页中有25部电影，网站里一共有176页）感受到了代码的魅力了吗阅读全文

posted @ 2018-08-03 20:21 MARK+ 阅读(870) 评论(0) 推荐(0)

爬虫_豆瓣全部正在热映电影（xpath）

摘要：单纯地练习一下xpath 阅读全文

posted @ 2018-08-02 18:18 MARK+ 阅读(505) 评论(0) 推荐(0)

requests中 .text 和 .content区别

摘要：1.response.content: 这个是直接从网络上面抓取的数据，没有经过任何解码，所以是一个bytes类型，其实在硬盘上和在网络上传输的字符串都是bytes类型 2.response.text: 这个是str的数据类型，是requests库将response.content进行解码的字符串，阅读全文

posted @ 2018-08-01 15:24 MARK+ 阅读(573) 评论(0) 推荐(0)

验证码识别——图形验证码

摘要：先找了一个简单的图形验证码进行测试，比如知网，从网页里把验证码下载到本地进行简单的灰度处理和二值化处理，能够提高不少识别正确率验证码：代码：结果：如果没有灰度处理和二值化处理这个9就总识别错了阅读全文

posted @ 2018-07-23 20:54 MARK+ 阅读(1153) 评论(0) 推荐(0)

淘宝爬虫

摘要：config.py 运行结果：数据库：阅读全文

posted @ 2018-07-19 22:46 MARK+ 阅读(231) 评论(0) 推荐(0)

爬虫_豆瓣电影top250 （正则表达式）

摘要：一样的套路，就是多线程还没弄运行结果阅读全文

posted @ 2018-07-18 10:02 MARK+ 阅读(463) 评论(0) 推荐(0)

爬虫_猫眼电影top100（正则表达式）

摘要：代码查看码云阅读全文

posted @ 2018-07-17 10:46 MARK+ 阅读(204) 评论(0) 推荐(0)

《python3网络爬虫开发实战》第一章、开发环境配置-问题汇总

摘要：开发环境： VMware虚拟机 Ubuntu18.04 python3.6 （由于对vi操作水平有限，所以大部分都用的gedit进行文件编辑）换源：刚装上系统后换了好几个源，就清华源感觉好使点，别的源apt-get安装东西老是失败 1.2.5 PhantomJS的安装：PhantomJS报错wa 阅读全文

posted @ 2018-06-07 21:04 MARK+ 阅读(341) 评论(0) 推荐(0)

PhantomJS报错warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless '

摘要：原因：Selenuim已经放弃PhantomJS3.x了，建议使用火狐或者谷歌无头浏览器。解决方法： 1.phantomjs降级，换个2.x版本的 2.使用无头浏览器，示例代码（自己改了改，如有错误还望指正）运行结果为了紧跟时代，还是使用无头浏览器吧阅读全文

posted @ 2018-06-06 16:57 MARK+ 阅读(402) 评论(0) 推荐(0)

MongoDB安装的坑

摘要：目前最新版本的MongoDB3.6在windows下安装会出现很难解决的问题，所以就换了3.4版本，由于我之前3.6的安装不成功，所以卸载了好几次，其中目录改变了一次，就导致了这次大坑，用了我三四个小时才找到了问题的根源，如果出现找不到指定文件夹，就检查一下这个目录是否对应着如果不对应，删除 cm 阅读全文

posted @ 2018-03-10 23:02 MARK+ 阅读(169) 评论(0) 推荐(0)

python3网络爬虫（4）：python3安装Scrapy

摘要：运行平台： Windows python版本： python3.5.2 IDE： pycharm 一、Scrapy简介 Scrapy是一个为了爬取网站数据提取结构性数据而编写的应用框架，可以应用于数据挖掘，信息处理或存储历史数据等一系列的程序中。自己写的Python爬虫程序好比孤军奋战，而使用了Sc 阅读全文

posted @ 2018-03-04 09:33 MARK+ 阅读(1581) 评论(2) 推荐(0)

Python3网络爬虫（3）：使用User Agent和代理IP隐藏身份

摘要：Python版本：　python3 IDE: pycharm2017.3.3 一、为何要设置User Agent 有一些网站不喜欢被爬虫访问，所以会检测对象，如果是爬虫程序，他就会不让你访问，通过设置User Agent来达到隐藏身份的目的，User Agent的中文名为用户代理，简称UA User 阅读全文

posted @ 2018-03-03 23:04 MARK+ 阅读(2107) 评论(0) 推荐(1)

python3网络爬虫（2.1）：爬取堆糖美女

摘要：额，明明记得昨晚存了草稿箱，一觉醒来没了，那就简写点（其实是具体怎么解释我也不太懂/xk，纯属个人理解，有错误还望指正）环境：版本：python3 IDE：pycharm2017.3.3 浏览器：火狐（浏览器建议火狐，Chrome）爬取网站：堆糖选堆糖是因为比较好爬取（除了img文件就是xh 阅读全文

posted @ 2018-03-03 09:25 MARK+ 阅读(1338) 评论(1) 推荐(1)

Python3网络爬虫（1）：利用urllib进行简单的网页抓取

摘要：1.开发环境 pycharm2017.3.3 python3.5 2.网络爬虫的定义网络爬虫，也叫网络蜘蛛（web spider），如果把互联网比喻成一个蜘蛛网，spider就是一只在网上爬来爬去的蜘蛛，网络爬虫就是根据网页的地址来寻找网页的，也就是URL。举一个简单的例子，我们在浏览器的地址栏中阅读全文

posted @ 2018-03-02 00:03 MARK+ 阅读(637) 评论(0) 推荐(1)

小白羀号

随笔分类 - python3爬虫

公告