随笔分类 - python3爬虫
摘要:程序中请求到的和网页中内容不一样,但也是古诗,不是道是不是因为请求头的原因,使得网站推荐的古诗有差异 运行结果
阅读全文
摘要:。。港澳台的格式不太一样,暂时不想管他们了 。。运行结果的话,我爬取得是当日白天的天气,现在晚上了,数据都没有了(一开始还以为是代码改错了,还一直撤销)
阅读全文
摘要:和昨天一样的工作量,时间只用了一半,但还是效率有点低了,因为要把两个网页结合起来,所以在列表操作上用了好多时间 目前sublime还输入不了中文,所以把输出注释上,方便看清格式 运行结果: 红色圈出来的是一个字典,包含第一个网页的信息(职位名称,url,位置)和详情页面的职责(工作职责,工作要求),
阅读全文
摘要:写了一天才写了不到100行。不过总归是按自己的思路完成了 运行结果:(选中的是一部电影, 一页中有25部电影,网站里一共有176页) 感受到了代码的魅力了吗
阅读全文
摘要:1.response.content: 这个是直接从网络上面抓取的数据,没有经过任何解码,所以是一个bytes类型,其实在硬盘上和在网络上传输的字符串都是bytes类型 2.response.text: 这个是str的数据类型,是requests库将response.content进行解码的字符串,
阅读全文
摘要:先找了一个简单的图形验证码进行测试,比如知网,从网页里把验证码下载到本地 进行简单的灰度处理和二值化处理,能够提高不少识别正确率 验证码: 代码: 结果: 如果没有灰度处理和二值化处理这个9就总识别错了
阅读全文
摘要:一样的套路,就是多线程还没弄 运行结果
阅读全文
摘要:开发环境: VMware虚拟机 Ubuntu18.04 python3.6 (由于对vi操作水平有限,所以大部分都用的gedit进行文件编辑) 换源: 刚装上系统后换了好几个源,就清华源感觉好使点,别的源apt-get安装东西老是失败 1.2.5 PhantomJS的安装:PhantomJS报错wa
阅读全文
摘要:原因:Selenuim已经放弃PhantomJS3.x了,建议使用火狐或者谷歌无头浏览器。 解决方法: 1.phantomjs降级,换个2.x版本的 2.使用无头浏览器,示例代码(自己改了改,如有错误还望指正) 运行结果 为了紧跟时代,还是使用无头浏览器吧
阅读全文
摘要:目前最新版本的MongoDB3.6在windows下安装会出现很难解决的问题,所以就换了3.4版本,由于我之前3.6的安装不成功,所以卸载了好几次,其中目录改变了一次,就导致了这次大坑,用了我三四个小时才找到了问题的根源,如果出现找不到指定文件夹,就检查一下这个目录是否对应着 如果不对应,删除 cm
阅读全文
摘要:运行平台: Windows python版本: python3.5.2 IDE: pycharm 一、Scrapy简介 Scrapy是一个为了爬取网站数据提取结构性数据而编写的应用框架,可以应用于数据挖掘,信息处理或存储历史数据等一系列的程序中。自己写的Python爬虫程序好比孤军奋战,而使用了Sc
阅读全文
摘要:Python版本: python3 IDE: pycharm2017.3.3 一、为何要设置User Agent 有一些网站不喜欢被爬虫访问,所以会检测对象,如果是爬虫程序,他就会不让你访问,通过设置User Agent来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA User
阅读全文
摘要:额,明明记得昨晚存了草稿箱,一觉醒来没了,那就简写点(其实是具体怎么解释我也不太懂/xk,纯属个人理解,有错误还望指正) 环境: 版本:python3 IDE:pycharm2017.3.3 浏览器:火狐(浏览器建议火狐,Chrome) 爬取网站:堆糖 选堆糖是因为比较好爬取(除了img文件就是xh
阅读全文
摘要:1.开发环境 pycharm2017.3.3 python3.5 2.网络爬虫的定义 网络爬虫,也叫网络蜘蛛(web spider),如果把互联网比喻成一个蜘蛛网,spider就是一只在网上爬来爬去的蜘蛛,网络爬虫就是根据网页的地址来寻找网页的,也就是URL。举一个简单的例子,我们在浏览器的地址栏中
阅读全文

浙公网安备 33010602011771号