摘要: 一、写在前面 我在以前写过一次12306网站的爬虫,当时实现了模拟登录和查询车票,但是感觉还不太够,所以对之前的代码加以修改,还实现了一个订购车票的功能。 二、主要思路 在使用Selenium做模拟登录12306网站的时候,需要将登录成功后的Cookie保存下来,这个Cookie在后面是必需的。然后阅读全文
posted @ 2019-06-08 09:29 TM0831 阅读(361) 评论(1) 编辑
摘要: 一、写在前面 最近复仇者联盟4正在热映中,很多人都去电影院观看了电影,那么对于这部电影,看过的人都是怎么评价的呢?这时候爬虫就可以派上用场了! 二、主要思路 首先打开豆瓣电影,然后进入复仇者联盟4的详情页面:https://movie.douban.com/subject/26100958/,下拉页阅读全文
posted @ 2019-04-27 11:50 TM0831 阅读(393) 评论(0) 编辑
摘要: 一、常见编码 ASCII:ASCII码即美国标准信息交换码(American Standard Code for Information Interchange)。由于计算机内部所有信息最终都是一个二进制值,而每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称阅读全文
posted @ 2019-04-18 14:41 TM0831 阅读(36) 评论(0) 编辑
摘要: 一、写在前面 首先呢,由于之前重装系统,又要重新配置环境,然后还有一些别的事,导致我一直没有写爬虫了,不过现在又可以继续写了。 然后我这次说的模拟登录新浪微博呢,不是使用Selenium模拟浏览器操作,毕竟Selenium的效率是真的有些低,所以我选择用Python发送请求实现模拟登录,整个过程还算阅读全文
posted @ 2019-03-29 09:22 TM0831 阅读(188) 评论(0) 编辑
摘要: 一、MongoDB简介 MongoDB是一个基于分布式文件存储的数据库,由C++语言编写,旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB将数据存储为一个文档,数据结构由键值(key=>value)对组成,MongoDB文档类似于JSON对象,字段值可以包含其他文档,数组及文档数阅读全文
posted @ 2019-03-27 12:05 TM0831 阅读(515) 评论(1) 编辑
摘要: 一、写在前面: 我们都知道Python一种面向对象的脚本语言,对象是Python中非常重要的一个概念。在Python中数字是对象,字符串是对象,任何事物都是对象,而它们的核心就是一个结构体--PyObject。 typedef struct_object{ int ob_refcnt; struct阅读全文
posted @ 2019-03-26 14:17 TM0831 阅读(198) 评论(0) 编辑
摘要: 很难受,由于这两天重装了系统,又得重新配置环境了,而我在安装tesserocr的时候踩了一些坑,于是想写出来分享一下。 一.安装tesseract 要安装tesserocr,首先要下载tesseract,它是给tesserocr提供支持的。下载地址为:https://digi.bib.uni-man阅读全文
posted @ 2019-03-20 14:01 TM0831 阅读(385) 评论(0) 编辑
摘要: 1.哪个是True,哪个是False? 这里要看三组代码: # 第一组: >>>a=256 >>>b = 256 >>>a is b # 第二组: >>>a = 257 >>>b = 257 >>>a is b # 第三组: >>>a = 257; b = 257 >>>a is b 问题来了,这三阅读全文
posted @ 2019-03-12 09:10 TM0831 阅读(101) 评论(6) 编辑
摘要: 一、写在前面 当你看着你的博客的阅读量慢慢增加的时候,内心不禁有了些小激动,但是不得不吐槽一下--博客园并不会显示你的博客的总阅读量是多少。而这一篇博客就将教你怎么利用队列这种结构来编写爬虫,最终获取你的博客的总阅读量。 二、必备知识 队列是常用数据结构之一,在Python3中要用queue这个模块阅读全文
posted @ 2019-03-11 14:38 TM0831 阅读(241) 评论(0) 编辑
摘要: 上一篇博客的末尾说到全网代理IP的端口号是经过加密混淆的,而这一篇博客就将告诉你如何破解!如果觉得有用的话,不妨点个推荐哦~ 一、全网代理IP的JS混淆 首先进入全网代理IP,打开开发者工具,点击查看端口号,看起来貌似没有什么问题: 如果你已经爬取过这个网站的代理,你就会知道事情并非这么简单。如果没阅读全文
posted @ 2019-03-03 10:09 TM0831 阅读(382) 评论(0) 编辑