2019 年 5月文章档案 - 舒畅123

摘要：由于PhantomJS已经停止更新，所以使用chrome浏览器的headless模式代替，代码如下：爬取淘宝的代码：别人的代码：崔老师的代码：其他人帮助的代码自己的代码：阅读全文

posted @ 2019-05-31 00:13 舒畅123 阅读(904) 评论(0) 推荐(0)

摘要：在前面一章我们了解了 Ajax 的分析和抓取方式，这种页面其实也是 JavaScript 动态渲染的页面的一种情形，通过直接分析 Ajax 我们仍然可以借助于 Requests 或 Urllib 来实现数据的抓取。不过 JavaScript 动态渲染的页面不止 Ajax 这一种。比如中国青年网：h 阅读全文

posted @ 2019-05-29 23:52 舒畅123 阅读(485) 评论(0) 推荐(0)

Ajax数据爬取

摘要：参考：https://germey.gitbooks.io/python3webspider/content/6-Ajax%E6%95%B0%E6%8D%AE%E7%88%AC%E5%8F%96.html Ajax数据爬取的原因有时候我们在用 Requests 抓取页面的时候，得到的结果可能和在浏阅读全文

posted @ 2019-05-28 23:17 舒畅123 阅读(220) 评论(0) 推荐(0)

数据的存储——Redis存储

摘要：参考：https://germey.gitbooks.io/python3webspider/content/5.3.2-Redis%E5%AD%98%E5%82%A8.html Redis 是一个基于内存的高效的键值型非关系型数据库，存取效率极高，而且支持多种存储数据结构，使用也非常简单，在本节我阅读全文

posted @ 2019-05-27 23:23 舒畅123 阅读(330) 评论(0) 推荐(0)

数据的存储--MongoDB

摘要：MongoDB的安装教程：https://www.bilibili.com/video/av31240330?from=search&seid=2653908327394008284 https://germey.gitbooks.io/python3webspider/content/1.4.3 阅读全文

posted @ 2019-05-27 20:29 舒畅123 阅读(310) 评论(0) 推荐(0)

数据存储——非关系型数据库

摘要：非关系型数据库简介 NoSQL，全称 Not Only SQL，意为不仅仅是 SQL，泛指非关系型的数据库。NoSQL 是基于键值对的，而且不需要经过 SQL 层的解析，数据之间没有耦合性，性能非常高。非关系型数据库又可以细分如下：键值存储数据库，代表有 Redis, Voldemort, Or 阅读全文

posted @ 2019-05-26 22:22 舒畅123 阅读(483) 评论(0) 推荐(0)

数据的存储——mySQL数据库

摘要：关系型数据库基于关系模型的数据库，而关系模型是通过二维表来保存的，所以它的存储方式就是行列组成的表，每一列是一个字段，每一行是一条记录。表可以看作是某个实体的集合，而实体之间存在联系，这就需要表与表之间的关联关系来体现，如主键外键的关联关系，多个表组成一个数据库，也就是关系型数据库。关系型数据库有阅读全文

posted @ 2019-05-25 21:51 舒畅123 阅读(375) 评论(0) 推荐(0)

数据的存储——CSV文件存储

摘要：1、CSV简介 CSV，全称叫做 Comma-Separated Values，中文可以叫做逗号分隔值或字符分隔值，其文件以纯文本形式存储表格数据。该文件是一个字符序列，可以由任意数目的记录组成，记录间以某种换行符分隔，每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符，不阅读全文

posted @ 2019-05-25 20:43 舒畅123 阅读(3432) 评论(0) 推荐(0)

数据的存储——Json文件存储

摘要：以下文字介绍主要引用崔庆才老师文章：https://germey.gitbooks.io/python3webspider/content/5.1.2-Json%E6%96%87%E4%BB%B6%E5%AD%98%E5%82%A8.html JSON简介 Json，全称为 JavaScript O 阅读全文

posted @ 2019-05-25 19:24 舒畅123 阅读(1466) 评论(0) 推荐(0)

关于xpath和Pyquery之间的配合使用

摘要：自己在学习崔庆才老师爬虫课程中文本存储一节中，看到崔老师以爬取知乎搜索为例进行演示，但是其使用的是pyquery解析库来解析网页，自己在网上看到有文章说xpath是最好的解析库，也想使用xpath来完成网页的解析，但是其中遇到了问题。崔老师的源代码使用崔老师的代码能够完整爬取网页上的内容自己遇阅读全文

posted @ 2019-05-23 23:30 舒畅123 阅读(759) 评论(0) 推荐(0)

数据的存储--TXT文本存储

摘要：当我们用解析器解析出数据之后，接下来的一步就是对数据进行存储了，保存的形式可以多种多样，最简单的形式可以直接保存为文本文件，如 TXT、Json、CSV 等等，另外还可以保存到数据库中，如关系型数据库 MySQL，非关系型数据库 MongoDB、Redis 等等。优点：操作简单，且可以兼容几乎所有阅读全文

posted @ 2019-05-23 00:20 舒畅123 阅读(928) 评论(0) 推荐(0)

爬虫解析库

摘要：在爬取豆瓣电影中使用的是正则表达式，但是正则表达式比较麻烦，除了正则以外还有 LXML、BeautifulSoup、PyQuery 等多个解析库，这些解析库相比正则更为简便，能够有效提高爬虫的爬取效率。 XPATH 简介定义 XPath，全称 XML Path Language，即 XML 路径语阅读全文

posted @ 2019-05-21 18:12 舒畅123 阅读(255) 评论(0) 推荐(0)

爬取猫眼电影

摘要：自己仔细研读了崔庆才老师的书爬取猫眼电影这一节深有感触，自己实际上在一年前就看过这一节的视频，但是当时没看懂（因为当时基础知识太差），经过大半年的积累，终于基本上能够看明白代码基础意思，按照崔庆才老师的博客写出自己的第一个爬虫代码。 https://germey.gitbooks.io/python 阅读全文

posted @ 2019-05-20 18:15 舒畅123 阅读(117) 评论(0) 推荐(0)

Selenium

摘要：注意自己使用的是百分浏览器，在安装Chromedriver的时候始终有问题，后来改安装Chrome浏览器以后，解决了问题。关键点就是Chromedriver要放在和python同级的目录下。完全模拟浏览器的操作。虽然在使用requests的时候已经能够完成网页源代码的获取，但是在涉及到网页翻页或阅读全文

posted @ 2019-05-15 22:11 舒畅123 阅读(117) 评论(0) 推荐(0)

requests

摘要：Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库。因为urllib存在着诸多的不便，而requests的出现能够帮助解决大量的难题。请求以get请求为例，一般请求格式为：注意：在上面的例子中使用response.text和阅读全文

posted @ 2019-05-13 22:52 舒畅123 阅读(140) 评论(0) 推荐(0)

Python学习的资源

摘要：一、python基础教程 https://morvanzhou.github.io/ 二、爬虫教程 https://www.yuanrenxue.com/crawler/principle-of-web-crawler.html https://www.cnblogs.com/zhaof/tag/% 阅读全文

posted @ 2019-05-13 10:37 舒畅123 阅读(169) 评论(0) 推荐(0)

爬虫的各种框架对比

摘要：Beautiful Soup 名气大，整合了一些常用爬虫需求。缺点：不能加载JS。 Scrapy 看起来很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这阅读全文

posted @ 2019-05-13 10:03 舒畅123 阅读(10224) 评论(0) 推荐(0)

爬虫

摘要：爬虫入门知识：爬虫的定义抓取网页数据的程序；爬虫怎么抓取网页数据: 如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物(数据)爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序;从技术层面来说就是通过程序模拟浏览器请求站阅读全文

posted @ 2019-05-11 11:37 舒畅123 阅读(200) 评论(0) 推荐(0)

BOM和DOM

摘要：定义： BOM（Browser Object Model）是指浏览器对象模型，它使 JavaScript 有能力与浏览器进行“对话”。 DOM （Document Object Model）是指文档对象模型，通过它，可以访问HTML文档的所有元素。 window的子对象 location对象常用属阅读全文

posted @ 2019-05-10 00:41 舒畅123 阅读(115) 评论(0) 推荐(0)

JavaScript

摘要：JavaScript 是脚本语言JavaScript 是一种轻量级的编程语言。 JavaScript 是可插入 HTML 页面的编程代码。 JavaScript 插入 HTML 页面后，可由所有的现代浏览器执行。 JavaScript 很容易学习。 JavaScript作为一种语言，其解释器就是用户阅读全文

posted @ 2019-05-06 23:55 舒畅123 阅读(157) 评论(0) 推荐(0)

商城导航页面

摘要：HTML CSS 阅读全文

posted @ 2019-05-04 23:16 舒畅123 阅读(242) 评论(0) 推荐(0)

舒畅123

05 2019 档案

公告