2020 年 10月随笔档案 - 曾庆林

17-用python爬取下载女神照片

摘要：今天咱们要爬取花瓣网 https://huaban.com/ 设计师寻找灵感的天堂!有海量的图片素材可以下载,是一个优质图片灵感库这次我们用 requests 登录花瓣网，爬取页面，再用正则与json提取有用信息，最后把获取的图片信息保存到本地一、用到技术 python 基础 request 阅读全文

posted @ 2020-10-13 23:25 曾庆林阅读(540) 评论(0) 推荐(3)

16-python爬虫之Requests库爬取海量图片

摘要：Requests 是一个 Python 的 HTTP 客户端库。 Request支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动响应内容的编码，支持国际化的URL和POST数据自动编码。在python内置模块的基础上进行了高度的封装从而使得python进行网络请求阅读全文

posted @ 2020-10-13 23:24 曾庆林阅读(1817) 评论(0) 推荐(0)

15-python爬取百度贴吧-excel存储

摘要：让我们爬取百度贴吧旅游信息，看看哪些地方是大家旅游关注的热点。不要问我这个十一去哪儿旅游了，我还在家没日没夜的码代码。这次我们用 urllib 爬取页面，再用BeautifulSoup提取有用信息，最后用 xlsxwriter 把获取的信息写入到excel表一、用到技术 python 基础阅读全文

posted @ 2020-10-13 13:22 曾庆林阅读(255) 评论(0) 推荐(0)

14-python爬虫之JSON操作

摘要：结构化的数据是最好处理，一般都是类似JSON格式的字符串，直接解析JSON数据，提取JSON的关键字段即可。 JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式；适用于进行数据交互的场景，比如网站前台与后台之间的数据交互 Python 3.x中自带阅读全文

posted @ 2020-10-13 13:20 曾庆林阅读(1791) 评论(0) 推荐(0)

13-用 Python 读写 Excel 文件

摘要：在以前，商业分析对应的英文单词是Business Analysis，大家用的分析工具是Excel，后来数据量大了，Excel应付不过来了（Excel最大支持行数为1048576行），人们开始转向python和R这样的分析工具了 XlsxWriter xlrd&xlwt OpenPyXL Micros 阅读全文

posted @ 2020-10-13 13:16 曾庆林阅读(216) 评论(0) 推荐(0)

12-python正则表达式

摘要：掌握了XPath、CSS选择器，为什么还要学习正则？正则表达式，用标准正则解析，一般会把HTML当做普通文本，用指定格式匹配当相关文本，适合小片段文本，或者某一串字符(比如电话号码、邮箱账户)，或者HTML包含javascript的代码，无法用CSS选择器或者XPath 在线正则表达式测试网站ht 阅读全文

posted @ 2020-10-13 13:15 曾庆林阅读(176) 评论(0) 推荐(0)

10-python爬虫之lxml库

摘要：lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML ，支持 XPath (XML Path Language) lxml python 官方文档 http://lxml.de/index.html 学习目的利用上节课学习的XPath语法，来快速的定位特定元素以及节点信息，阅读全文

posted @ 2020-10-12 13:17 曾庆林阅读(700) 评论(0) 推荐(0)

11-python爬虫之Beautiful Soup

摘要：CSS Selector CSS(即层叠样式表Cascading Stylesheet), Selector来定位（locate）页面上的元素（Elements）。Selenium官网的Document里极力推荐使用CSS locator，而不是XPath来定位元素，原因是CSS locator比X 阅读全文

posted @ 2020-10-12 08:47 曾庆林阅读(372) 评论(0) 推荐(0)

09-XPath 语言-python爬虫

摘要：XPath 语言 XPath（XML Path Language）是XML路径语言,它是一种用来定位XML文档中某部分位置的语言。学习目的将HTML转换成XML文档之后，用XPath查找HTML节点或元素比如用“/”来作为上下层级间的分隔，第一个“/”表示文档的根节点（注意，不是指文档最外层的阅读全文

posted @ 2020-10-12 08:46 曾庆林阅读(258) 评论(0) 推荐(0)

08-页面解析之数据提取-python爬虫

摘要：一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值，内容一般分为两部分，非结构化的文本，或结构化的文本。关于结构化的数据 JSON、XML、HTML HTML文本（包含JavaScript代码）是最常见的数据格式，理应属于结构化的文本组织，但因为一般我们需要的关键信息并非阅读全文

posted @ 2020-10-11 21:48 曾庆林阅读(171) 评论(0) 推荐(0)

07-TCP 3次握手，4次挥手过程！都不知道怎么学爬虫

摘要：1、建立连接协议（三次握手）（1）客户端发送一个带SYN标志的TCP报文到服务器。这是三次握手过程中的报文1。（2）服务器端回应客户端的，这是三次握手中的第2个报文，这个报文同时带ACK标志和SYN标志。因此它表示对刚才客户端SYN报文的回应；同时又标识SYN给客户端，询问客户端是否准备好进行数阅读全文

posted @ 2020-10-11 21:46 曾庆林阅读(207) 评论(0) 推荐(0)

06-python爬虫库urllib，开始编写python爬虫代码

摘要：终于要开始写爬虫代码了我们首先了解一下 Urllib 库，它是 Python 内置的 HTTP 请求库，也就是说我们不需要额外安装即可使用，它包含四个模块：第一个模块 request，它是最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一样，只需要给阅读全文

posted @ 2020-10-11 10:12 曾庆林阅读(249) 评论(0) 推荐(0)

05-HTTP协议-万字好文！建议收藏

摘要：HTTP协议介绍设计HTTP(HyperText Transfer Protocol)是为了提供一种发布和接收HTML(HyperText Markup Language)页面的方法。 Http组成由两部分组成：请求与响应客户端请求消息客户端发送一个HTTP请求到服务器的请求消息包括以下格式阅读全文

posted @ 2020-10-11 09:57 曾庆林阅读(280) 评论(0) 推荐(0)

04-爬虫利器Fiddler

摘要：Fiddler不但能截获各种浏览器发出的HTTP请求, 也可以截获各种智能手机发出的HTTP/HTTPS请求。 Fiddler能捕获IOS设备发出的请求，比如IPhone, IPad, MacBook. 等等苹果的设备。同理，也可以截获Andriod，Windows Phone的等设备发出的HTT 阅读全文

posted @ 2020-10-11 09:49 曾庆林阅读(242) 评论(0) 推荐(0)

03-python爬虫基本原理

摘要：爬虫是模拟用户在浏览器或者某个应用上的操作，把操作的过程、实现自动化的程序当我们在浏览器中输入一个url后回车，后台会发生什么？比如说你输入http://www.sina.com.cn/ 简单来说这段过程发生了以下四个步骤：查找域名对应的IP地址。向IP对应的服务器发送请求。服务器响应请求阅读全文

posted @ 2020-10-11 09:46 曾庆林阅读(243) 评论(0) 推荐(0)

02-认识python爬虫

摘要：学习目的了解爬虫，爬虫起源；爬虫是什么专业术语：网络爬虫（又被称为网页蜘蛛，网络机器人）网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。爬虫起源（产生背景）随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战；搜索引擎有Yah 阅读全文

posted @ 2020-10-11 09:43 曾庆林阅读(370) 评论(0) 推荐(0)

10 2020 档案

公告