2020 年 7月 9 日随笔档案 - kuanleung

2020年7月9日

摘要： 1. 引入我们之前写的爬虫都是单个线程的？这怎么够？一旦一个地方卡到不动了，那不就永远等待下去了？为此我们可以使用多线程或者多进程来处理。不建议你用这个，不过还是介绍下了，如果想看可以看看下面，不想浪费时间直接看 2. 如何使用爬虫使用多线程来处理网络请求，使用线程来处理URL队列中的url，阅读全文

posted @ 2020-07-09 20:37 kuanleung 阅读(6) 评论(0) 推荐(0)

爬虫pyquery（12）

摘要： 1. pyquery 1.1 介绍如果你对CSS选择器与Jquery有有所了解，那么还有个解析库可以适合你–Jquery 官网https://pythonhosted.org/pyquery/ 1.2 安装 pip install pyquery 1.3 使用方式 1.3.1 初始化方式字符串阅读全文

posted @ 2020-07-09 20:35 kuanleung 阅读(11) 评论(0) 推荐(0)

爬虫JSON（11）

摘要： 1. JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 Pyt 阅读全文

posted @ 2020-07-09 20:34 kuanleung 阅读(16) 评论(0) 推荐(0)

爬虫 XPath（10）

摘要： 1. 介绍之前 BeautifulSoup 的用法，这个已经是非常强大的库了，不过还有一些比较流行的解析库，例如 lxml，使用的是 Xpath 语法，同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话，可以尝试下 Xpath 官网 http://lxml.de/ 阅读全文

posted @ 2020-07-09 20:33 kuanleung 阅读(11) 评论(0) 推荐(0)

爬虫Beautiful Soup（9）

摘要： 1. Beautiful Soup的简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档阅读全文

posted @ 2020-07-09 17:11 kuanleung 阅读(8) 评论(0) 推荐(0)

爬虫实例（8）

摘要： import requests import re url='https://www.qiushibaike.com/text/' header = { 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50 阅读全文

posted @ 2020-07-09 17:07 kuanleung 阅读(7) 评论(0) 推荐(0)

爬虫re(7)

摘要： 1. 提取数据在前面我们已经搞定了怎样获取页面的内容，不过还差一步，这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字阅读全文

posted @ 2020-07-09 13:47 kuanleung 阅读(7) 评论(0) 推荐(0)

（11）爬虫requests---cookie

摘要： import requests session=requests.Session() header = { 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Versio 阅读全文

posted @ 2020-07-09 12:40 kuanleung 阅读(7) 评论(0) 推荐(0)

(10)爬虫requests---ssl

摘要： import requests header = { 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50' } url = 阅读全文

posted @ 2020-07-09 12:30 kuanleung 阅读(8) 评论(0) 推荐(0)

（9）爬虫requests----代理IP

摘要： import requests header = { 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50' } url = 阅读全文

posted @ 2020-07-09 12:29 kuanleung 阅读(4) 评论(0) 推荐(0)

(8)爬虫requests----post使用

摘要： import requests header = { 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50' } login 阅读全文

posted @ 2020-07-09 12:16 kuanleung 阅读(11) 评论(0) 推荐(0)

（7）爬虫requests库

摘要： import requests header = { 'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50' } url = 阅读全文

posted @ 2020-07-09 11:50 kuanleung 阅读(7) 评论(0) 推荐(0)

爬虫requests库（6）

摘要： 1. 介绍对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。入门之后，我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法 2. 安装利用 pip 安装 pip install requests 3. 基本请求 req = requ 阅读全文

posted @ 2020-07-09 11:36 kuanleung 阅读(9) 评论(0) 推荐(0)

爬虫Cookie与URLError(5)

摘要： 1. Cookie 为什么要使用Cookie呢？ Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cooki 阅读全文

posted @ 2020-07-09 11:28 kuanleung 阅读(24) 评论(0) 推荐(0)

爬虫设置header和代理IP（4）

摘要： 1. 伪装自己有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作 1.1 设置请求头其中User-Agent代表用的哪个请求的浏览器代码如下： from urllib.request import urlopen from urll 阅读全文

posted @ 2020-07-09 11:26 kuanleung 阅读(17) 评论(0) 推荐(0)

爬虫小试（3）

摘要： 1. 小试牛刀怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存阅读全文

posted @ 2020-07-09 11:24 kuanleung 阅读(13) 评论(0) 推荐(0)

爬虫工具（2）

摘要： 1. 常用的工具 pythonpycharm浏览器 chrome火狐 fiddler 2 fiddler的使用 2.1 界面含义请求 (Request) 部分详解名称含义Headers显示客户端发送到服务器的 HTTP 请求的,header 显示为一个分级视图，包含了 Web 客户端信息、Coo 阅读全文

posted @ 2020-07-09 11:23 kuanleung 阅读(7) 评论(0) 推荐(0)

爬虫简介（1）

摘要： 1. 什么是爬虫？网络爬虫也叫网络蜘蛛，如果把互联网比喻成一个蜘蛛网，那么蜘蛛就是在网上爬来爬去的蜘蛛，爬虫程序通过请求url地址，根据响应的内容进行解析采集数据，比如：如果响应内容是html，分析dom结构，进行dom解析、或者正则匹配，如果响应内容是xml/json数据，就可以转数据对象，然阅读全文

posted @ 2020-07-09 11:20 kuanleung 阅读(18) 评论(0) 推荐(0)

kuanleung

公告