2020 年 10月 14 日随笔档案 - 遥月

2020年10月14日

摘要：爬虫的基本流程发起请求通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应获取响应内容如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图阅读全文

posted @ 2020-10-14 21:22 遥月阅读(2859) 评论(0) 推荐(0)

Requests库详细使用

摘要： requests是python实现的最简单易用的HTTP库，建议爬虫使用requests import requests url = "https://api.github.com/events" 获取某个网页 import requests r = requests.get("https://ap 阅读全文

posted @ 2020-10-14 21:05 遥月阅读(1147) 评论(0) 推荐(0)

pyquery库的使用

摘要： #coding=utf-8 #防止报错：UnicodeEncodeError: 'gbk' codec can't encode character from pyquery import PyQuery as pq from lxml import etree 可加载一段HTML字符串，或一个HT 阅读全文

posted @ 2020-10-14 20:39 遥月阅读(158) 评论(0) 推荐(0)

bs4 使用详解

摘要：一、初始化 from bs4 import BeautifulSoup soup = BeautifulSoup("<html>A Html Text</html>", "html.parser") 两个参数：第一个参数是要解析的html文本，第二个参数是使用那种解析器，对于HTML来讲就是html 阅读全文

posted @ 2020-10-14 11:26 遥月阅读(7673) 评论(0) 推荐(0)

利用ElementTree解析XML

摘要：三、利用ElementTree解析XML Python标准库中，提供了ET的两种实现。一个是纯Python实现的xml.etree.ElementTree，另一个是速度更快的C语言实现xml.etree.cElementTree。请记住始终使用C语言实现，因为它的速度要快很多，而且内存消耗也要少很多阅读全文

posted @ 2020-10-14 10:35 遥月阅读(459) 评论(0) 推荐(0)

my blog

公告