python爬虫实例

爬虫是一个很有意思的东西,可以从网络上爬取到想要的东西,那为什么用爬虫来爬取数据而不用人工来进行数据的下载呢?

首先爬虫爬取数据速度可比手工下载要快的多,而且爬虫爬取数据的速度的是根据网络速度来进行决定的,而且可以通过多线程,进行同时进行数据的爬取,实现更高效的数据爬取。

import parsel  #导入模块
import requests #导入requests模块,这个模块可以进行数据的get拉取
url = 'https://www.bbiquge.net/book/133312/56524592.html'  #利用url接受网站地址
rep = requests.get(url)   #利用requests模块的get去拉取数据rul里面的数据,
rep.encoding='gbk'  #将编码转换成gbk的 对中文字符而言,GBK 用两个字节存,UTF-8 用三个字节存
print(rep.text)    #输出rep接收的数据,并text的格式输出内容

接下来再进行

selector = parsel.Selector(rep.text)    #变成可解析的对象
title=selector.css('#main > h1::text').get()   #利用css方式进行get,并可以
title1=selector.xpath('/html/body/div[3]/h1/text()').get()   #利用xpath的方式进行get
print(title1)        #输出xpath方式查询转完格式的变量
print(title)         #输出css方式查询转完格式的变量
content_list=selector.css('#content::text').getall()   #get只是得到一条记录,想要得到一整页,全部就要用getall
content=''.join(content_list)  
print(content)   # 提取出个想要的字符来进行输出
with open(f'F:\新建文件夹\demo\os.txt',mode="w",encoding='utf-8') as f:    
    f.write(title)
    f.write('/n')
    f.write(content)  #将文件读取出来并且写入到文件中

就可以将爬取东西全部提取出来,进行输出了。

 posted on 2023-03-03 15:17  ALyh  阅读(64)  评论(0)    收藏  举报