爬虫-python(一) 初识爬虫

开始写爬虫随笔,总结和分享技术,也希望对未来换工作有帮助。 本系列随笔遵循两个原则,一是简洁,二是亲测可用。开干。

1. 环境准备

  python 3.9.0

  IDE:PyCharm

  两者都可以从官网下载,安装简单,不再累述。

2. 最简单的爬虫

爬虫最基本的流程是 发送请求(get/post)-- 获取响应结果 -- 解析响应结果(xpath,css)-- 持久化存储(文件、库)。

打开PyCharm,选择File-NewProject ,新建1个项目,注意第一次使用的时候没有解释器,点击解释器右侧齿轮标志选择 Add Local, 然后选择本地安装的python.exe,创建1个解释器。

 

 

 

 

在location中填写路径,然后点击create按钮,新项目就创建好了。 在项目路径下新建1个python文件,开始写代码。

 

 

代码非常简单,不需要说明了。

from urllib.request import urlopen


# 发送请求,获取服务器给的响应
url = "http://www.baidu.com"
response = urlopen(url)

# 读取结果,无法正常显示中文
html = response.read()

# 进行解码操作,转为utf-8
html_decode = html.decode()

# 打印结果
print(html_decode)

右键py文件选择run ,就可以在控制台输出结果了。

 

 

本次没有涉及到解析爬虫结果和持久化存储爬虫结果,后面会陆续讲到。

如有疑问欢迎留言。

 

posted @ 2020-12-23 23:36  荆棘谷三季稻  阅读(84)  评论(0)    收藏  举报