爬虫-python（一）初识爬虫

开始写爬虫随笔，总结和分享技术，也希望对未来换工作有帮助。本系列随笔遵循两个原则，一是简洁，二是亲测可用。开干。

1. 环境准备

python 3.9.0

IDE：PyCharm

两者都可以从官网下载，安装简单，不再累述。

2. 最简单的爬虫

爬虫最基本的流程是发送请求（get/post）-- 获取响应结果 -- 解析响应结果（xpath,css）-- 持久化存储(文件、库)。

打开PyCharm,选择File-NewProject ,新建1个项目，注意第一次使用的时候没有解释器，点击解释器右侧齿轮标志选择 Add Local, 然后选择本地安装的python.exe，创建1个解释器。

在location中填写路径，然后点击create按钮，新项目就创建好了。在项目路径下新建1个python文件，开始写代码。

代码非常简单，不需要说明了。

from urllib.request import urlopen


# 发送请求，获取服务器给的响应
url = "http://www.baidu.com"
response = urlopen(url)

# 读取结果,无法正常显示中文
html = response.read()

# 进行解码操作，转为utf-8
html_decode = html.decode()

# 打印结果
print(html_decode)

右键py文件选择run ,就可以在控制台输出结果了。

本次没有涉及到解析爬虫结果和持久化存储爬虫结果，后面会陆续讲到。

如有疑问欢迎留言。

posted @ 2020-12-23 23:36 荆棘谷三季稻阅读(90) 评论(0) 收藏举报

刷新页面返回顶部

荆棘谷三季稻

爬虫-python（一） 初识爬虫

公告

爬虫-python（一）初识爬虫