随笔档案「2021年6月24日」：bs4解析拉勾网网页 ... - 啊呀啊呀静

2021年6月24日

摘要： from urllib.request import urlopen from bs4 import BeautifulSoup as BS url = "http://www.lagou.com" # (1)获取response对象 response = urlopen(url) # (2)获得r 阅读全文

posted @ 2021-06-24 19:32 啊呀啊呀静阅读(93) 评论(0) 推荐(0)

入门03-bs解析常用方法

摘要：解析源码：不仅可以使用正则表达式，还可以用beautifulsoup 1) select（标签名）数据标签进行查找 2)通过类名# class属性对应的值进行查找:.class的属性值 3)通过id的值、id属性对应的值进行查找：#id属性的值 4)组合查找# 不同的查找之间通过空格隔开就可以了阅读全文

posted @ 2021-06-24 19:31 啊呀啊呀静阅读(208) 评论(0) 推荐(0)

入门02-通过爬虫获取文件

摘要：举例：下载某网页的图片保存到本地 1、urlopen打开链接2、respon.read()获得字节3、对爬取结果的存储 1 from urllib.request import urlopen 2 url_img = 'https://www.lgstatic.com/i/image2/M01/09 阅读全文

posted @ 2021-06-24 19:27 啊呀啊呀静阅读(212) 评论(0) 推荐(0)

入门01-爬取拉勾网页面的链接

摘要：爬虫的步骤： 1）使用python获得url的源码（向服务器发送请求） 2）获得response的响应对象，获得响应的源码 3）解析源码（正则表达式），获得需要抓取的数据 4）存储爬取的资源（可写入到文件中，也可以写入到数据库中） 1 from urllib.request import urlop 阅读全文

posted @ 2021-06-24 19:23 啊呀啊呀静阅读(142) 评论(0) 推荐(0)

公告