摘要:
from urllib.request import urlopen from bs4 import BeautifulSoup as BS url = "http://www.lagou.com" # (1)获取response对象 response = urlopen(url) # (2)获得r 阅读全文
posted @ 2021-06-24 19:32
啊呀啊呀静
阅读(83)
评论(0)
推荐(0)
摘要:
解析源码:不仅可以使用正则表达式,还可以用beautifulsoup 1) select(标签名)数据标签进行查找 2)通过类名# class属性 对应的值进行查找:.class的属性值 3)通过id的值、id属性对应的值进行查找:#id属性的值 4)组合查找# 不同的查找之间通过空格隔开就可以了 阅读全文
posted @ 2021-06-24 19:31
啊呀啊呀静
阅读(201)
评论(0)
推荐(0)
摘要:
举例:下载某网页的图片保存到本地 1、urlopen打开链接2、respon.read()获得字节3、对爬取结果的存储 1 from urllib.request import urlopen 2 url_img = 'https://www.lgstatic.com/i/image2/M01/09 阅读全文
posted @ 2021-06-24 19:27
啊呀啊呀静
阅读(204)
评论(0)
推荐(0)
摘要:
爬虫的步骤: 1)使用python获得url的源码(向服务器发送请求) 2)获得response的响应对象,获得响应的源码 3)解析源码(正则表达式),获得需要抓取的数据 4)存储爬取的资源(可写入到文件中,也可以写入到数据库中) 1 from urllib.request import urlop 阅读全文
posted @ 2021-06-24 19:23
啊呀啊呀静
阅读(132)
评论(0)
推荐(0)
浙公网安备 33010602011771号