06 2021 档案
摘要:from urllib.request import urlopen from bs4 import BeautifulSoup as BS url = "http://www.lagou.com" # (1)获取response对象 response = urlopen(url) # (2)获得r
阅读全文
摘要:解析源码:不仅可以使用正则表达式,还可以用beautifulsoup 1) select(标签名)数据标签进行查找 2)通过类名# class属性 对应的值进行查找:.class的属性值 3)通过id的值、id属性对应的值进行查找:#id属性的值 4)组合查找# 不同的查找之间通过空格隔开就可以了
阅读全文
摘要:举例:下载某网页的图片保存到本地 1、urlopen打开链接2、respon.read()获得字节3、对爬取结果的存储 1 from urllib.request import urlopen 2 url_img = 'https://www.lgstatic.com/i/image2/M01/09
阅读全文
摘要:爬虫的步骤: 1)使用python获得url的源码(向服务器发送请求) 2)获得response的响应对象,获得响应的源码 3)解析源码(正则表达式),获得需要抓取的数据 4)存储爬取的资源(可写入到文件中,也可以写入到数据库中) 1 from urllib.request import urlop
阅读全文
浙公网安备 33010602011771号