[互联网应用]可以练习python爬虫的一些网站和实例
分享网站
由于国家法律的限制以及技术的限制,很多网站都无法正常爬取。如果是新手学习python爬虫技术,推荐以下几个网站,供你参考:
1、崔庆才先生提供的爬虫练习网站:
2、爬虫练习靶场
还有一个python学习方面的内容,也推荐给大家:
《Python 网络爬虫:从入门到实践》,作者的练习题答案
实例 正则
import re s = "https://blog.csdn.net/weixin_44799217" ret = re.findall(r"blog.(.*?).net", s) print(ret) ret2 = re.findall(r"[\.]", s) print(ret2) ret3 = re.findall(r"\d\d\d", s) print(ret3) ret4 = re.findall(r"\d", s) print(ret4) ret5 = re.findall(r"[^\d]", s) # 取非 print(ret5) ret6 = re.findall(r"[^https://]", s) # 取非 print(ret6)
pythontip爬虫实战课
扫描二维码可以了解更多Python课程。