[互联网应用]可以练习python爬虫的一些网站和实例

分享网站

由于国家法律的限制以及技术的限制,很多网站都无法正常爬取。如果是新手学习python爬虫技术,推荐以下几个网站,供你参考:

1、崔庆才先生提供的爬虫练习网站:

https://scrape.center/

2、爬虫练习靶场

http://www.spiderbuf.cn/

还有一个python学习方面的内容,也推荐给大家:

Python 网络爬虫:从入门到实践》,作者的练习题答案

https://github.com/Santostang/PythonScraping/blob/master/%E7%AC%AC%E4%BA%8C%E7%89%88/Cha%202%20-%20%E7%BC%96%E5%86%99%E4%BD%A0%E7%9A%84%E7%AC%AC%E4%B8%80%E4%B8%AA%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/Cha%202%20_%E7%AB%A0%E6%9C%AB%E5%AE%9E%E6%88%98.ipynb

 

实例 正则

import re
 
s = "https://blog.csdn.net/weixin_44799217"
ret = re.findall(r"blog.(.*?).net", s)
print(ret)
 
ret2 = re.findall(r"[\.]", s)  
print(ret2)
 
ret3 = re.findall(r"\d\d\d", s)
print(ret3)
 
ret4 = re.findall(r"\d", s)
print(ret4)
 
ret5 = re.findall(r"[^\d]", s)  # 取非
print(ret5)
 
ret6 = re.findall(r"[^https://]", s)  # 取非
print(ret6)

 

pythontip爬虫实战课

扫描二维码可以了解更多Python课程。

 

posted @ 2022-12-16 17:09  viphhs  阅读(1765)  评论(0编辑  收藏  举报