大概是除夕之前的几天,我开始真正地学习Python。选择的教材是《Python基础教程(第二版)》,学了大概一个月左右,就开始想写一个爬虫了。
首先简单地使用urlopen打开一个网址,然后用print输出。
1 import urllib.request 2 3 4 def Spider(url): 5 page=urllib.request.urlopen(url).read().decode("UTF-8") 6 print(page) 7 8 9 if __name__=="__main__": 10 url="http://www.baidu.com" 11 Spider(url)
然后就尝试着将抓到的网页保存成一个txt文件。
1 import urllib.request 2 3 4 def Spider(url): 5 page=urllib.request.urlopen(url).read().decode("UTF-8") 6 f=open("E://du.html","w+",encoding="UTF-8") 7 f.write(page) 8 9 10 if __name__=="__main__": 11 url="http://www.baidu.com" 12 Spider(url)
如果想要从网页提取确切的信息,我们需要使用正则表达式以及Python的正则表达式模块re。
正则表达式教程:待续。
Python教程:待续。
1 import urllib.request 2 import re 3 4 def Spider(url): 5 page=urllib.request.urlopen(url).read().decode("UTF-8") 6 pat="<title>(.*?)</title>" 7 s=re.findall(pat,page) 8 print(s[0]) 9 10 11 if __name__=="__main__": 12 url="http://www.zhihu.com" 13 Spider(url)
如此,一个能够获取网页指定信息的爬虫就诞生了。
浙公网安备 33010602011771号