大概是除夕之前的几天,我开始真正地学习Python。选择的教材是《Python基础教程(第二版)》,学了大概一个月左右,就开始想写一个爬虫了。

  首先简单地使用urlopen打开一个网址,然后用print输出。

  

 1 import urllib.request
 2 
 3 
 4 def Spider(url):
 5     page=urllib.request.urlopen(url).read().decode("UTF-8")
 6     print(page)
 7 
 8 
 9 if __name__=="__main__":
10     url="http://www.baidu.com"
11     Spider(url)

 

  然后就尝试着将抓到的网页保存成一个txt文件。

 1 import urllib.request
 2 
 3 
 4 def Spider(url):
 5     page=urllib.request.urlopen(url).read().decode("UTF-8")
 6     f=open("E://du.html","w+",encoding="UTF-8")
 7     f.write(page)
 8 
 9 
10 if __name__=="__main__":
11     url="http://www.baidu.com"
12     Spider(url)

  如果想要从网页提取确切的信息,我们需要使用正则表达式以及Python的正则表达式模块re。

  正则表达式教程:待续。

  Python教程:待续。

 1 import urllib.request
 2 import re
 3 
 4 def Spider(url):
 5     page=urllib.request.urlopen(url).read().decode("UTF-8")
 6     pat="<title>(.*?)</title>"
 7     s=re.findall(pat,page)
 8     print(s[0])
 9 
10 
11 if __name__=="__main__":
12     url="http://www.zhihu.com"
13     Spider(url)

如此,一个能够获取网页指定信息的爬虫就诞生了。