Python爬虫(1)

　　大概是除夕之前的几天，我开始真正地学习Python。选择的教材是《Python基础教程（第二版）》，学了大概一个月左右，就开始想写一个爬虫了。

　　首先简单地使用urlopen打开一个网址，然后用print输出。

 1 import urllib.request
 2 
 3 
 4 def Spider(url):
 5     page=urllib.request.urlopen(url).read().decode("UTF-8")
 6     print(page)
 7 
 8 
 9 if __name__=="__main__":
10     url="http://www.baidu.com"
11     Spider(url)

　　然后就尝试着将抓到的网页保存成一个txt文件。

 1 import urllib.request
 2 
 3 
 4 def Spider(url):
 5     page=urllib.request.urlopen(url).read().decode("UTF-8")
 6     f=open("E://du.html","w+",encoding="UTF-8")
 7     f.write(page)
 8 
 9 
10 if __name__=="__main__":
11     url="http://www.baidu.com"
12     Spider(url)

　　如果想要从网页提取确切的信息，我们需要使用正则表达式以及Python的正则表达式模块re。

　　正则表达式教程：待续。

　　Python教程：待续。

 1 import urllib.request
 2 import re
 3 
 4 def Spider(url):
 5     page=urllib.request.urlopen(url).read().decode("UTF-8")
 6     pat="<title>(.*?)</title>"
 7     s=re.findall(pat,page)
 8     print(s[0])
 9 
10 
11 if __name__=="__main__":
12     url="http://www.zhihu.com"
13     Spider(url)

如此，一个能够获取网页指定信息的爬虫就诞生了。

发表于 2015-03-15 19:56 MemZl 阅读(153) 评论(0) 收藏举报

公告