1个小爬虫程序的学习记录
摘要:今天学习使用python编写一个最简单的小爬虫程序,遇到了许多问题,最终终于解决。现记录中途遇到的困难和解决方法。程序功能:从电影天堂网站读取“最新电影下载”列表内容。用到知识:python的urllib2模块读取网页内容,然后使用re匹配并提取内容。附加问题:字符编码问题。代码:# coding: utf8#! /usr/bin/env pythonimport urllib2,reurl='http://www.dytt8.net/'data=urllib2.urlopen(url).read().decode('gbk')u8data=data.encod
阅读全文
posted @ 2013-05-31 20:12
浙公网安备 33010602011771号