05 2013 档案

1个小爬虫程序的学习记录
摘要:今天学习使用python编写一个最简单的小爬虫程序,遇到了许多问题,最终终于解决。现记录中途遇到的困难和解决方法。程序功能:从电影天堂网站读取“最新电影下载”列表内容。用到知识:python的urllib2模块读取网页内容,然后使用re匹配并提取内容。附加问题:字符编码问题。代码:# coding: utf8#! /usr/bin/env pythonimport urllib2,reurl='http://www.dytt8.net/'data=urllib2.urlopen(url).read().decode('gbk')u8data=data.encod 阅读全文

posted @ 2013-05-31 20:12 knd2 阅读(207) 评论(0) 推荐(0)

导航