极寒之冰

2011年10月6日

运用BeautifulSoup抓取网页的链接

摘要: 之前一直都是做前端,不知道搜索引擎后台核心是怎样实现。今天看到bd内部的spider资料,决定运用先前学过的python模拟一把,把指定网页的a标签中的href提取出来。 运用到扩展模块BeautifulSoup(http://www.crummy.com/software/BeautifulSoup/),原理很简单,先把网页提取出来,再提取a标签,再过滤出href,最后完善一下文本。 阅读全文

posted @ 2011-10-06 16:55 极寒之冰 阅读(7672) 评论(0) 推荐(0) 编辑

导航