2015年3月1日

摘要: stackoverflow上看到的一个回答,概念性介绍为主,总结的不错。主要就是两种,礼貌的做法是在robots.txt文件中设置允许爬虫爬取的内容;粗暴的做法又分为两种,一种是过滤user agent,另一种是布设一个陷阱,一旦该链接被请求,就认为这是爬虫的行为。原答案在这里,暂时先把原文搬过来,... 阅读全文
posted @ 2015-03-01 14:22 KK4SBB 阅读(830) 评论(0) 推荐(0) 编辑
 
摘要: 主要就是用了两个库,urllib和BeautifulSoup.作用是从HTML中解析出解梦的查询词和具体的解释。 1 # -*- coding: utf-8 -*- 2 import urllib, urllib2 3 import time, random 4 from BeautifulSoup... 阅读全文
posted @ 2015-03-01 13:46 KK4SBB 阅读(275) 评论(0) 推荐(0) 编辑
 
摘要: 1 # list元素求和2 sum = reduce(lambda x,y: x+y, mylist)1 # 比较两个 lists 的元素是否完全一致2 if all(x==y for x, y in zip(X, Y))3 do something1 # 按照 key 排列字典的元素,以... 阅读全文
posted @ 2015-03-01 13:37 KK4SBB 阅读(545) 评论(0) 推荐(0) 编辑