2015 年 3月 1 日随笔档案 - KK4SBB

如何识别和防止网络爬虫

摘要： stackoverflow上看到的一个回答，概念性介绍为主，总结的不错。主要就是两种，礼貌的做法是在robots.txt文件中设置允许爬虫爬取的内容；粗暴的做法又分为两种，一种是过滤user agent，另一种是布设一个陷阱，一旦该链接被请求，就认为这是爬虫的行为。原答案在这里，暂时先把原文搬过来，... 阅读全文

posted @ 2015-03-01 14:22 KK4SBB 阅读(830) 评论(0) 推荐(0) 编辑

用python做爬虫的例子

摘要：主要就是用了两个库，urllib和BeautifulSoup.作用是从HTML中解析出解梦的查询词和具体的解释。 1 # -*- coding: utf-8 -*- 2 import urllib, urllib2 3 import time, random 4 from BeautifulSoup... 阅读全文

posted @ 2015-03-01 13:46 KK4SBB 阅读(275) 评论(0) 推荐(0) 编辑

记录几种有关libsvm格式数据的list和dict用法

摘要： 1 # list元素求和2 sum = reduce(lambda x,y: x+y, mylist)1 # 比较两个 lists 的元素是否完全一致2 if all(x==y for x, y in zip(X, Y))3 do something1 # 按照 key 排列字典的元素，以... 阅读全文

posted @ 2015-03-01 13:37 KK4SBB 阅读(545) 评论(0) 推荐(0) 编辑

导航

2015年3月1日