随笔分类 -  爬虫

摘要:在做采集器的过程中,经常会遇到IP限制的情况,这时候可以通过切换IP能继续访问。如果是多IP的服务器,那么可以通过切换出口Ip来实现。首先是如何获取服务器绑定的IP1 import netifaces as ni2 def getLocalEthIps():3 for dev in ni.int... 阅读全文
posted @ 2015-07-04 20:25 Chris*Chen
摘要:文章转载自:https://blog.linuxeye.com/410.html代理服务器:http://www.proxy.com.ru 1 #coding: utf-8 2 3 import urllib2 4 import re 5 import time 6 import th... 阅读全文
posted @ 2015-07-01 22:20 Chris*Chen
摘要:抓取腾讯视频存入数据库! 1 #coding: utf-8 2 import re 3 import urllib2 4 from bs4 import BeautifulSoup 5 import time 6 import MySQLdb 7 import sys 8 reloa... 阅读全文
posted @ 2015-06-28 20:18 Chris*Chen
摘要:下面我们再来看看urllib模块提供的 urlretrieve() 函数。urlretrieve() 方法直接将远程数据下载到本地。>>> help(urllib.urlretrieve)Help on function urlretrieve in module urllib:urlretriev... 阅读全文
posted @ 2015-05-02 15:41 Chris*Chen
摘要:需要获取的页面:参考了此处,做了修改,代码如下: 1 #coding:utf-8 2 import urllib2 3 import urllib 4 import re 5 import sys 6 import os 7 import time 8 9 10 class Y... 阅读全文
posted @ 2015-05-01 22:40 Chris*Chen
摘要:1、Beautiful Soup 4.3.2下载2、下载完成后解压,放在Python的安装目录下,假设放到C:/Python3、运行cmd,切换到C:/Python/Beautiful Soup 4.3.2/目录下(根据自己解压缩的目录和下载的版本号修改) cd/dC:/Python/Beauti... 阅读全文
posted @ 2015-04-26 12:15 Chris*Chen