随笔分类 - spider
摘要:"""b站排行榜爬虫(scrapy)https://www.bilibili.com/ranking#!/all/0/0/7/爬取编号,标题,url,综合评分,播放量,评论数存储到mysql数据库"""import requestsfrom fake_useragent import FakeUse
阅读全文
摘要:'''爬取内涵吧段子所有笑话(带标题,作者)总结:解码上,使用gbk2312编码的,我们可以采取gbk解码。 不会报错'''from fake_useragent import FakeUserAgentimport requestsimport chardetimport refrom lxml
阅读全文
摘要:"""本案例不涉及数据提取,仅指导 网页分页爬取的两种方式 思路非第一种:利用while Ture,传参,然后在设定一个判断条件,案例中用的是如果找不到下一页,循环退出(可用于异步刷新网站)第二种:利用while Ture不断循环, 获取下一页url,获取不到,循环退出。 优化了异常处理。当输入的贴
阅读全文
摘要:"""拉链函数,zip将几个列表的数据进行封装,一一对应。如果一方列表的数据,比另一方少,那么按数据少的一方对应"""# 数据个数对应相等list1=[1,2,3,4,5,]list2=[6,7,8,9,10]data = zip(list1,list2)# 输出为元组for i in data:
阅读全文
摘要:'两种方式' import urllib status=urllib.urlopen("//www.jb51.net").code print status import requests code=requests.get("//www.jb51.net").status_code print c
阅读全文
摘要:# from urllib import parse,request# import jsonimport requests# 有道翻译urlurl = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"# po
阅读全文
摘要:"""使用requests 设置ip代理"""import requestsdef func(): url = 'http://ip.27399.com/' proxies = {"http":"101.65.24.108:8118"} # 使用proxies这个函数 html = requests
阅读全文
摘要:"""使用随机User-Agent库,爬取笔趣阁万古天帝章节目录"""import requestsfrom fake_useragent import FakeUserAgentimport randomimport chardetdef biquge(): # 定义url, url = "htt
阅读全文
摘要:"""使用requests库 在这里爬取百度搜索的端午节页面(使用request库进行get传参)"""import requestsimport chardeturl = "https://www.baidu.com/s?"headers = {"User-Agent":"Mozilla/5.0
阅读全文
摘要:"""使用urllib库 提交post请求, 有道翻译"""from urllib import requestfrom urllib import parseimport jsonurl = "http://fanyi.youdao.com/translate?smartresult=dict&s
阅读全文
摘要:"""使用urllib库 爬取豆瓣电影 ajax(异步刷新)"""from urllib import request,parseimport chardetimport json# 定义豆瓣的urlurl = "https://movie.douban.com/j/chart/top_list?"
阅读全文
摘要:"""使用urlencode 函数拼接get请求参数"""from urllib import parse,request# https://www.baidu.com/s?wd=端午节url = "http://www.baidu.com/s?"paramDic ={ "wd":"端午节"}# 将
阅读全文
摘要:"""1.使用第一种反反爬措施User-Agent(伪装浏览器)"""import chardetimport requestsfrom urllib import request# 使用etree python3.5以上 ,不支持etree,from lxml import html# 1.得到所
阅读全文
摘要:"""使用cook模拟登陆(反 登录)"""from urllib import requestimport chardetdef baiDu(): url = "https://www.baidu.com/" headers={"User-Agent": "Mozilla/5.0 (Windows
阅读全文
摘要:"""使用ip代理进行网站访问,(反封禁ip手段)"""from urllib import requestimport chardetclass BaiDu(object): def baidu(self): url = "https://www.baidu.com/" headers = { "
阅读全文

浙公网安备 33010602011771号