随笔分类 -  爬虫--requests

摘要:urllib2 的异常错误处理 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。 这里主要说的是URLError和HTTPError,以及对它们的错误处理。 URLError URLError 产生 阅读全文
posted @ 2018-06-03 14:06 阿谋 阅读(4421) 评论(0) 推荐(0)
摘要:一劳永逸解决:TypeError: cannot use a string pattern on a bytes-like object 一劳永逸解决:TypeError: cannot use a string pattern on a bytes-like object TypeError: c 阅读全文
posted @ 2018-06-02 23:47 阿谋 阅读(4020) 评论(0) 推荐(0)
摘要:有道桌面程序 from tkinter import * from tkinter import messagebox import requests def translation(): # 获取用户输入的单词 content = entry.get() print(content) if con 阅读全文
posted @ 2018-06-02 22:12 阿谋 阅读(221) 评论(0) 推荐(0)
摘要:HTTP代理神器Fiddler Fiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候,默认IE的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置。 工作原理 Fiddler 是以代理web服务器的形式工作的,它使用代理地址:1 阅读全文
posted @ 2018-06-01 22:17 阿谋 阅读(975) 评论(0) 推荐(0)
摘要:HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT 阅读全文
posted @ 2018-06-01 21:49 阿谋 阅读(14320) 评论(1) 推荐(2)
摘要:爬虫根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作原理 通用网络爬 阅读全文
posted @ 2018-06-01 21:33 阿谋 阅读(4765) 评论(0) 推荐(0)
摘要:为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。 数 阅读全文
posted @ 2018-06-01 21:30 阿谋 阅读(350) 评论(0) 推荐(0)