上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 66 下一页
摘要: urllib模块发起的POST请求 案例:爬取百度翻译的翻译结果 1.通过浏览器捉包工具,找到POST请求的url 针对ajax页面请求的所对应url获取,需要用到浏览器的捉包工具。查看百度翻译针对某个字条发送ajax请求,所对应的url 点击clear按钮可以把抓包工具,所抓到请求清空 然后填上翻 阅读全文
posted @ 2019-08-18 15:59 minger_lcm 阅读(5576) 评论(0) 推荐(0)
摘要: requests模块(response常用属性) 基于requests模块的get请求 基于requests模块发起ajax的get请求 基于requests模块发起ajax的post请求 阅读全文
posted @ 2019-08-17 22:19 minger_lcm 阅读(361) 评论(0) 推荐(0)
摘要: response常用属性 阅读全文
posted @ 2019-08-17 22:18 minger_lcm 阅读(1574) 评论(0) 推荐(0)
摘要: 方法: 使用urlencode函数 urllib.request.urlopen() 开发者工具浏览器按F12或者右键按检查 ,有个抓包工具network,刷新页面,可以看到网页资源,可以看到请求头信息,UA 在抓包工具点击任意请求,可以看到所有请求信息,向应信息, 主要用到headers,resp 阅读全文
posted @ 2019-08-17 16:01 minger_lcm 阅读(898) 评论(0) 推荐(0)
摘要: 案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦’的页面数据) 编码错误 【注意】上述代码中url存在非ascii编码的数据,则该url无效。如果对其发起请求,则会报如下错误: url的特性:url不可以存在非ASCII编码字符数据,url必须为ASCII编码的数据值。所以我们 阅读全文
posted @ 2019-08-14 16:32 minger_lcm 阅读(667) 评论(0) 推荐(0)
摘要: python 爬虫 urllib模块介绍 python 爬虫 urllib模块 url编码处理 python 爬虫 urllib模块 反爬虫机制UA python 爬虫 urllib模块 发起post请求 阅读全文
posted @ 2019-08-11 18:10 minger_lcm 阅读(170) 评论(0) 推荐(0)
摘要: 一.urllib库 概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 使用流程: 指定url 针对指 阅读全文
posted @ 2019-08-11 18:09 minger_lcm 阅读(698) 评论(0) 推荐(0)
摘要: 爬虫 介绍 python 爬虫 urllib模块 python 爬虫 requests模块 阅读全文
posted @ 2019-08-11 18:02 minger_lcm 阅读(184) 评论(0) 推荐(0)
摘要: 网络爬虫的介绍 网络爬虫的介绍 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。这个过程也是爬取数据过程 哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多 阅读全文
posted @ 2019-08-11 18:01 minger_lcm 阅读(435) 评论(0) 推荐(0)
摘要: /etc/sysctl.conf 用于控制内核相关的配置参数,而且它的内容全部是对应于 /proc/sys/ 这个目录的子目录及文件 net.ipv4.tcp_sack = 1#关闭tcp_sack#启用有选择的应答(Selective Acknowledgment),#这可以通过有选择地应答乱序接 阅读全文
posted @ 2019-08-06 01:57 minger_lcm 阅读(3183) 评论(0) 推荐(0)
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 66 下一页