随笔分类 - 爬虫
摘要:结构安排 一至十八是第一部分; 十九至二十六是第二部分。 一、大数据时代的挑战 数据抽取、转换、存储 (Data ETL) 原始资料:Raw Data ETL脚本:ETL Scipt 结构化数据:Tidy Data 二、非结构化数据处理与网络爬虫 网页链接器(Web Connector)向目标网页发
阅读全文
摘要:Cookie 如果某个响应中包含一些 cookie,你可以快速访问它们: >>> url = 'http://example.com/some/cookie/setting/url' >>> r = requests.get(url) >>> r.cookies['example_cookie_na
阅读全文
摘要:响应状态码 我们可以检测响应状态码: >>> r = requests.get('http://httpbin.org/get') >>> r.status_code 200 >>> r = requests.get('http://httpbin.org/get') >>> r.status_co
阅读全文
摘要:POST 请求 通常,你想要发送一些编码为表单形式的数据——非常像一个 HTML 表单。要实现这个,只需简单地传递一个字典给 data 参数。你的数据字典在发出请求时会自动编码为表单形式: >>> payload = {'key1': 'value1', 'key2': 'value2'} >>>
阅读全文
摘要:发送请求 一开始要导入 Requests 模块: >>> import requests >>> import requests 然后,尝试获取某个网页。本例子中,我们来获取 Github 的公共时间线: >>> r = requests.get('https://github.com/timeli
阅读全文

浙公网安备 33010602011771号