随笔分类 -  爬虫

摘要:demo 01: #!/usr/bin/python #encoding:utf-8 import urllib import os def Schedule(a,b,c): ''' a:已经下载的数据块 b:数据块的大小 c:远程文件的大小 ''' per = 100.0*a*b/c if per 阅读全文
posted @ 2019-01-16 18:26 m*x*h 阅读(372) 评论(0) 推荐(0)
摘要:什么是爬虫?爬虫:就是抓取网页数据的程序。HTTP和HTTPSHTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。HTTPS(Hypertext Transfer Protocol over S... 阅读全文
posted @ 2018-07-23 18:21 m*x*h 阅读(296) 评论(0) 推荐(0)
摘要:一共分为两端段代码: 第一段:获取cookie第二段:通过cookie登陆这里以百度云为例:第一部分:保存cookies,直接在cmd中执行就好>>> from selenium import webdriver>>> from selenium.webdriver.... 阅读全文
posted @ 2018-04-13 10:53 m*x*h 阅读(181) 评论(0) 推荐(0)
摘要:代理(proxies参数)如果需要使用代理,你可以通过为任意请求方法提供 proxies 参数来配置单个请求:import requests# 根据协议类型,选择不同的代理proxies = { "http": "http://12.34.56.79:9527", ... 阅读全文
posted @ 2018-02-23 17:10 m*x*h 阅读(281) 评论(0) 推荐(0)
摘要:只是想说明一个问题,Cookie可以维持登录状态,有些网页当中,访问之后的cookie里面带有登陆账号,和登陆密码,这样可以使用cookie直接访问网页,如知乎,首先登录知乎,将Headers中的Cookie内容复制下来这个需要替换成你自己的Cookie,将其设置到H... 阅读全文
posted @ 2018-02-23 17:08 m*x*h 阅读(845) 评论(0) 推荐(0)
摘要:Python中一般使用xlrd(excel read)来读取Excel文件,使用xlwt(excel write)来生成Excel文件(可以控制Excel中单元格的格式),需要注意的是,用xlrd读取excel是不能对其进行操作的,详细的介绍,基本上都在代码中写明直接... 阅读全文
posted @ 2018-01-25 16:16 m*x*h 阅读(8333) 评论(0) 推荐(0)
摘要:通过xlwt这个库,可以将数据写入Excel中,而且通过xlwt写excel格式可以控制 颜色、模式、编码、背景色下面基本上是一个练习,熟悉如何操作xlwt库的下面是代码,所有的内容,和介绍,基本上都卸载了上面,一步一步来,基本上都可以熟悉。#coding=utf8i... 阅读全文
posted @ 2018-01-25 16:07 m*x*h 阅读(332) 评论(0) 推荐(0)
摘要:1.将字符串的时间转换为时间戳 方法: a = "2013-10-10 23:40:00" 将其转换为时间数组 import time timeArray = time.strptime(a, "%Y-%m... 阅读全文
posted @ 2018-01-19 15:12 m*x*h 阅读(3307) 评论(0) 推荐(0)