爬虫 - 随笔分类 - m*x*h

进度条的显示

摘要：demo 01: #!/usr/bin/python #encoding:utf-8 import urllib import os def Schedule(a,b,c): ''' a:已经下载的数据块 b:数据块的大小 c:远程文件的大小 ''' per = 100.0*a*b/c if per 阅读全文

posted @ 2019-01-16 18:26 m*x*h 阅读(377) 评论(0) 推荐(0)

爬虫基础知识

摘要：什么是爬虫？爬虫：就是抓取网页数据的程序。HTTP和HTTPSHTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。HTTPS（Hypertext Transfer Protocol over S... 阅读全文

posted @ 2018-07-23 18:21 m*x*h 阅读(301) 评论(0) 推荐(0)

selenium破解极限

摘要：一共分为两端段代码：第一段：获取cookie第二段：通过cookie登陆这里以百度云为例：第一部分：保存cookies,直接在cmd中执行就好>>> from selenium import webdriver>>> from selenium.webdriver.... 阅读全文

posted @ 2018-04-13 10:53 m*x*h 阅读(185) 评论(0) 推荐(0)

代理ip

摘要：代理（proxies参数）如果需要使用代理，你可以通过为任意请求方法提供 proxies 参数来配置单个请求：import requests# 根据协议类型，选择不同的代理proxies = { "http": "http://12.34.56.79:9527", ... 阅读全文

posted @ 2018-02-23 17:10 m*x*h 阅读(287) 评论(0) 推荐(0)

使用cookie登陆知乎

摘要：只是想说明一个问题，Cookie可以维持登录状态，有些网页当中，访问之后的cookie里面带有登陆账号，和登陆密码，这样可以使用cookie直接访问网页，如知乎，首先登录知乎，将Headers中的Cookie内容复制下来这个需要替换成你自己的Cookie，将其设置到H... 阅读全文

posted @ 2018-02-23 17:08 m*x*h 阅读(871) 评论(0) 推荐(0)

python获取Excel数据

摘要：Python中一般使用xlrd（excel read）来读取Excel文件，使用xlwt（excel write）来生成Excel文件（可以控制Excel中单元格的格式），需要注意的是，用xlrd读取excel是不能对其进行操作的，详细的介绍，基本上都在代码中写明直接... 阅读全文

posted @ 2018-01-25 16:16 m*x*h 阅读(8338) 评论(0) 推荐(0)

数据写入Excel

摘要：通过xlwt这个库，可以将数据写入Excel中，而且通过xlwt写excel格式可以控制颜色、模式、编码、背景色下面基本上是一个练习，熟悉如何操作xlwt库的下面是代码，所有的内容，和介绍，基本上都卸载了上面，一步一步来，基本上都可以熟悉。#coding=utf8i... 阅读全文

posted @ 2018-01-25 16:07 m*x*h 阅读(342) 评论(0) 推荐(0)

python 时间字符串和时间戳之间的转换

摘要：1.将字符串的时间转换为时间戳方法: a = "2013-10-10 23:40:00" 将其转换为时间数组 import time timeArray = time.strptime(a, "%Y-%m... 阅读全文

posted @ 2018-01-19 15:12 m*x*h 阅读(3313) 评论(0) 推荐(0)

淋雨的孩子

奔跑的最快

随笔分类 - 爬虫

公告