摘要: 关于open()的mode参数: 阅读全文
posted @ 2018-10-08 14:28 寒爵 阅读(1290) 评论(0) 推荐(0) 编辑
摘要: 在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个库了,统一为urllib,其官方文档链接为:https://docs.python.org/3/library/urllib.html。 urllib库,是Python内置 阅读全文
posted @ 2018-09-30 13:59 寒爵 阅读(1794) 评论(0) 推荐(1) 编辑
摘要: Python爬虫(1):基本原理 Python爬虫(2):Requests的基本用法 Python爬虫(3):Requests的高级用法 Python爬虫(4):Beautiful Soup的常用方法 Python爬虫(5):豆瓣读书练手爬虫 Python爬虫(6):煎蛋网全站妹子图爬虫 Pytho 阅读全文
posted @ 2018-09-29 10:45 寒爵 阅读(441) 评论(0) 推荐(0) 编辑
摘要: 下载chromedriver,链接:http://chromedriver.storage.googleapis.com/index.html 阅读全文
posted @ 2018-09-29 09:00 寒爵 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 使用 selenium + phantomjs 实现 1、准备环境 selenium(一个用于web应用程测试的工具)安装:pip install seleniumphantomjs(是一种无界面的浏览器,用于完成网页的渲染)下载:http://phantomjs.org/download.html 阅读全文
posted @ 2018-09-28 15:22 寒爵 阅读(914) 评论(0) 推荐(0) 编辑
摘要: 当我们进行网页爬虫时,我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码,我们必须经过渲染处理才能获得原始数据。此时,如果我们仍采用常规方法从中抓取数据,那么我们将一无所获。那么,通过Web kit可以简单解决这个问题。Web kit 可以 阅读全文
posted @ 2018-09-28 11:32 寒爵 阅读(5247) 评论(0) 推荐(0) 编辑
摘要: 第一步:下载.whl,地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyqt4,这里可以下载不同的python版本对应的包。 第二步:选择一个目录,将下载好的文件放到该目录下,然后cmd下,cd进入该目录,执行命令:pip install PyQt4- 阅读全文
posted @ 2018-09-28 10:33 寒爵 阅读(4095) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup def parse_html(num): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0... 阅读全文
posted @ 2018-09-26 16:40 寒爵 阅读(886) 评论(0) 推荐(0) 编辑
摘要: Python中的random模块用于生成随机数。 使用该模块之前需要 import random 几个常用的函数用法: 1、random.random 函数原型: 用于生成一个0到1的随机符点数: 0 <= n < 1.0 2、random.uniform 函数原型: 用于生成一个指定范围内的随机符 阅读全文
posted @ 2018-09-26 11:06 寒爵 阅读(1053) 评论(0) 推荐(0) 编辑
摘要: 文章转载自:https://www.cnblogs.com/jingmoxukong/p/7755643.html 概述 WebSocket 是什么? WebSocket 是一种网络通信协议。RFC6455 定义了它的通信标准。 WebSocket 是 HTML5 开始提供的一种在单个 TCP 连接 阅读全文
posted @ 2018-09-26 10:12 寒爵 阅读(488) 评论(0) 推荐(0) 编辑