12 2019 档案
摘要:Selenium介绍 起初是一个自动化测试工具;但是在爬虫上可以 用来解决 requests 无法直接执行 JavaScript 代码的问题。 本质:通过驱动浏览器,模拟浏览器的操作(跳转、点击、下拉等), 取到网页渲染之后的结果 注:支持多种浏览器;如:Chrome、Firefox、Phantom
阅读全文
摘要:Beautiful Soup 解析库 简称BS4;是一个可以从 HTML 或 XML 文件中提取数据的 python 库。 中文文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 安装 pip3 install
阅读全文
摘要:爬虫的定义 向网站发起请求,获取资源后分析并提取 有用数据 (我们的爬虫程序只提取网页代码中对我们有用的数据) 爬虫的基本流程 1、发起请求 使用 http 库向目标站点发起请求,即发送一个 Request Request 包含:请求头、请求体等 注:selenium 也是经常用到的模块,可以解析
阅读全文
摘要:jupyter notebook 是基于ipthony 要是用jupyter notebook首先需要安装ipyhon ipython首先安装方法: pip3 install ipython jupyter notebook 的安装有两种方式: 1:命令行安装 pip3 install jupyte
阅读全文
摘要:Matplotlib 作图工具包,一般配合 numpy 和 pandas 一起使用 导入 import numpy as np import pandas as pd import matplotlib.pyplot as plt # 约定俗成 起别名 plt # 会出现警告,不是错 D:\User
阅读全文
摘要:安装 pip3 install pandas 导入 import pandas as pd # 约定俗成 起别名为 pd Series Series 是一种类似于 一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成 创建: 第一种: pd.Series([4,5,6,7,8]) 执行结果
阅读全文
摘要:模块的导入 import numpy as np > 约定俗成 起别名 np 使用 生成 ndarray 对象 array:np.array([1,2,3,4,5]) > array([1, 2, 3, 4, 5]) arange:np.arange(10) > array([0, 1, 2, 3,
阅读全文

浙公网安备 33010602011771号