python08豆瓣电影 爬虫 BeautifulSoup + Reuqests
摘要:主要思路 请求豆瓣的链接获取网页源代码 然后使用 BeatifulSoup 拿到我们要的内容 最后就把数据存储到 excel 文件中
阅读全文
posted @
2020-07-26 19:00
滚雪球效应
阅读(134)
推荐(0)
python数据分析 Numpy基础 数组和矢量计算
摘要:NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。 NumPy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数(
阅读全文
posted @
2020-07-17 20:20
滚雪球效应
阅读(565)
推荐(0)
python数据分析03Python的数据结构、函数和文件
摘要:我们会从Python最基础的数据结构开始:元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后,会学习Python的文件对象,以及如何与本地硬盘交互。 3.1 数据结构和序列 Python的数据结构简单而强大。通晓它们才能成为熟练的Python程序员。 元组 元组是一个
阅读全文
posted @
2020-07-17 19:57
滚雪球效应
阅读(349)
推荐(0)
python数据分析02语法基础
摘要:在我来看,没有必要为了数据分析而去精通Python。我鼓励你使用IPython shell和Jupyter试验示例代码,并学习不同类型、函数和方法的文档。虽然我已尽力让本书内容循序渐进,但读者偶尔仍会碰到没有之前介绍过的内容。 本书大部分内容关注的是基于表格的分析和处理大规模数据集的数据准备工具。为
阅读全文
posted @
2020-07-17 19:23
滚雪球效应
阅读(178)
推荐(0)
python数据分析01准备工作
摘要:第1章 准备工作 1.1 本书的内容 本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”,重点却是Python编程、库,以及用于数据分析的
阅读全文
posted @
2020-07-17 19:20
滚雪球效应
阅读(212)
推荐(0)
python爬虫10 b站爬取使用 selenium+ phantomJS
摘要:但有时候 我们不想要让它打开浏览器去执行 能不能直接在代码里面运行呢 也就是说 有没有一个无形的浏览器呢 恩 phantomJS 就是 它是一个基于 WebKit 的浏览器引擎 可以做到无声无息的操作各种动态网站 比如 js,css选择器,dom操作的 所以对于市面上大多通过 js 渲染的动态网站
阅读全文
posted @
2020-07-15 19:30
滚雪球效应
阅读(371)
推荐(0)
python爬虫09selenium
摘要:selenium 变成了爬虫利器 我们先来安装一下 pip install selenium 接着我们还要下载浏览器驱动 小帅b用的是 Chrome 浏览器 所以下载的是 Chrome 驱动 当然你用别的浏览器也阔以 去相应的地方下载就行了 Chrome: https://sites.google.
阅读全文
posted @
2020-07-15 19:23
滚雪球效应
阅读(157)
推荐(0)
python爬虫07BeautifulSoup
摘要:有一个高效的网页解析库 它的名字叫做 BeautifulSoup 它 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 首先我们要安装一下这个库 pip install beautifulsoup4 beautifulsoup支持不同的解析器 比如 对 HTML 的解析 对 X
阅读全文
posted @
2020-07-15 19:16
滚雪球效应
阅读(124)
推荐(0)
python爬虫06取当当网 Top 500 本五星好评书籍
摘要:主要思路 使用 page 变量来实现翻页 我们使用 requests 请求当当网 然后将返回的 HTML 进行正则解析 由于我们暂时还没学到数据库 所以解析完之后就把内容存到文件中 def main(page): url = 'http://bang.dangdang.com/books/fives
阅读全文
posted @
2020-07-15 18:01
滚雪球效应
阅读(239)
推荐(0)
python爬虫05正则表达式
摘要:字符描述 \ 将下一个字符标记为一个特殊字符(File Format Escape,清单见本表)、或一个原义字符(Identity Escape,有^$()*+?.[\{|共计12个)、或一个向后引用(backreferences)、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个换
阅读全文
posted @
2020-07-15 17:24
滚雪球效应
阅读(186)
推荐(0)
python爬虫04 Requests
摘要:接下来我们要来玩一个新的库 这个库的名称叫做 Requests 这个库比我们上次说的 urllib 可是要牛逼一丢丢的 毕竟 Requests 是在 urllib 的基础上搞出来的 通过它我们可以用更少的代码 模拟浏览器操作 kr 对于不是 python 的内置库 我们需要安装一下 直接使用 pip
阅读全文
posted @
2020-07-15 17:00
滚雪球效应
阅读(220)
推荐(0)
python爬虫02通过 Fiddler 进行手机抓包
摘要:我们要用到一款强大免费的抓包工具 Fiddler你可以到 https://www.telerik.com/download/fiddler去下载 一般情况下 我们通过浏览器来请求服务器的时候 是点对点的 正常情况下 浏览器给服务器发送请求 服务器响应返回数据 但是这个时候 Fiddler非要来这里插
阅读全文
posted @
2020-07-15 15:07
滚雪球效应
阅读(203)
推荐(0)
python爬虫03 Urllib库
摘要:Urllib 这可是 python 内置的库 在 Python 这个内置的 Urllib 库中 有这么 4 个模块 request request模块是我们用的比较多的 就是用它来发起请求 所以我们重点说说这个模块 error error模块呢,就是当我们在使用 request 模块遇到错了 就可以
阅读全文
posted @
2020-07-15 11:38
滚雪球效应
阅读(179)
推荐(0)
python爬虫01在Chrome浏览器抓包
摘要:尽量不要用国产浏览器,很多是有后门的 chrome是首选 百度 按下F12 element标签下对应的HTML代码 点击Network,可以看到很多请求 HTTP请求的方式有好几种,GET,POST,PUT,DELETE,HEAD,OPTIONS,TRACE 不过最常见的就是GET和POST请求 g
阅读全文
posted @
2020-07-15 10:42
滚雪球效应
阅读(388)
推荐(0)
python爬虫00什么是爬虫
摘要:用一个自动化的程序把网站背后的程序爬取下来。 在互联网上许许多多的网站,他们都是托管在服务器上的,这些服务器24小时运行着,刻刻 等待着别人的请求。所以,爬虫首先会模拟请求,就好像你在浏览器输入网址,然后回车那样,爬虫可以用到一些HTTp库指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以家长自己是浏
阅读全文
posted @
2020-07-15 10:20
滚雪球效应
阅读(150)
推荐(0)