python爬虫与数据分析 - 随笔分类 - 滚雪球效应

摘要：主要思路请求豆瓣的链接获取网页源代码然后使用 BeatifulSoup 拿到我们要的内容最后就把数据存储到 excel 文件中阅读全文

posted @ 2020-07-26 19:00 滚雪球效应阅读(136) 评论(0) 推荐(0)

摘要：NumPy（Numerical Python的简称）是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。 NumPy的部分功能如下： ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数（阅读全文

posted @ 2020-07-17 20:20 滚雪球效应阅读(570) 评论(0) 推荐(0)

python数据分析03Python的数据结构、函数和文件

摘要：我们会从Python最基础的数据结构开始：元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后，会学习Python的文件对象，以及如何与本地硬盘交互。 3.1 数据结构和序列 Python的数据结构简单而强大。通晓它们才能成为熟练的Python程序员。元组元组是一个阅读全文

posted @ 2020-07-17 19:57 滚雪球效应阅读(352) 评论(0) 推荐(0)

python数据分析02语法基础

摘要：在我来看，没有必要为了数据分析而去精通Python。我鼓励你使用IPython shell和Jupyter试验示例代码，并学习不同类型、函数和方法的文档。虽然我已尽力让本书内容循序渐进，但读者偶尔仍会碰到没有之前介绍过的内容。本书大部分内容关注的是基于表格的分析和处理大规模数据集的数据准备工具。为阅读全文

posted @ 2020-07-17 19:23 滚雪球效应阅读(184) 评论(0) 推荐(0)

python数据分析01准备工作

摘要：第1章准备工作 1.1 本书的内容本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境，掌握这些，可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”，重点却是Python编程、库，以及用于数据分析的阅读全文

posted @ 2020-07-17 19:20 滚雪球效应阅读(215) 评论(0) 推荐(0)

python爬虫10 b站爬取使用 selenium+ phantomJS

摘要：但有时候我们不想要让它打开浏览器去执行能不能直接在代码里面运行呢也就是说有没有一个无形的浏览器呢恩 phantomJS 就是它是一个基于 WebKit 的浏览器引擎可以做到无声无息的操作各种动态网站比如 js，css选择器，dom操作的所以对于市面上大多通过 js 渲染的动态网站阅读全文

posted @ 2020-07-15 19:30 滚雪球效应阅读(373) 评论(0) 推荐(0)

python爬虫09selenium

摘要：selenium 变成了爬虫利器我们先来安装一下 pip install selenium 接着我们还要下载浏览器驱动小帅b用的是 Chrome 浏览器所以下载的是 Chrome 驱动当然你用别的浏览器也阔以去相应的地方下载就行了 Chrome: https://sites.google. 阅读全文

posted @ 2020-07-15 19:23 滚雪球效应阅读(160) 评论(0) 推荐(0)

python爬虫07BeautifulSoup

摘要：有一个高效的网页解析库它的名字叫做 BeautifulSoup 它是一个可以从 HTML 或 XML 文件中提取数据的 Python 库首先我们要安装一下这个库 pip install beautifulsoup4 beautifulsoup支持不同的解析器比如对 HTML 的解析对 X 阅读全文

posted @ 2020-07-15 19:16 滚雪球效应阅读(124) 评论(0) 推荐(0)

python爬虫06取当当网 Top 500 本五星好评书籍

摘要：主要思路使用 page 变量来实现翻页我们使用 requests 请求当当网然后将返回的 HTML 进行正则解析由于我们暂时还没学到数据库所以解析完之后就把内容存到文件中 def main(page): url = 'http://bang.dangdang.com/books/fives 阅读全文

posted @ 2020-07-15 18:01 滚雪球效应阅读(239) 评论(0) 推荐(0)

python爬虫05正则表达式

摘要：字符描述 \ 将下一个字符标记为一个特殊字符（File Format Escape，清单见本表）、或一个原义字符（Identity Escape，有^$()*+?.[\{|共计12个)、或一个向后引用（backreferences）、或一个八进制转义符。例如，“n”匹配字符“n”。“\n”匹配一个换阅读全文

posted @ 2020-07-15 17:24 滚雪球效应阅读(188) 评论(0) 推荐(0)

python爬虫04 Requests

摘要：接下来我们要来玩一个新的库这个库的名称叫做 Requests 这个库比我们上次说的 urllib 可是要牛逼一丢丢的毕竟 Requests 是在 urllib 的基础上搞出来的通过它我们可以用更少的代码模拟浏览器操作 kr 对于不是 python 的内置库我们需要安装一下直接使用 pip 阅读全文

posted @ 2020-07-15 17:00 滚雪球效应阅读(224) 评论(0) 推荐(0)

python爬虫02通过 Fiddler 进行手机抓包

摘要：我们要用到一款强大免费的抓包工具 Fiddler你可以到 https://www.telerik.com/download/fiddler去下载一般情况下我们通过浏览器来请求服务器的时候是点对点的正常情况下浏览器给服务器发送请求服务器响应返回数据但是这个时候 Fiddler非要来这里插阅读全文

posted @ 2020-07-15 15:07 滚雪球效应阅读(205) 评论(0) 推荐(0)

python爬虫03 Urllib库

摘要：Urllib 这可是 python 内置的库在 Python 这个内置的 Urllib 库中有这么 4 个模块 request request模块是我们用的比较多的就是用它来发起请求所以我们重点说说这个模块 error error模块呢，就是当我们在使用 request 模块遇到错了就可以阅读全文

posted @ 2020-07-15 11:38 滚雪球效应阅读(180) 评论(0) 推荐(0)

python爬虫01在Chrome浏览器抓包

摘要：尽量不要用国产浏览器，很多是有后门的 chrome是首选百度按下F12 element标签下对应的HTML代码点击Network，可以看到很多请求 HTTP请求的方式有好几种，GET,POST,PUT,DELETE,HEAD,OPTIONS,TRACE 不过最常见的就是GET和POST请求 g 阅读全文

posted @ 2020-07-15 10:42 滚雪球效应阅读(393) 评论(0) 推荐(0)

python爬虫00什么是爬虫

摘要：用一个自动化的程序把网站背后的程序爬取下来。在互联网上许许多多的网站，他们都是托管在服务器上的，这些服务器24小时运行着，刻刻等待着别人的请求。所以，爬虫首先会模拟请求，就好像你在浏览器输入网址，然后回车那样，爬虫可以用到一些HTTp库指定的服务器偷偷摸摸的发起请求，这个时候爬虫可以家长自己是浏阅读全文

posted @ 2020-07-15 10:20 滚雪球效应阅读(154) 评论(0) 推荐(0)

随笔分类 - python爬虫与数据分析