随笔分类 - 数据挖掘
python可以作为一门非常好用的数据分析软件,在这里我会给大家分享我学习数据挖掘的一些经验,或是一些算法的使用
摘要:协程,又称微线程,纤程。英文名Coroutine。 协程的概念很早就提出来了,但直到最近几年才在某些语言(如Lua)中得到广泛应用。 子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕。 所以子程序调用是通过栈实现
阅读全文
摘要:之前说过Python的多线程只能运行在一个单核上,也就是各线程是以并发的方式异步执行的 这篇文章我们来聊聊Python多进程的方式 多进程依赖于所在机器的处理器个数,在多核机器上进行多进程编程时,各核上运行的进程之间是并行执行的,可以利用进程池,是每一个内核上运行一个进程,当翅中的进程数量大于内核总
阅读全文
摘要:在这一篇文章中,我们主要来介绍多线程抓取数据。 多线程是以并发的方式执行的,在这里要注意,Python的多线程程序只能运行在一个单核上以并发的方式运行,即便是多核的机器,所以说,使用多线程抓取可以极大地提高抓取效率 下面我们以requests为例介绍多线程抓取,然后在通过与单线程程序比较,体会多线程
阅读全文
摘要:前面跟大家讲的request s和spynner都是单进程(单线程)的顺序抓取,而并发和并行执行的异步抓取会极大地提高抓取效率。 并行和并发 并发和并行使两个相似的概念,并发是指在一个时间段内发生若干事件的情况,并行是指在同一时刻发生若干事件的情况。 我们可以以CPU的工作方式来说明这两个概念 单核
阅读全文
摘要:前面已经跟大家讲了requests模块的get方法,这一篇文章我们要介绍的是requests模块中的另一个比较常用的方法,post方法 post方法的形式相比于get要复杂一些,这时因为post在提交时需要提供一些数据信息,对于使用来说,两种方法基本差不多 请注意,查询字符串(名称/值对)是在 PO
阅读全文
摘要:关于requests模块 之前在跟大家讲通过字典列表批量获取数据的时候用过这个模块 安装过程就不再讲解了 requests模块是python的http库,可以完成绝大部分与http应用相关的工作,所以我们可以用它来进行数据抓取工作 requests模块有两个常用的方法,get 和 post 我们也主
阅读全文
摘要:我们一起来学习如何使用Spynner进行数据抓取 单数据抓取机顾名思义就是单进程的数据抓取形式,通常在数据不是很多的时候被应用 首先我们要介绍Spynner Spynner在抓取时可以出现一个浏览器,在浏览器中可以观察抓取过程的变化,Spynner还可以加载javascript生成的动态内容,然后抓
阅读全文
摘要:json是一种轻量级的数据交换格式,也可以说是一种配置文件的格式 这种格式的文件是我们在数据处理经常会遇到的 python提供内置的模块json,只需要在使用前导入即可 你可以通过帮助函数查看json的帮助文档 json常用的方法有load、loads、dump以及dumps,这个都属于python
阅读全文
摘要:在数据抓取的过程中,我们往往都需要对数据进行处理 本篇文章我们主要来介绍python的HTML和XML的分析库BeautifulSoup BeautifulSoup 的官方文档网站如下 https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Be
阅读全文
摘要:在进行网页数据抓取时我们要先安装一个模块 requests 通过终端安装如下图 因为我之前安装过了,所以不会显示安装进度条,安装也非常简单,如果你配置好环境变量的话,你只需要执行以下命令 如果提示要升级,就按下面升级pip 安装完模块后我们正式开始进行数据爬取 先说一下requests的用法,导入这
阅读全文

浙公网安备 33010602011771号