python爬虫 - 随笔分类(第2页) - 不止于python

xpath

摘要：XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。 W3School官方文档开发工具开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用) Chrome插件 XPath Helper Fire 阅读全文

posted @ 2018-07-19 18:59 不止于python 阅读(237) 评论(0) 推荐(0)

python-bs4的使用

摘要：BeautifulSoup4 官方文档是一个Python库，用于从HTML和XML文件中提取数据。它与您最喜欢的解析器一起使用，提供导航，搜索和修改解析树的惯用方法。它通常可以节省程序员数小时或数天的工作量。 1.安装BeautifulSoup4 2.详细操作 3.注意：运行报错解决：安装 lx 阅读全文

posted @ 2018-07-19 17:48 不止于python 阅读(3193) 评论(0) 推荐(0)

Python-多进程VS多线程

摘要：多进程VS多线程功能：进程：能够完成多任务，比如，同时运行多个QQ 线程：能够完成多任务，比如一个QQ中的多个聊天窗口定义进程：系统进行资源分配和测试的一个独立单位，线程自己基本上不拥有系统资源，但是他可以与同属于一个进程的其他线程共享所拥有的全部资源线程：进程的一个实体，是CPU调用和分阅读全文

posted @ 2018-07-17 21:30 不止于python 阅读(200) 评论(0) 推荐(0)

Python-多线程之消费者模式和GIL全局锁

摘要：一.生产者和消费者模式什么是生产者消费者模式生产者消费者模式是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯，而通过阻塞队列来进行通讯，所以生产者生产完数据之后不用等待消费者处理，直接扔给阻塞队列，消费者不找生产者要数据，而是直接从阻塞队列里取，阻塞队列就相当阅读全文

posted @ 2018-07-17 21:26 不止于python 阅读(265) 评论(0) 推荐(0)

Python-协程

摘要：协程又称微线程，纤程。它是比线程更小的执行单元，因为它自带CPU上下文。这样只要在合适的时机，我们可以把一个协程切换到另一个协程当中。只要这个过程保存或恢复CPU上下文，那么程序就可以运行。通俗的理解：在一个线程中的某个函数，可以在任何地方保存当前函数的一些临时变量等信息，然后切换到另外一个阅读全文

posted @ 2018-07-17 21:05 不止于python 阅读(249) 评论(0) 推荐(0)

Python-多线程

摘要：多线程线程拥有自己独立的栈和共享的堆，共享堆，不共享栈，线程亦由操作系统调度(标准线程是的)。 thread在python3中被废弃了 python3中threading代替thread模块为了兼容性 python3将thread改名为 “_thread” python的标准库提供了两个模块，阅读全文

posted @ 2018-07-17 20:35 不止于python 阅读(240) 评论(0) 推荐(0)

Python-多进程

摘要：多进程的定义提高效率（增加并发数）进程是程序一次动态的执行过程，包括代码加载，执行，执行完毕退出阶段进程是系统资源分配的独立单位（最小单位）进程拥有自己独立的堆和栈，既不共享堆，亦不共享栈，进程由操作系统调度多进程的特性并发性：任何进程在操作系统中可以同时运行独立性：资源不共享异步性阅读全文

posted @ 2018-07-17 19:32 不止于python 阅读(252) 评论(0) 推荐(0)

python实现文件下载图片视频

摘要：最近在学习爬虫，在爬取网站时很多时候是需要将图片或视频下载到本地今天就来说说如何使用urllib将图片保存到本地以下代码均为win7 python3.6.* 使用urllib下载函数保存使用urllib文件方式写入文件使用urllib的下载函数下载视频并输出下载进度说明：参数 finen 阅读全文

posted @ 2018-07-17 19:01 不止于python 阅读(2618) 评论(0) 推荐(0)

python爬虫 urllib库基本使用

摘要：以下内容均为python3.6.*代码学习爬虫，首先有学会使用urllib库，这个库可以方便的使我们解析网页的内容，本篇讲一下它的基本用法解析网页构造请求有些网站通过获取浏览器信息判断是否是机器在操作因此我们需要构造请求头 get请求传输数据提交表单经常用到的就是post发送或者get发阅读全文

posted @ 2018-07-17 14:23 不止于python 阅读(456) 评论(0) 推荐(0)

常见网页状态码

摘要：2开头（请求成功）表示成功处理了请求的状态代码。 200 （成功）服务器已成功处理了请求。通常，这表示服务器提供了请求的网页。 201 （已创建）请求成功并且服务器创建了新的资源。 202 （已接受）服务器已接受请求，但尚未处理。 203 （非授权信息）服务器已成功处理了请求，但返回的信阅读全文

posted @ 2018-07-11 20:55 不止于python 阅读(1234) 评论(0) 推荐(0)

说说为什么会有ssl.CertificateError报错

摘要：有一些网站没有获取浏览器的颁发的安全证书当你在请求这个网站时浏览器会当做不安全网站处理因此会报ssl.CertificateError 解决办法是：将默认的证书验证模式修改为不需要验证代码如下: 最后运行你会发现报错没了问题解决了阅读全文

posted @ 2018-07-11 20:53 不止于python 阅读(3244) 评论(0) 推荐(2)

爬虫常见问题与解答

摘要：--题目--（1）列举python网络爬虫所引用的模块包，提取数据用到的模块(至少各2个) requests、urllib | jsonpath xpath beautifulsoup （2）浏览器请求某网站时，从输入到页面显示出来，描述一下请求过程 1.敲域名回车 2.查询本地的DNS缓存，以找阅读全文

posted @ 2018-07-09 20:45 不止于python 阅读(1519) 评论(0) 推荐(0)

Scrapy框架学习笔记

摘要：1.Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted,其主要对手是Tornado, 阅读全文

posted @ 2018-07-01 17:23 不止于python 阅读(317) 评论(0) 推荐(0)

不止于python

公众号: 不止于python 个人博客: https://www.mehaei.com

随笔分类 - python爬虫

公告