2020 年 4月 8 日随笔档案 - hanfe1

2020年4月8日

摘要： python全栈开发学习笔记第一章计算机基础第二章Python入门第三章数据类型第四章文件操作第五章函数第六章模块第七章面向对象第八章网络编程第九章并发编程第十章数据库第十一章前端开发-html 第十一章前端开发-css 附加：js特效 15个小demo 第十一阅读全文

posted @ 2020-04-08 18:11 hanfe1 阅读(519) 评论(0) 推荐(0)

爬虫目录

摘要：爬虫相关笔记 01 爬虫简介 02 requests模块 03 数据解析 04 验证码识别 05 request高级操作 06 高性能异步爬虫 07 selenium模块基本使用 08 scrapy框架新 scrapy框架 09 M3U8流视频数据爬虫 10 MongoDB数据存储 11 urli 阅读全文

posted @ 2020-04-08 17:59 hanfe1 阅读(1783) 评论(0) 推荐(0)

07 selenium模块基本使用

摘要：简介 selenium 是一种浏览器自动化的工具，所谓的自动化是指，我们可以通过代码的形式制定一系列的行为动作，然后执行代码，这些动作就会同步触发在浏览器中。环境安装下载安装selenium：pip install selenium 下载浏览器驱动程序： http://chromedriver. 阅读全文

posted @ 2020-04-08 17:53 hanfe1 阅读(707) 评论(0) 推荐(0)

06 高性能异步爬虫

摘要： 06 高性能异步爬虫高性能异步爬虫线程and线程池引入很多同学对于异步这个概念只是停留在了“听说很NB”的认知层面上，很少有人能够在项目中真正的使用异步实现高性能的相关操作。本节课，咱们就一起来学习一下，爬虫中如何使用异步实现高性能的数据爬取操作。背景其实爬虫的本质就是client发请求阅读全文

posted @ 2020-04-08 17:52 hanfe1 阅读(505) 评论(0) 推荐(0)

05 request高级操作

摘要：简历模板下载拓展 import requests from lxml import etree import os headers = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 阅读全文

posted @ 2020-04-08 17:50 hanfe1 阅读(990) 评论(0) 推荐(0)

04 验证码识别

摘要： 04 验证码识别 what is 验证码？是一种区分用户是计算机还是人的公共全自动程序。验证码可以防止：恶意破解密码、刷票、论坛灌水，有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试，实际上用验证码是现在很多网站通行的方式，我们利用比较简易的方式实现了这个功能。验证码阅读全文

posted @ 2020-04-08 17:46 hanfe1 阅读(550) 评论(0) 推荐(0)

03 数据解析

摘要： 03 数据解析引入回顾requests模块实现数据爬取的流程指定url 发起请求获取响应数据持久化存储其实，在上述流程中还需要较为重要的一步，就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求，我们都会指定去使用聚焦爬虫，也就是爬取页面中指定部分的数据值，而不是整个页面的数阅读全文

posted @ 2020-04-08 17:41 hanfe1 阅读(1456) 评论(0) 推荐(1)

02 requests模块

摘要： 02 requests模块 requests模块初始引入在python实现的网络爬虫中，用于网络请求发送的模块有两种，第一种为urllib模块，第二种为requests模块。urllib模块是一种比较古老的模块，在使用的过程中较为繁琐和不便。当requests模块出现后，就快速的代替了urlli 阅读全文

posted @ 2020-04-08 17:39 hanfe1 阅读(1416) 评论(0) 推荐(0)

01 爬虫简介

摘要： 01 爬虫简介 what is 爬虫？ \ 形象概念：爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它。 \ 学术概念：爬虫就是通过编写程序模拟浏览器上网，让其去阅读全文

posted @ 2020-04-08 17:38 hanfe1 阅读(1202) 评论(0) 推荐(0)

公告