随笔分类 - python 爬虫
摘要:学习目的: selenium目前版本已经到了3代目,你想加薪,就跟面试官扯这个,你赢了,工资就到位了,加上一个脚本的应用,结局你懂的 正式步骤 需求背景:抓取淘宝美食 Step1:流程分析 搜索关键字:利用selenium驱动浏览器搜索关键字,得到查询后的商品列表 分析页码并翻页:得到商品页码数,模
阅读全文
摘要:学习目的: 解决AJAX请求的爬虫,网页解析库的学习,MongoDB的简单应用 正式步骤 Step1:流程分析 Step2:实例分析 1. 打开今日头条搜索页,搜索“中超”,查看页面的请求方法为:GET 2. 创建一个Python文件:spider_ajax.py 3.网站url信息获取 4. 打印
阅读全文
摘要:学习目的: 通过一个一个简单的爬虫应用,初窥门径。 正式步骤 Step1:流程框架 Step2:实际步骤+分析 1. 在pycharm中新建一个Python项目,新建一个文件spider.py 2.运行代码: 运行结果不添加了,此外,最后注释掉的代码,功能是非多线程的 学习总结: 爬虫涉及的Pyth
阅读全文
摘要:学习目的: 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特点字符、及这些特点字符组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正式步骤 Step1:常用匹配模式 Step2:最常规的匹配 运行结果: 范匹配: .*可以把除了匹配的开头和结尾都匹配
阅读全文
摘要:学习目的: request库比urllib库使用更加简洁,且更方便。 正式步骤 Step1:什么是requests requests是用Python语言编写,基于urllib,采用Apache2 Licensed开源协议的HTTP库。它比urllib更加方便,可以节约大量工作时间,还完全满足HTTP
阅读全文
摘要:学习目的: urllib提供了url解析函数,所以需要学习正式步骤 Step1:什么是urllib urllib库是Python自带模块,是Python内置的HTTP请求库 包含4个模块: Step2:用法讲解 打印cookie 将本地的cookie值赋到浏览器 学习总结: 其余的内置方法未操作,直
阅读全文
摘要:学习目的: 掌握爬虫相关的基本概念 正式步骤 Step1:什么是爬虫 请求网站并提取数据的自动化程序 Step2:爬虫的基本流程 Step3:Request和Response 1.request 2.response Step4:能抓怎样的数据 Step5:怎么样来解析 Step6:怎样保存数据 学
阅读全文
摘要:学习目的: 爬虫有请求库(request、selenium)、解析库、存储库(MongoDB、Redis)、工具库,此节学习安装常用库的安装 正式步骤 Step1:urllib和re库 导入时,没有回显,就表示安装正确,可以正常使用 Step2:requests库安装 Step3:selenium库
阅读全文
摘要:学习目的: 掌握MySQL数据库的安装 正式步骤 Step1:安装数据库 PS:未申明的步骤为默认,选择自定义安装是因为不想默认安装在C盘系统盘,时间久了以后,系统越来越慢,主要原因还是因为我C盘太小了 Step2:安装MySQL可视化客户端 学习总结: MySQL的卸载需要删除干净本地所有的目录,
阅读全文
摘要:学习目的: 学习非关系型数据库环境安装,为后续的分布式爬虫做基建 正式步骤 Step1:安装Redis Step2:安装redis可视化界面 学习总结: 系统环境的差异对学习的影响需要自己想办法解决
阅读全文
摘要:学习目的: MongoDB的安装 正式步骤 (VMWare 虚拟机上无法安装这个MongoDB的自启动服务,如果你能办到,请多赐教) Step1:MongoDB的简介 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 mongoD
阅读全文
摘要:前置操作 软件名:anaconda 版本:Anaconda3-5.0.1-Windows-x86_64清华镜像 下载链接:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 软件名:Pycharm 版本:pycharm-professiona
阅读全文

浙公网安备 33010602011771号