python 爬虫 - 随笔分类 - 道生一_三生万物

Python爬虫学习==>第十二章：使用 Selenium 模拟浏览器抓取淘宝商品美食信息

摘要：学习目的： selenium目前版本已经到了3代目，你想加薪，就跟面试官扯这个，你赢了，工资就到位了，加上一个脚本的应用，结局你懂的正式步骤需求背景：抓取淘宝美食 Step1：流程分析搜索关键字：利用selenium驱动浏览器搜索关键字，得到查询后的商品列表分析页码并翻页：得到商品页码数，模阅读全文

posted @ 2018-04-12 01:19 道生一_三生万物阅读(508) 评论(0) 推荐(0)

Python爬虫学习==>第十一章：分析Ajax请求-抓取今日头条信息

摘要：学习目的：解决AJAX请求的爬虫，网页解析库的学习，MongoDB的简单应用正式步骤 Step1：流程分析 Step2：实例分析 1. 打开今日头条搜索页，搜索“中超”，查看页面的请求方法为：GET 2. 创建一个Python文件：spider_ajax.py 3.网站url信息获取 4. 打印阅读全文

posted @ 2018-04-11 01:19 道生一_三生万物阅读(509) 评论(0) 推荐(0)

Python爬虫学习==>第十章：使用Requests+正则表达式爬取猫眼电影

摘要：学习目的：通过一个一个简单的爬虫应用，初窥门径。正式步骤 Step1：流程框架 Step2：实际步骤+分析 1. 在pycharm中新建一个Python项目，新建一个文件spider.py 2.运行代码：运行结果不添加了，此外，最后注释掉的代码，功能是非多线程的学习总结：爬虫涉及的Pyth 阅读全文

posted @ 2018-04-10 23:29 道生一_三生万物阅读(418) 评论(0) 推荐(0)

Python爬虫学习==>第九章：正则表达式基础

摘要：学习目的：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特点字符、及这些特点字符组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正式步骤 Step1：常用匹配模式 Step2：最常规的匹配运行结果：范匹配： .*可以把除了匹配的开头和结尾都匹配阅读全文

posted @ 2018-04-07 18:59 道生一_三生万物阅读(364) 评论(0) 推荐(0)

Python爬虫学习==>第八章：Requests库详解

摘要：学习目的： request库比urllib库使用更加简洁，且更方便。正式步骤 Step1：什么是requests requests是用Python语言编写，基于urllib，采用Apache2 Licensed开源协议的HTTP库。它比urllib更加方便，可以节约大量工作时间，还完全满足HTTP 阅读全文

posted @ 2018-04-05 16:05 道生一_三生万物阅读(616) 评论(0) 推荐(0)

Python爬虫学习==>第七章：urllib库的基本使用方法

摘要：学习目的： urllib提供了url解析函数，所以需要学习正式步骤 Step1：什么是urllib urllib库是Python自带模块，是Python内置的HTTP请求库包含4个模块： Step2：用法讲解打印cookie 将本地的cookie值赋到浏览器学习总结：其余的内置方法未操作，直阅读全文

posted @ 2018-04-03 23:28 道生一_三生万物阅读(393) 评论(0) 推荐(0)

Python爬虫学习==>第六章：爬虫的基本原理

摘要：学习目的：掌握爬虫相关的基本概念正式步骤 Step1：什么是爬虫请求网站并提取数据的自动化程序 Step2：爬虫的基本流程 Step3：Request和Response 1.request 2.response Step4：能抓怎样的数据 Step5：怎么样来解析 Step6：怎样保存数据学阅读全文

posted @ 2018-04-02 23:20 道生一_三生万物阅读(393) 评论(0) 推荐(1)

Python爬虫学习==>第五章：爬虫常用库的安装

摘要：学习目的：爬虫有请求库（request、selenium）、解析库、存储库（MongoDB、Redis）、工具库，此节学习安装常用库的安装正式步骤 Step1：urllib和re库导入时，没有回显，就表示安装正确，可以正常使用 Step2：requests库安装 Step3：selenium库阅读全文

posted @ 2018-03-31 01:16 道生一_三生万物阅读(1907) 评论(0) 推荐(0)

Python爬虫学习==>第四章：MySQL的安装

摘要：学习目的：掌握MySQL数据库的安装正式步骤 Step1：安装数据库 PS：未申明的步骤为默认，选择自定义安装是因为不想默认安装在C盘系统盘，时间久了以后，系统越来越慢，主要原因还是因为我C盘太小了 Step2：安装MySQL可视化客户端学习总结： MySQL的卸载需要删除干净本地所有的目录，阅读全文

posted @ 2018-03-29 01:14 道生一_三生万物阅读(287) 评论(0) 推荐(0)

Python爬虫学习==>第三章：Redis环境配置

摘要：学习目的：学习非关系型数据库环境安装，为后续的分布式爬虫做基建正式步骤 Step1：安装Redis Step2：安装redis可视化界面学习总结：系统环境的差异对学习的影响需要自己想办法解决阅读全文

posted @ 2018-03-28 23:20 道生一_三生万物阅读(430) 评论(1) 推荐(0)

Python爬虫学习==>第二章：MongoDB环境配置

摘要：学习目的： MongoDB的安装正式步骤（VMWare 虚拟机上无法安装这个MongoDB的自启动服务，如果你能办到，请多赐教） Step1：MongoDB的简介 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 mongoD 阅读全文

posted @ 2018-03-28 22:19 道生一_三生万物阅读(412) 评论(0) 推荐(0)

Python爬虫学习==>第一章：Python3+Pip环境配置

摘要：前置操作软件名：anaconda 版本：Anaconda3-5.0.1-Windows-x86_64清华镜像下载链接：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 软件名：Pycharm 版本：pycharm-professiona 阅读全文

posted @ 2018-02-14 19:17 道生一_三生万物阅读(548) 评论(0) 推荐(0)

自动化测试进阶

selenium自动化及框架&&PY3接口自动化

随笔分类 - python 爬虫

公告