python网络爬虫-入门（二）

为什么要学网络爬虫

可以替代人工从网页中找到数据并复制粘贴到excel中，这种重复性的工作不仅浪费时间还一不留神还会出错----解决无法自动化和无法实时获取数据对于这些公开数据的应用价值，我们可以使用KYC框架来理解，know your company(了解你的公司)、know your competitor(了解你的竞手)、know your customer(了解你的客户)。这是理解和进行简单描述性分析公开数据就可以带来的价值，进一步讲，通过机器学习和统计算法分析，在营销领域就可以帮助企业做好4p（产品（product）价格（price）渠道（place）促销（promotion））

网络爬虫的基本协议

robots协议

python爬虫的流程

主要可以分为三部分：1.获取网页；2.解析网页（提取数据）；3.存储数据；
1.获取网页就是给网址发送一个请求，该网址会返回整个网页的数据
2.解析网页就是从整个网页的数据中提取出想要的数据
3.存储数据就是把数据保存下来
三个流程的技术实现
1.获取网页
获取网页的基础技术：request、urllib和selenium（模拟浏览器）
获取网页的进阶技术：多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取
2.解析网页
解析网页的基础技术：re正则表达式、beautifulsoup和lxml
解析网页的进阶技术：解决中文乱码
3.存储数据
存储数据的基础技术：存入txt文件中和存入csv文件
存储数据的进阶技术：存入MySQL数据库和存入mongodb数据库

posted @ 2022-01-27 14:47 小旺first 阅读(72) 评论(0) 收藏举报

刷新页面返回顶部

小旺

python网络爬虫-入门（二）

为什么要学网络爬虫

网络爬虫的基本协议

python爬虫的流程

公告