python网络爬虫-入门(二)

为什么要学网络爬虫

可以替代人工从网页中找到数据并复制粘贴到excel中,这种重复性的工作不仅浪费时间还一不留神还会出错----解决无法自动化和无法实时获取数据     对于这些公开数据的应用价值,我们可以使用KYC框架来理解,know your company(了解你的公司)、know your competitor(了解你的竞手)、know your customer(了解你的客户)。     这是理解和进行简单描述性分析公开数据就可以带来的价值,进一步讲,通过机器学习和统计算法分析,在营销领域就可以帮助企业做好4p(产品(product) 价格(price) 渠道(place) 促销(promotion))

网络爬虫的基本协议

robots协议

python爬虫的流程

主要可以分为三部分:1.获取网页;2.解析网页(提取数据);3.存储数据;
1.获取网页就是给网址发送一个请求,该网址会返回整个网页的数据
2.解析网页就是从整个网页的数据中提取出想要的数据
3.存储数据就是把数据保存下来
三个流程的技术实现
1.获取网页
获取网页的基础技术:request、urllib和selenium(模拟浏览器)
获取网页的进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取
2.解析网页
解析网页的基础技术:re正则表达式、beautifulsoup和lxml
解析网页的进阶技术:解决中文乱码
3.存储数据
存储数据的基础技术:存入txt文件中和存入csv文件
存储数据的进阶技术:存入MySQL数据库和存入mongodb数据库

posted @ 2022-01-27 14:47  小旺first  阅读(67)  评论(0)    收藏  举报
顶部