python网络爬虫-入门(二)
为什么要学网络爬虫
可以替代人工从网页中找到数据并复制粘贴到excel中,这种重复性的工作不仅浪费时间还一不留神还会出错----解决无法自动化和无法实时获取数据 对于这些公开数据的应用价值,我们可以使用KYC框架来理解,know your company(了解你的公司)、know your competitor(了解你的竞手)、know your customer(了解你的客户)。 这是理解和进行简单描述性分析公开数据就可以带来的价值,进一步讲,通过机器学习和统计算法分析,在营销领域就可以帮助企业做好4p(产品(product) 价格(price) 渠道(place) 促销(promotion))
网络爬虫的基本协议
robots协议
python爬虫的流程
主要可以分为三部分:1.获取网页;2.解析网页(提取数据);3.存储数据;
1.获取网页就是给网址发送一个请求,该网址会返回整个网页的数据
2.解析网页就是从整个网页的数据中提取出想要的数据
3.存储数据就是把数据保存下来
三个流程的技术实现
1.获取网页
获取网页的基础技术:request、urllib和selenium(模拟浏览器)
获取网页的进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取
2.解析网页
解析网页的基础技术:re正则表达式、beautifulsoup和lxml
解析网页的进阶技术:解决中文乱码
3.存储数据
存储数据的基础技术:存入txt文件中和存入csv文件
存储数据的进阶技术:存入MySQL数据库和存入mongodb数据库

浙公网安备 33010602011771号