spider.1-了解爬虫

一、网络爬虫

定义:网络蜘蛛网络机器人,抓取网络数据的程序
总结:用Python程序模仿人类去访问网站,模仿的越逼真越好
爬取数据目的:通过有效地大量数据分析市场走势,公司决策

二、爬虫分类

通用网络爬虫(搜索引擎用,遵守robots协议)
聚焦爬虫：自己写的爬虫程序，面向需求的爬虫

三、软件环境

Jupyter
Spyder：开发工具（环境）
pycharm
Anaconda : 科技计算的集成开发环境(集成了好多库,ipython等等)

四、数据爬取的步骤

确定要爬取的URL地址
向网站发请求获取相应的HTML页面
提取HTML页面中有用的数据
1. 所需数据,保存
2. 页面中新的URL,继续第2步

posted @ 2020-10-10 21:02 妖魑阅读(93) 评论(0) 收藏举报

刷新页面返回顶部