spider.1-了解爬虫
一、网络爬虫
- 定义:网络蜘蛛 网络机器人,抓取网络数据的程序
- 总结:用Python程序模仿人类去访问网站,模仿的越逼真越好
- 爬取数据目的:通过有效地大量数据分析市场走势,公司决策
二、爬虫分类
- 通用网络爬虫(搜索引擎用,遵守robots协议)
- 聚焦爬虫:自己写的爬虫程序,面向需求的爬虫
三、软件环境
- Jupyter
- Spyder:开发工具(环境)
- pycharm
- Anaconda : 科技计算的集成开发环境(集成了好多库,ipython等等)
四、数据爬取的步骤
- 确定要爬取的URL地址
- 向网站发请求获取相应的HTML页面
- 提取HTML页面中有用的数据
- 所需数据,保存
- 页面中新的URL,继续第2步
LQD-future

浙公网安备 33010602011771号