spider.1-了解爬虫

一、网络爬虫

  1. 定义:网络蜘蛛 网络机器人,抓取网络数据的程序
  2. 总结:用Python程序模仿人类去访问网站,模仿的越逼真越好
  3. 爬取数据目的:通过有效地大量数据分析市场走势,公司决策

二、爬虫分类

  1. 通用网络爬虫(搜索引擎用,遵守robots协议)
  2. 聚焦爬虫:自己写的爬虫程序,面向需求的爬虫

三、软件环境

  1. Jupyter
  2. Spyder:开发工具(环境)
  3. pycharm
  4. Anaconda : 科技计算的集成开发环境(集成了好多库,ipython等等)

四、数据爬取的步骤

  1. 确定要爬取的URL地址
  2. 向网站发请求获取相应的HTML页面
  3. 提取HTML页面中有用的数据
    1. 所需数据,保存
    2. 页面中新的URL,继续第2步

 

posted @ 2020-10-10 21:02  妖魑  阅读(90)  评论(0)    收藏  举报