网络爬虫

# 网站:http://gbdex.bdgstore.cn/

贵阳大数据
是一个面向全国提供数据交易服务的创新型交易场所，遵循“开放、规范、安全、可控”的原则
采用“政府指导，社会参与、市场化运作”的模式
旨在促进数据流通，规范数据交易行为，维护数据交易市场秩序，保护数据交易各方合法权益
向社会提供完整的数据交易、结算、交付、安全保障、数据资产管理和融资等综合配套服务

网络爬虫的理论

互联网

互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样

互联网建立的核心目的

互联网的核心价值在于数据的共享/传递

上网

由用户端计算机发送请求给目标计算机，将目标计算机的数据下载到本地的过程

爬虫

跳过代码模拟网络请求获取数据并解析数据最后保存

爬虫的价值

如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，沿着蜘蛛网抓取自己想要的猎物/数据

爬虫的分类

通用爬虫

搜索引擎用的爬虫系统，类似于百度
尽可能把互联网所有的网页下载放到本地服务器形成备份
再对这些网页做相关处理最后给用户提供检索结果

搜索引擎如何获取一个网站URL

1.主动向搜索引擎提交网址
            网址收录:https://ziyuan.baidu.com/site/index
2.在其他网址设置网站外链
3.与DNS服务商合作(DNS即域名解析技术)  
            简便获取ip地址:ping URL -t

robots协议

协议内会指明可以爬取网页的部分数据

百度快照

每个被收录的网页，在百度上都存有一个纯文本的备份，称为“百度快照”。百度速度较快，您可以通过“快照”快速浏览页面内容。 不过，百度只保留文本内容，所以，那些图片、音乐等非文本信息，快照页面还是直接从原网页调用。

通用爬虫工作流程

爬取网页>>>存储数据>>>内容处理>>>提供检索及排名服务

排名:
1.PageRank值
根据网站的流量统计
2.竞价排名
金钱交易过后晋升上去

聚焦爬虫

爬虫程序员写的针对指定内容的爬虫

网页组成

HTML:超文本标记语言

# 浏览器可以展示出来的界面都是由HTML构成的
eg：
    天猫官网

前端与后端

前端
    任何与用户直接打交道的操作界面都可以称之为"前端"
后端
    程序员编写的运行在程序内部不直接与用户打交道的程序代码
        一般都是指代程序员编写的代码

前端三剑客

HTML            　　网页的骨架
CSS                网页的样式
JavaScript(JS)     网页的动态效果

HTML基本组成

# 网页文件一般都是以.html结尾

# HTML语法结构
    <html>
        <head>书写的一般都是给浏览器看的</head>
        <body>书写的就是浏览器要展示给用户看的</body>
    </html>

head内常见标签

title    　　定义网页标题
style    　　内部直接书写css代码
link    　　 引入外部css文件
script    　内部可以直接书写js代码也可以引入外部js文件
meta        定义网页源信息

body内常见标签

html标签分类

双标签(有头有尾)
  <a></a>

单标签(自闭和)
  <img/>

基本标签

h标签

<h1>This is a heading</h1>
<h2>This is a heading</h2>
<h3>This is a heading</h3>
<h4>This is a heading</h4>
<h5>This is a heading</h5>
<h6>This is a heading</h6>

b/i/u/s标签

<b>加粗</b>
<i>斜体</i>
<u>下划线</u>
<s>删除线</s>

P标签

<p>吃葡萄不吐葡萄皮，不吃葡萄倒吐葡萄皮</p>
<p>吃葡萄不吐葡萄皮，不吃葡萄倒吐葡萄皮</p>
<p>吃葡萄不吐葡萄皮，不吃葡萄倒吐葡萄皮</p>

br标签

<p>吃葡萄不吐葡萄皮，<br />不吃葡萄倒吐葡萄皮</p>

hr标签

<p>This is a paragraph<p>
<hr />

posted @ 2021-09-13 20:16 陌若安然阅读(56) 评论(0) 收藏举报

刷新页面返回顶部

陌若安然

网络爬虫

目录

常见收集数据网站

免费类(国内)

常见功能

搜索指数图

咨询指数图

需求图谱

免费类(国外)

付费类(国内)

付费类(国际)

付费类(第三方平台)

网络爬虫的理论

互联网

互联网建立的核心目的

上网

爬虫

爬虫的价值

爬虫的分类

通用爬虫

搜索引擎如何获取一个网站URL

robots协议

百度快照

通用爬虫工作流程

聚焦爬虫

网页组成

前端与后端

前端三剑客

HTML基本组成

head内常见标签

body内常见标签

html标签分类

基本标签

h标签

b/i/u/s标签

P标签

br标签

hr标签

公告