认识爬虫

在经过一段漫长的时间后，我终于复习完python基础，今天终于来到了爬虫基础的第一章
“认识爬虫”

首先让我介绍一下什么是爬虫？我的理解是：爬虫其实就是把自己伪装客户端，拿到请求后将数据进行归类整理的程序，很多人一听到爬虫就如同听到了什么违法犯罪的事情一样，其实爬虫可以是一门整理归纳的学问，工具都是双刃剑，怎么使用其实和编写代码的人有很大关系，所以爬虫本身没有违法这一说，它只是一门技术，一个工具，一种解决问题的手段。

那网上出现的违法行为是怎么产生的呢？和安全相关，如非法利用网站漏洞爬取个人隐私数据

那网上出现的违法行为是怎么产生的呢？和安全相关，如非法利用网站漏洞爬取个人隐私数据、爬取国家网站机密，大量请求导致网站无法正常使用这些问题，在写爬虫的时候一定要注意到安全合规问题，就像练剑的人要保持心境稳定，不要为了赚钱搞歪门邪道，不然容易走火入魔。

接下来介绍html，我们所看到的网站，其实都是由数据组成，每一个文字、图片、视频，都有它背后的储存位置，可以将其想象成一个实物，如坚果礼包盒，礼包盒中包含各色各样的坚果，有核桃、红枣、开心果、蚕豆、花生米等，通过统一的打包包装成我们看到的眼花缭乱的礼包盒，那其实html也一样，通过将文案、表格、文章段落等信息包装成精美的网站供我们浏览。我们拆开包装，一个网页的组成分三种，html标签、css、js，三者的关系如下：

html 决定网页里面有什么东西比如有按钮、文字、数据
css 决定网页样式比如按钮的大小，形状，颜色，位置
js 决定网页能够做什么比如点击按钮实现登录

三种代码分工明确，爬虫在编写过程中经常用到的就是html标签，因为它决定着网页中有哪些数据，而爬虫又是去获取数据，所以html语言的熟悉非常有必要

今天就写到这里，下次分享html标签

posted @ 2023-01-13 17:13 梓来清风兴阅读(80) 评论(0) 收藏举报

刷新页面返回顶部

梓来清风兴的进阶之路

等你来为我喝一声倒彩

认识爬虫

公告