认识爬虫
在经过一段漫长的时间后,我终于复习完python基础,今天终于来到了爬虫基础的第一章
“认识爬虫”
首先让我介绍一下什么是爬虫?我的理解是:爬虫其实就是把自己伪装客户端,拿到请求后将数据进行归类整理的程序,很多人一听到爬虫就如同听到了什么违法犯罪的事情一样,其实爬虫可以是一门整理归纳的学问,工具都是双刃剑,怎么使用其实和编写代码的人有很大关系,所以爬虫本身没有违法这一说,它只是一门技术,一个工具,一种解决问题的手段。
那网上出现的违法行为是怎么产生的呢?和安全相关,如非法利用网站漏洞爬取个人隐私数据

那网上出现的违法行为是怎么产生的呢?和安全相关,如非法利用网站漏洞爬取个人隐私数据、爬取国家网站机密,大量请求导致网站无法正常使用这些问题,在写爬虫的时候一定要注意到安全合规问题,就像练剑的人要保持心境稳定,不要为了赚钱搞歪门邪道,不然容易走火入魔。
接下来介绍html,我们所看到的网站,其实都是由数据组成,每一个文字、图片、视频,都有它背后的储存位置,可以将其想象成一个实物,如坚果礼包盒,礼包盒中包含各色各样的坚果,有核桃、红枣、开心果、蚕豆、花生米等,通过统一的打包包装成我们看到的眼花缭乱的礼包盒,那其实html也一样,通过将文案、表格、文章段落等信息包装成精美的网站供我们浏览。我们拆开包装,一个网页的组成分三种,html标签、css、js,三者的关系如下:
html 决定网页里面有什么东西 比如有按钮、文字、数据
css 决定网页样式 比如 按钮的大小,形状,颜色,位置
js 决定网页能够做什么 比如 点击按钮实现登录
三种代码分工明确,爬虫在编写过程中经常用到的就是html标签,因为它决定着网页中有哪些数据,而爬虫又是去获取数据,所以html语言的熟悉非常有必要
今天就写到这里,下次分享html标签

浙公网安备 33010602011771号