12 2019 档案

摘要:一、题目: 获取并保存目标网站的下图所示的所有英文名,网页转换通过点击more names刷新名字并将各个英文名子目录下,去获取并保存每一个英文名的名字、性别、寓意、简介如下图所示内容红色标记框内的内容: 二、爬取步骤: 1.数据服务 爬取步骤: (1)爬取整个动态网页信息内容; (2)解析网页内容 阅读全文
posted @ 2019-12-20 16:57 Jokerˇ 阅读(2754) 评论(1) 推荐(0)
摘要:一、什么是正则表达式 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描 阅读全文
posted @ 2019-12-13 15:04 Jokerˇ 阅读(371) 评论(1) 推荐(0)
摘要:爬虫: 网络爬虫是捜索引擎抓取系统(Baidu、Google等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 步骤: 第一步:获取网页链接 1.观察需要爬取的多网页的变化规律,基本上都是只有小部分有所变化,如:有的网页只有网址最后的数字在变化,则这种就可以通过 阅读全文
posted @ 2019-12-07 15:49 Jokerˇ 阅读(11365) 评论(1) 推荐(0)