S++

hadoop入门(13)：NameNode、SecondaryNameNode剖析

摘要： NameNode、SecondaryNameNode解析 NameNode主要负责集群当中元数据信息管理，而且元数据需要经常随机访问，因为元数据信息必须高效的检索。为了保证元数据信息的快速检索，元数据信息必须放在内存中，因为内存中的元数据能够最快速的检索，随着元数据信息的增多（每个block块大约阅读全文

posted @ 2022-03-14 16:26 S++ 阅读(229) 评论(0) 推荐(0)

mybatis-配置解析

摘要：配置 MyBatis 的配置文件包含了会深深影响 MyBatis 行为的设置和属性信息。配置文档的顶层结构如下： configuration（配置） properties（属性） settings（设置） typeAliases（类型别名） typeHandlers（类型处理器） objectFa 阅读全文

posted @ 2022-03-14 09:46 S++ 阅读(42) 评论(0) 推荐(0)

python爬虫-验证码识别

摘要：为什么需要识别验证码验证码是网站的一种反措施，有些时候我们需要登陆用户才可以获取到我们想要的数据，所以验证码识别是必要的。验证码识别操作：人工肉眼识别（不推荐）第三方自动识别云打码（无了）超级鹰：http://www.chaojiying.com 图鉴：http://www.ttshit 阅读全文

posted @ 2022-03-13 15:43 S++ 阅读(197) 评论(0) 推荐(0)

python爬虫-xpath解析

摘要：前言 xpath解析方式可以说是最常用最便捷高效的一种解析方式了。而且具有很高的通用性。环境的安装 pip install lxml xpath解析原理 1. 实例化一个etree对象，并且需要将被解析的页面源码数据加载到该对象中。 2. 调用etree对象中的xpath方法结合着xpath表达式阅读全文

posted @ 2022-03-11 20:48 S++ 阅读(164) 评论(0) 推荐(0)

mybatis-使用Map封装参数

摘要：上一篇中我们在查询、插入、更新等操作中直接传入了一个User类的参数。但是并不是User中所有的属性都是必要的，我们可以通过Map封装需要的属性，然后使用Map就能完成相关的操作。举个例子根据id修改地址 1. 在Dao类中编写方法需要注意的是参数是一个Map // 通过id修改地址 int 阅读全文

posted @ 2022-03-09 09:00 S++ 阅读(109) 评论(0) 推荐(0)

python爬虫-bs4解析

摘要： bs4解析概述 bs4解析技术是python独有的一种数据解析方式 bs4实现数据解析原理：实例化一个BeautifulSoup对象，并将页面源码加载到该数据中加载本地的html # 本地加载 fp1 = open("../data2/test.html", 'r', encoding="utf 阅读全文

posted @ 2022-03-08 21:26 S++ 阅读(197) 评论(0) 推荐(0)

hadoop入门(12)：hdfs的读写流程

摘要： hdfs的写入流程文件具体上传流程如下：创建文件： HDFS client向HDFS写数据先调用DistributedFileSystem.create() RPC调用namenode的create()方法，会在HDFS目录树中指定路径，添加新文件；并将操作记录在edits.log中。namen 阅读全文

posted @ 2022-03-08 18:16 S++ 阅读(204) 评论(0) 推荐(0)

mybatis-CRUD操作（增删改查

摘要：前提每一个Dao.xml或者说Mapper.xml都要绑定映射在sqlMapConfig.xml的数据库配置文件中 <mappers>  <mapper resource="Dao.xml的路径（用/分级"/> <!-- 使用注解 <mapp 阅读全文

posted @ 2022-03-07 10:19 S++ 阅读(42) 评论(0) 推荐(0)

python爬虫-正则解析

摘要：概述 Q：什么是聚焦爬虫 A：聚焦爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。 Q：什么是数据解析 A：简而言之就是在获取到的整张页面提阅读全文

posted @ 2022-03-06 16:43 S++ 阅读(109) 评论(0) 推荐(0)

python爬虫-requests模块

摘要：什么是requests模块 request模块是python原生的基于网络请求的模块，功能十分强大，简单便捷，效率极高。你可以把它看作是模拟浏览器发起请求 request模块使用步骤指定url UA伪装请求参数处理发起请求获取相应数据持久化存储一些例子练习1：实现一个简单的网页采集器阅读全文

posted @ 2022-03-02 20:08 S++ 阅读(70) 评论(0) 推荐(0)

导航

公告