摘要: 1.进入操作目录,创建脚本文件 2.编辑脚本文件 3.点击I进入编辑模式,添加执行提示 4.点击Esc退出编辑模式,输入:wq保存退出 5.执行脚本 6.编写第一个功能,实现在某个目录下创建多个文件 执行结果: 7.爬取百度首页信息 8.把爬取的数据保存到之前创建的数据文件中 结果: 9.向文件中添 阅读全文
posted @ 2018-09-13 17:47 云山之巅 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 总结:正向准确率和召回率在整体上成反比,可知在使用相同数据集,相同验证方式的情况下,随机森林要优于随机梯度下降! 阅读全文
posted @ 2018-09-10 16:20 云山之巅 阅读(3573) 评论(0) 推荐(0) 编辑
摘要: 结果: 分析:可知,数据的离散性大大降低,数据之间的内聚性增加,数据更加密集! 阅读全文
posted @ 2018-09-07 17:49 云山之巅 阅读(6154) 评论(0) 推荐(0) 编辑
摘要: 实现代码: 结果: 不同深度对预测的影响: 总结: 决策树分量算法有构造速度快、结构明显、分类精度高等优点。 决策树是以实例(Instance)为核心的归纳分类方法。 它从一组无序的、无特殊领域知识的数据集中提取出决策树表现形式的分类规则, 包含了分支节点、叶子节点和分支结构。它采用自顶向下的递归方 阅读全文
posted @ 2018-08-29 16:57 云山之巅 阅读(2160) 评论(0) 推荐(0) 编辑
摘要: 代码: 结果: max_iter=10 max_iter=20 注意: 1. 当使用pickle加载mnist数据时,python3.x与python2.x差距较大,python3.x会抛出异常,异常信息为:UnicodeDecodeError: 'ascii' codec can't decode 阅读全文
posted @ 2018-08-24 16:53 云山之巅 阅读(1708) 评论(0) 推荐(0) 编辑
摘要: 6.下列攻击行为中,属于典型被动攻击的是(10)。 A.拒绝服务攻击 B.会话拦截 C.系统干涉 D.修改数据命令 答案:C 解析: 被动攻击主要是收集信息而不是进行访问,数据的合法用户对这种活动一点也不会觉察到。被动攻击包括嗅探、信息收集等攻击方法。攻击方不知道被攻击方什么时候对话。 7.某软件项 阅读全文
posted @ 2018-07-27 14:54 云山之巅 阅读(1564) 评论(0) 推荐(0) 编辑
摘要: 1.选择"记录数",拖拽两个记录数放入列中,求总和,选择饼图: 2.选择"大小",调整两个饼图的大小: 3.点击第二个总和(行上的),选择“双轴”: 4.点击坐标轴,选择“同步轴”: 5.修改小饼图的颜色,设置为白色: 6.修改"记录数"运算为求平均值: 7.选择"整个视图",点击"编辑轴",调整坐 阅读全文
posted @ 2018-07-26 16:36 云山之巅 阅读(1292) 评论(0) 推荐(1) 编辑
摘要: 1.以下关于防火墙功能特性的叙述中,不正确的是(1)。 A.控制进出网络的数据包和数据流向 B.提供流量信息的日志和审计 C.隐藏内部IP以及网络结构细节 D.提供漏洞扫描功能 答案:D 解析:防火墙是被动防御,无法提供系统漏洞扫描。 2.在程序执行过程中,Cache与主存的地址映射是由(2)完成的 阅读全文
posted @ 2018-07-24 16:26 云山之巅 阅读(650) 评论(0) 推荐(0) 编辑
摘要: 一.图 二.树 三.排序算法 1.稳定排序算法&不稳定排序算法 2.插入排序 3.选择排序 4.交换排序 5.归并排序 6.基数排序 7.各排序算法的特点 四.其它算法 1.递推法 2.回溯法 3.贪婪法 4.分治法 5.动态规划法 五.基础试题 1. 2. 3. 4. 5. 6. 7. 8. 9. 阅读全文
posted @ 2018-07-21 16:57 云山之巅 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 16.某集团公司下属有多个超市,每个超市的所有销售数据最终要存入公司的数据仓库中。假设该公司高管需要从时间,地区和商品种类三个维度来分析某家店商品的销售数据,那么最适合采用(56)来完成。 选项: A.Data Extraction B.OLAP C.OLTP D.ETL 答案:B 解析: Data 阅读全文
posted @ 2018-07-18 15:55 云山之巅 阅读(1611) 评论(0) 推荐(0) 编辑
摘要: 11.能力成熟模型集成(CMMI)是若干过程模型的综合和改进。连续式模型和阶段式模型是CMMI提供的两种表示方法。连续式模型包括6个过程域能力等级(Capability Level,CL)其中(30)的共性目标是过程将可标识的输入工作产品转换成可标识的输出工作产品,以实现支持过程域的特定目标。 选项 阅读全文
posted @ 2018-07-17 18:04 云山之巅 阅读(1515) 评论(0) 推荐(0) 编辑
摘要: 6.在安全通信中,S将所发送的信息使用(8)进行数字签名,T收到该消息后可利用(9)验证该消息的真实性。 选项: (8)A. S的公钥 B.S的私钥 C.T的公钥 D.T的私钥 (9)A. S的公钥 B.S的私钥 C.T的公钥 D.T的私钥 答案:B,A 解析: 数字签名技术是将摘要信息用发送者的私 阅读全文
posted @ 2018-07-17 17:34 云山之巅 阅读(909) 评论(0) 推荐(0) 编辑
摘要: 代码: 结果: 阅读全文
posted @ 2018-07-17 14:35 云山之巅 阅读(640) 评论(0) 推荐(0) 编辑
摘要: 代码实现: 结果: 总结:各回归算法在相同的测试数据中表现差距很多,且算法内的配置参数调整对自身算法的效果影响也是巨大的, 因此合理挑选合适的算法和配置合适的配置参数是使用算法的关键! 阅读全文
posted @ 2018-07-16 15:06 云山之巅 阅读(3189) 评论(0) 推荐(0) 编辑
摘要: 代码: 结果: 总结: K-NN的优点之一就是模型很容易理解,通常不需要过多调节就可以得到不错的性能。 在考虑使用更高级的技术之前,尝试此算法是一种很好的基准方法。 构建模型的速度通常很快,但如果训练集很大(特征数很多或样本基数很大),预测速度可能会比较慢。 因此,使用此算法之前进行数据预处理是很重 阅读全文
posted @ 2018-07-13 11:23 云山之巅 阅读(783) 评论(0) 推荐(0) 编辑
摘要: 代码: 结果: 阅读全文
posted @ 2018-07-13 11:12 云山之巅 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 代码: 结果: 阅读全文
posted @ 2018-07-13 11:09 云山之巅 阅读(1000) 评论(0) 推荐(0) 编辑
摘要: 代码: 结果: 总结:在仅考虑单一近邻时,训练集上的预测结果十分完美(接近100%)。但随着邻居个数的增多,模型变得更简单(泛化能力越好),训练集精度也随之下降。为求得较好的预测精度和泛化能力,最佳性能在neighbors为6左右! 阅读全文
posted @ 2018-07-12 10:32 云山之巅 阅读(733) 评论(0) 推荐(0) 编辑
摘要: 1 # -*- coding: utf-8 -*- 2 """ 3 Created on Thu Jun 28 17:16:19 2018 4 5 @author: zhen 6 """ 7 from sklearn.model_selection import train_test_split 8 阅读全文
posted @ 2018-07-12 10:17 云山之巅 阅读(757) 评论(0) 推荐(0) 编辑
摘要: 1.浮点数的表示分为阶和尾数 两部分。两个浮点数相加时,需要先对阶,即(1)(n为阶差的绝对值) 答案: 1 D将小阶向大阶对齐,同时将尾数右移n位 解析: 对阶是指将两个进行运算的浮点数阶码对齐的操作。对阶的目的是为使两个浮点数的尾数能够进行加减运算。首先求出两浮点数阶码的差,即n,将小阶码加上n 阅读全文
posted @ 2018-07-11 16:12 云山之巅 阅读(1474) 评论(0) 推荐(0) 编辑
摘要: 一.NumPy NumPy是Python科学计算的基础包。它提供了以下功能: 快速高效的多维数组对象ndarray。 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。 用于读写硬盘上基于数组的数据集的工具。 线性代数运算、傅里叶变换,以及随机数生成。 用于C、C++、Fortran代码集成 阅读全文
posted @ 2020-11-17 16:40 云山之巅 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 一.简介 在分布式环境下,用户必须要考虑系统出错的情形,例如,Region服务器发生故障时, MemStore 缓存中还没有被写入文件的数据会全部丢失。因此,HBase 采用 HLog 来保证系统发生故障时能够恢复到正常的状态。 二.WAL机制 每个 Region 服务器都有一个 HLog 文件,同 阅读全文
posted @ 2020-10-20 11:43 云山之巅 阅读(1645) 评论(0) 推荐(0) 编辑
摘要: 现代人给家中兄弟姐妹排行一般用老大、老二、老三、老四表示,既简单又明了。不过古人为兄弟姐妹排行可有讲究,他们按照从大到小的顺序给出一个名词,分别以“伯、仲、叔、季”表示。“伯”就是老大,也可以用“孟”表示,不过“孟”多指庶出的老大;“仲”是老二;“叔”是老三;“季”最小。古人在“字”前常加排行的次序 阅读全文
posted @ 2020-10-12 20:34 云山之巅 阅读(1308) 评论(1) 推荐(0) 编辑
摘要: 一.简介 Word2Vec是一个Estimator表示文档的单词序列并用于训练一个 Word2VecModel。该模型将每个单词映射到唯一的固定大小的向量。使用Word2VecModel 文档中所有单词的平均值将转换为向量;然后,可以将此向量用作预测,文档相似度计算等功能。 二.例子 在下面的代码段 阅读全文
posted @ 2020-09-29 10:25 云山之巅 阅读(876) 评论(0) 推荐(0) 编辑
摘要: 一.图像数据源 图像数据源用于从目录加载图像文件,它可以通过ImageIO Java库将压缩图像(jpeg,png等)加载为原始图像表示形式。加载的DataFrame具有一StructType列:“ image”,其中包含存储为图像架构的图像数据。该image列的架构为: origin :(Stri 阅读全文
posted @ 2020-09-07 18:22 云山之巅 阅读(551) 评论(0) 推荐(0) 编辑
摘要: 一.概述 GraphX是Spark中用于图形和图形并行计算的新组件。在较高的层次上,GraphX 通过引入新的Graph抽象来扩展Spark RDD:一个有向多重图,其属性附加到每个顶点和边上。为了支持图计算,GraphX公开了一组基本的操作符(例如, subgraph,joinVertices和  阅读全文
posted @ 2020-08-22 11:18 云山之巅 阅读(1284) 评论(0) 推荐(0) 编辑
摘要: Spark流式计算程序要想运行顺畅,也需要一些基本的调优,总结一下主要在两个方向: 每个批次的处理时间尽可能短。 收到数据后,尽可能地处理。 1.减少批处理的时间 一是增加数据接收的并发数量,尤其是当瓶颈发生在数据接收的时候。默认每个Input DStream都只会创建一个接收器,运行在某个节点上, 阅读全文
posted @ 2020-07-30 19:02 云山之巅 阅读(562) 评论(0) 推荐(0) 编辑
摘要: 一.什么是机器学习? 什么是机器学习?Herbert Sinmon给“学习”做出了这样的定义:“如果一个系统能够通过执行某个过程而改进性能,这就是学习。”更通俗的理解是:机器学习能够自动地从数据中学习“程序”,而这个程序不是人来编写的。 平面上有两类点,黄色代表类别a,蓝色代表类别b。这时我们希望能 阅读全文
posted @ 2020-07-26 11:38 云山之巅 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 一.DStream的两类操作 DStream内部其实是RDD序列,所有的DStream操作最终都转换为RDD操作。通过分析源码,可以进一步窥探这种转换是如何进行的。 DStream有一些与RDD类似的基础属性: 依赖的其它DStream列表。 生成RDD的时间间隔。 一个名为compute的计算函数 阅读全文
posted @ 2020-07-20 11:49 云山之巅 阅读(505) 评论(0) 推荐(0) 编辑
摘要: 一.简介 拼写检查是个不错的功能,不过还可以根据用户的输入给出建议查询词,从最开始就避免拼写错误。在移动端中“胖手指失误”是很常见的。自动建议就能发挥很大的作用。 效果如下: 一般情况下,自动建议功能需要满足两个要求: 1.速度快。一个笨重的输入方案不能跟上用户的输入节奏,没有比这更让人恼火的了。建 阅读全文
posted @ 2020-07-01 20:21 云山之巅 阅读(586) 评论(0) 推荐(0) 编辑
摘要: 一.拼写检查常用场景 1.查询包括一个或多个拼写错误的词,导致结果中得到不相关的内容。如果查询建议可用,搜索引擎应自动执行查询建议,向用户显示一条消息,如“显示的是xxx的搜索结果”或“仍然搜索xxx”。 2.查询包括罕见词,没有返回什么搜索结果。与此同时,存在可用的查询建议,并且能够得到多一些搜索 阅读全文
posted @ 2020-06-13 17:16 云山之巅 阅读(424) 评论(0) 推荐(0) 编辑
摘要: 一.原因分析 根据是使用java集合还是scala数据集原因也不尽相同。 1.java集合 因为 Java 集合类型在 Scala 操作时没有 foreach 方法。 2.scala数据集 一般为scala版本与spark版本不兼容导致! 二.解决方案 1.java集合 需要将其转换为Scala的集 阅读全文
posted @ 2020-05-18 18:30 云山之巅 阅读(1030) 评论(0) 推荐(0) 编辑
摘要: 一.高亮简介 大多数的搜索应用都存在类似的情况,那就是搜索结果显示的屏幕空间有限。如果文档很短并可以在结果列表中显示全部内容,对屏幕空间显示就不会构成太大的问题。但大多数情况下都只能显示每个结果文档的一小部分。这就提出了一个问题:如何决定结果文档中显示哪一部分?理想情况下,应该是基于各片段与用户查询 阅读全文
posted @ 2020-05-11 10:49 云山之巅 阅读(1292) 评论(0) 推荐(0) 编辑
摘要: 一.DAGScheduler SparkContext在初始化时,创建了DAG调度和Task调度来负责RDD Action操作的调度执行。 DAGScheduler负责Spark的最高级别的任务调度,调度的粒度是Stage,它为每个Job的所有Stage计算一个有向无环图,控制它们的并发,并找到一个 阅读全文
posted @ 2020-04-29 11:02 云山之巅 阅读(597) 评论(0) 推荐(0) 编辑
摘要: 一.选择响应格式 XML是Solr的默认响应格式。从Solr的角度看,什么样的响应格式并不重要。Solr可以返回XML、JSON、Ruby、Python、PHP、二进制Java等,甚至是自定义格式。使用wt参数修改响应格式。Solr的wt参数的可用格式如下: 当需要更改Solr的响应格式时,需要在请 阅读全文
posted @ 2020-04-26 18:47 云山之巅 阅读(609) 评论(0) 推荐(0) 编辑
摘要: 一.简介 Solr的函数可以动态计算每个文档的值,而不是返回在索引阶段对应字段的静态数值集。函数查询是一类特殊的查询,它可以像关键词一样添加到查询中,对所有文档进行匹配并返回它们的函数计算值作为文档得分。使用函数查询,函数计算结果将用于修改相关度得分或用于搜索结果的排序。在应用程序层,函数计算的结果 阅读全文
posted @ 2020-04-17 11:30 云山之巅 阅读(1830) 评论(1) 推荐(0) 编辑
摘要: 一.简介 SparkContext是Spark程序最主要的入口,用于与Spark集群连接。Spark集群的所有操作都通过SparkContext来进行,使用它可以在Spark集群上创建RDD、计数器以及广播变量。所有的Spark程序都必须创建一个SparkContext对象。进行流式计算时使用的St 阅读全文
posted @ 2020-04-14 18:35 云山之巅 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 一.Spark核心数据结构RDD RDD是Spark最重要的抽象,掌握了RDD,可以说就掌握了Spark计算的精髓。它不但对理解现有Spark程序大有帮助, 也可能提升Spark程序编写能力。 RDD的全称是“弹性分布式数据集”。首先,它是一个数据集,就像Scala语言中的Array,List,Tu 阅读全文
posted @ 2020-04-11 15:53 云山之巅 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 一.简介 Spark对程序提供了非常灵活的配置方式,可以使用环境变量、配置文件、命令行参数,还可以直接在Spark程序中指定,不同的配置方式有不同的优先级,可以相互覆盖。而且这些配置的属性在Web界面中可以直接看到,非常方便我们管理配置。 二.Spark程序配置加载过程 Spark程序一般都是由脚本 阅读全文
posted @ 2020-04-08 20:24 云山之巅 阅读(478) 评论(0) 推荐(0) 编辑
摘要: 一.背景 2003年,Google发表了“The Google File System”的论文。这个分布式文件系统简称GFS,它使用商用硬件集群存储海量数据。文件系统将数据在节点之间冗余复制,这样的话,即使一台存储服务器发生故障,也不会影响数据的可用性。它对数据的流式读取也做了优化,可以边处理边读取 阅读全文
posted @ 2020-04-06 18:51 云山之巅 阅读(307) 评论(0) 推荐(0) 编辑