上一页 1 2 3 4 5 6 ··· 29 下一页
摘要: 第一章 Redis新数据类型 1.1 Bitmaps 简介 现代计算机用二进制(位) 作为信息的基础单位, 1个字节等于8位, 例如“abc”字符串是由3个字节组成, 但实际在计算机存储时将其用二进制表示, “abc”分别对应的ASCII码分别是97、 98、 99, 对应的二进制分别是011000 阅读全文
posted @ 2022-09-30 15:43 王陸 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 第一章 缓存穿透 1.1 问题描述 key对应的数据在数据源并不存在,每次针对此key的请求从缓存获取不到,请求都会压到数据源,从而可能压垮数据源。比如用一个不存在的用户id获取用户信息,不论缓存还是数据库都没有,若黑客利用此漏洞进行攻击可能压垮数据库。 1.2 解决方案 一个一定不存在缓存及查询不 阅读全文
posted @ 2022-09-30 00:21 王陸 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 第一章 Redis 主从复制 1.1 主从复制是什么 主机数据更新后根据配置和策略, 自动同步到备机的master/slaver机制,Master以写为主,Slave以读为主 1.2 主从复制能干嘛 读写分离,性能扩展 容灾快速恢复 1.3 怎么玩:主从复制 拷贝多个redis.conf(redis 阅读全文
posted @ 2022-09-29 20:55 王陸 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 官网介绍:http://www.redis.io Redis 提供了2个不同形式的持久化方式。 RDB(Redis DataBase) AOF(Append Of File) 第一章 RDB(Redis DataBase) 1.1 官网介绍 1.2 RDB是什么? 在指定的时间间隔内将内存中的数据集 阅读全文
posted @ 2022-09-29 15:48 王陸 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 第一章 计算机系统概论 冯诺依曼型计算机特点 1.计算机由运算器,控制器,存储器,输入和输出设备5部分组成 2.采用存储程序的方式,程序和数据放在同一个存储器中,并以二进制表示。 3.指令由操作码和地址码组成 4.指令在存储器中按执行顺序存放,由指令计数器(即程序计数器PC)指明要执行的指令所在的储 阅读全文
posted @ 2022-09-28 09:03 王陸 阅读(1340) 评论(0) 推荐(2) 编辑
摘要: 多值提取至点 https://desktop.arcgis.com/zh-cn/arcmap/latest/tools/spatial-analyst-toolbox/extract-multi-values-to-points.htm 参数说明数据类型in_point_features要添加栅格值 阅读全文
posted @ 2022-09-23 14:33 王陸 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 第一章 类加载机制 1.1 Java运行时一个类是什么时候被加载的? 一个类在什么时候开始被加载,《Java虚拟机规范》中并没有进行强制约束,交给了虚拟机自己去自由实现,HotSpot虚拟机是按需加载,在需要用到该类的时候加载这个类; 1、Sun公司最早的 Classic虚拟机; 2、Sun/Ora 阅读全文
posted @ 2022-09-20 23:39 王陸 阅读(315) 评论(0) 推荐(2) 编辑
摘要: 1、Trie 树的定义 Trie 树(又叫「前缀树」或「字典树」)是一种用于快速查询「某个字符串/字符前缀」是否存在的数据结构。 Trie 是一颗非典型的多叉树模型。 其核心是使用「边」来代表有无字符,使用「点」来记录是否为「单词结尾」以及「其后续字符串的字符是什么」。 2、Trie 树的结构 2. 阅读全文
posted @ 2022-09-19 08:56 王陸 阅读(78) 评论(0) 推荐(0) 编辑
摘要: 一、csv文件内容 csv文件中记录了500行气象信息 我们需要做的是利用Fiona包,将csv的内容读取,并导出为shp格式 二、代码 import fiona from collections import OrderedDict import csv from fiona.crs import 阅读全文
posted @ 2022-09-10 14:54 王陸 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 这篇文章是对ANUSPLIN这个插值工具进行简单的介绍,项目demo可以参考: https://github.com/leeyang1991/ANUSPLIN 这个项目已经把从数据转换到脚本运行等一系列工作都用python实现了。 至于ANUSPLIN中的一些细节和参数说明,参考自: https:/ 阅读全文
posted @ 2022-09-01 18:02 王陸 阅读(1879) 评论(0) 推荐(2) 编辑
摘要: 一、数据预处理 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.preprocessing import LabelEncoder fr 阅读全文
posted @ 2022-08-26 21:17 王陸 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 一、三大Boosting算法对比 XGBoost、LightGBM和CatBoost都是目前经典的SOTA(state of the art)Boosting算法,都可以归入梯度提升决策树算法系列。这三个模型都是以决策树为支撑的集成学习框架,其中XGBoost是对原始版本GBDT算法的改进,而Lig 阅读全文
posted @ 2022-08-26 19:38 王陸 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 一、数据探索 import pandas as pd import numpy as np # 1: 加载数据文件,查看数据信息 df = pd.read_csv('broadband.csv') df.head() # broadband 即可:0-离开,1-留存 | | CUST_ID | GE 阅读全文
posted @ 2022-08-26 11:42 王陸 阅读(229) 评论(0) 推荐(0) 编辑
摘要: LightGBM的全称为Light Gradient Boosting Machine,即轻量的梯度提升机,由微软在其论文“LightGBM: A Highly Efficient Gradient Boosting Decision Tree”中提出,作为与XGBoost并驾齐驱的SOTA Boo 阅读全文
posted @ 2022-08-25 20:11 王陸 阅读(859) 评论(0) 推荐(0) 编辑
摘要: 一、XGBoost原理 XGBoost的全称为eXtreme Gradient Boosting,即极度梯度提升树,由陈天奇在其论文“XGBoost: A Scalable Tree Boosting System:https://arxiv.org/pdf/1603.02754.pdf 中提出,一 阅读全文
posted @ 2022-08-25 16:37 王陸 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 一、背景介绍 1963年,贝尔实验室的Vanpik首次提出了支持向量机的理论模型和方法。 20世纪90年代,一些新兴方法如神经网络等研究遭受重大困难,支持向量机一度成为主流的统计学习模型。在早期的模式识别中,支持向量机有着非常广泛的应用。人脸检测、语音识别、图像分类、字符识别、文本分类等领域均有应用 阅读全文
posted @ 2022-08-24 12:00 王陸 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 一、梯度提升树 提升是一类将弱学习器提升为强学习器的算法总称。 提升树(boosting tree)就是弱学习器为决策树的提升方法。针对提升树模型,加性模型和前向分步算法的组合是典型的求解方式。当损失函数为平方损失和指数损失时,前向分步算法(通过一轮轮的弱学习器学习,利用前一个弱学习器的结果来更新后 阅读全文
posted @ 2022-08-18 21:11 王陸 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 一、集成学习与Boosting 集成学习是指将多个弱学习器组合成一个强学习器,这个强学习器能取所有弱学习器之所长,达到相对的最佳性能的一种学习范式。 集成学习主要包括Boosting和Bagging两种学习框架。Boosting是一种将弱学习器提升为强学习器的算法,所以也叫提升算法。 以分类问题为例 阅读全文
posted @ 2022-08-17 11:17 王陸 阅读(624) 评论(0) 推荐(1) 编辑
摘要: 决策树(decision tree)是一类最常见、最基础的机器学习算法。决策树基于特征对数据实例按照条件不断进行划分,最终达到分类或回归的目的。 决策树模型的核心概念包括特征选择方法、决策树构造过程和决策树剪枝。常见的特征选择方法包括信息增益、信息增益比和基尼指数(Gini index),对应的三种 阅读全文
posted @ 2022-08-15 10:42 王陸 阅读(777) 评论(0) 推荐(0) 编辑
摘要: Boosting与Bagging Boosting和Bagging都是机器学习中一种集成学习框架。集成学习的意思是将多个弱分类器组合成一个强分类器,这个强分类器能取所有弱分类器之所长,达到相对的最优性能。 Boosting的一般过程如下。以分类问题为例,给定一个训练集,训练弱分类器要比训练强分类器容 阅读全文
posted @ 2022-08-08 19:46 王陸 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 第一章 项目介绍 1.1 项目背景 新冠疫情防控指挥作战平台项目实现了疫情态势、基层防控、物资保障、复工复产等多个专题板块,包括新冠疫情防控指挥大屏子系统和新冠疫情防控指挥平台后台管理子系统。 通过新冠疫情防控指挥作战平台的建设及实施,使得从局部作战到中心指挥,让战“疫”指挥官对疫情防控心中有“数” 阅读全文
posted @ 2022-07-31 18:31 王陸 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 最早关于自适应模糊神经网络推理系统( Adaptive Neuro Fuzzy Inference System,ANFIS)的文章应该是Jyh-Shing Roger Jang 于1993年发表的《ANFIS : Adaptive-Network-Based Fuzzy Inference Sys 阅读全文
posted @ 2022-07-28 16:43 王陸 阅读(2537) 评论(0) 推荐(0) 编辑
摘要: 一、用法 先说结论,JAVA中默认是小根堆,即小的在堆顶(poll时小的出去) 接下来看下默认的最小堆写法 PriorityQueue<Integer> queue = new PriorityQueue<Integer>(new Comparator<Integer>(){ @Override p 阅读全文
posted @ 2022-07-11 21:03 王陸 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 第六章 循环神经网络 在前馈神经网络中,信息的传递是单向的,这种限制虽然使得网络变得更容易学习,但在一定程度上也减弱了神经网络模型的能力.在生物神经网络中,神经元之间的连接关系要复杂得多.前馈神经网络可以看作一个复杂的函数,每次输入都是独立的,即网络的输出只依赖于当前的输入.但是在很多现实任务中,网 阅读全文
posted @ 2022-06-26 21:24 王陸 阅读(379) 评论(0) 推荐(0) 编辑
摘要: 1、模块导入 import tensorflow as tf import matplotlib as mpl import matplotlib.pyplot as plt import numpy as np import os import pandas as pd import seabor 阅读全文
posted @ 2022-06-24 18:20 王陸 阅读(2370) 评论(0) 推荐(0) 编辑
摘要: 时间序列是一种衡量事物随时间变化的数据类型。在一个时间序列数据集中,时间列本身不代表一个变量:它实际上是一个基本结构,可以使用它对数据集排序。由于我们需要应用特定的数据预处理和特征工程技术来处理时间序列数据,因此这种基本的时间结构使时间序列问题更具有挑战性。 时间序列预测就是利用过去一段时间的数据来 阅读全文
posted @ 2022-06-20 14:26 王陸 阅读(882) 评论(0) 推荐(0) 编辑
摘要: 特征抽取与特征选择在功能上类似,都最终实现了数据集特征数量的减少,但特征选择得到的是原有特征的子集,而特征抽取是将原有特征根据某种函数关系转换为新的特征,并且数据集维度比原来的低。两者所得到的的特征集合与原特征集合对应关系不同。 4.1 无监督特征抽取 实现无监督特征抽取的算法有很多,这里仅以“主成 阅读全文
posted @ 2022-06-09 21:28 王陸 阅读(374) 评论(0) 推荐(0) 编辑
摘要: 经过“数据清理”和“特征变换”后的数据集,已经满足了数据科学项目中算法对数值的基本要求。但是, 不呢止步于此,数据集的特征数量、质量会影响计算效率和最终模型的预测、分类效果。所以要对特征进行选择,即根据具体的项目选择适合的特征。 3.1 特征选择简述 是不是维度越大的数据越好?是不是所有的维度都是必 阅读全文
posted @ 2022-06-09 20:20 王陸 阅读(602) 评论(0) 推荐(0) 编辑
摘要: 数据科学项目中少不了要用到机器学习算法。通常每种算法都会对数据有相应的要求,比如有的算法要求数据集特征是离散的,有的算法要求数据集特征是分类型的,而数据集特征不一定就满足这些要求,必须依据某些原则、方法对数据进行变换。 2.1 特征的类型 特征的类型由其所有值的集合决定,通常有如下几种: 分类型:性 阅读全文
posted @ 2022-06-09 16:20 王陸 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 现实的数据是多种多样的,即使它们已经是结构化的,仍可能存在各种问题,如数据不完整、丢失、类型错误、前后不一致等。因此需要进行数据清理(Data cleaning),也译为数据清洗。 1.1 基本概念 通常以二维表的方式表示数据,Pandas的DataFrame类型的数据是最常见的。 import p 阅读全文
posted @ 2022-06-09 14:02 王陸 阅读(262) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 29 下一页