摘要:
1.Mongo集群类型 1.Master/Slave 已经不推荐 2.Replica Set 3.Sharded Cluster,其包含3个组件:mongos,config server和mongod 参考:mongodb 三种集群的区别(Replica Set / Sharding / Maste
阅读全文
posted @ 2016-11-19 16:33
tonglin0325
阅读(307)
推荐(0)
摘要:
SVM有很多实现,现在只关注其中最流行的一种实现,即序列最小优化(Sequential Minimal Optimization,SMO)算法,然后介绍如何使用一种核函数(kernel)的方式将SVM扩展到更多的数据集上。 1.基于最大间隔分隔数据 几个概念: 1.线性可分(linearly sep
阅读全文
posted @ 2016-11-18 17:10
tonglin0325
阅读(12243)
推荐(0)
摘要:
1.广告归因的概念 在做用户增长的时候需要对各渠道(广告投放平台,如腾讯广告、字节-巨量引擎、百度营销平台等)上的投放效果进行广告归因,归因的作用是判断用户从何渠道下载应用(或打开落地页、小程序),通过匹配用户广告行为,分析是何原因促使用户产生转化。 广告归因的数据结果是衡量广告效果、评估渠道质量的
阅读全文
posted @ 2016-11-16 22:02
tonglin0325
阅读(1118)
推荐(0)
摘要:
梯度下降法是一个最优化算法,通常也称为最速下降法。 最速下降法是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不具有实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的。 最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。 可以用于求解非线性方程组。
阅读全文
posted @ 2016-11-15 21:21
tonglin0325
阅读(2018)
推荐(0)
摘要:
参考:https://medium.com/@hansrajchoudhary_88463/scylladb-architecture-understanding-consistent-hashing-bloom-filters-memtable-and-sstable-95d95a27920f
阅读全文
posted @ 2016-11-15 11:19
tonglin0325
阅读(797)
推荐(0)
摘要:
1.基于Logistic回归和Sigmoid函数的分类 2.基于最优化方法的最佳回归系数确定 2.1 梯度上升法 参考:机器学习——梯度下降算法 2.2 训练算法:使用梯度上升找到最佳参数 Logistic回归梯度上升优化算法 2.3 分析数据:画出决策边界 画出数据集和Logistic回归最佳拟合
阅读全文
posted @ 2016-11-15 10:36
tonglin0325
阅读(1367)
推荐(0)
摘要:
1.基于贝叶斯决策理论的分类方法 2.使用朴素贝叶斯进行文档分类 使用Python进行文本分类 1.准备数据:从文本中构建词向量 2.训练算法:从词向量计算概率 3.测试算法:根据现实情况修改分类器 朴素贝叶斯分类函数 4.准备数据:文档词袋模型 示例:使用朴素贝叶斯过滤垃圾邮件 1.准备数据:切分
阅读全文
posted @ 2016-11-13 19:45
tonglin0325
阅读(733)
推荐(0)
摘要:
如果遇到auth遗忘,又想删除zknode的情况,可以使用超级用户用来删除zknode 超级用户只能在zkserver启动的时候启用,需要在zkserver的启动命令中添加 -Dzookeeper.DigestAuthenticationProvider.superDigest 参数 -Dzooke
阅读全文
posted @ 2016-11-13 15:59
tonglin0325
阅读(841)
推荐(0)
摘要:
官方文档:https://pandas.pydata.org/docs/reference/index.html 1.loc属性,通过标签或布尔数组访问一组行和列。pandas.DataFrame.loc >>> df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
阅读全文
posted @ 2016-11-11 16:58
tonglin0325
阅读(2229)
推荐(0)
摘要:
查看当前安装的linux内核版本号 查看当前使用的内核版本号 卸载不需要的内核 最后使用df命令查看boot的占用情况
阅读全文
posted @ 2016-11-11 10:20
tonglin0325
阅读(1594)
推荐(0)
摘要:
1.决策树的构造 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:可能会产生过度匹配问题 适用数据类型:数值型和标称型 2.划分数据集 3.递归构建决策树 4.在Python中使用Matplotlib注解绘制树形图 5.构造注解树 获取叶节点的数目和树的层
阅读全文
posted @ 2016-11-10 10:48
tonglin0325
阅读(2309)
推荐(0)
摘要:
k-近邻算法(kNN)采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 使用数据范围:数值型和标称型 工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应
阅读全文
posted @ 2016-11-08 22:39
tonglin0325
阅读(436)
推荐(0)
摘要:
1.scylla部署 docker单机部署 可以使用docker镜像来启动scyllaDB docker集群部署 也可以使用docker镜像来部署scyllaDB集群 docker run --name scylla -p 9042:9042 -p 9160:9160 -p 10000:10000
阅读全文
posted @ 2016-11-08 22:28
tonglin0325
阅读(5000)
推荐(0)
摘要:
1.机器学习的主要任务:一是将实例数据划分到合适的分类中,即分类问题。 而是是回归, 它主要用于预测数值型数据,典型的回归例子:数据拟合曲线。 2.监督学习和无监督学习: 分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须直到预测什么,即目标变量的分类信息。 对于无监督学习,此时数据没
阅读全文
posted @ 2016-11-08 22:01
tonglin0325
阅读(11434)
推荐(0)
摘要:
1.添加driver hive集群的版本是1.1.0-cdh5.16.2,而datagrip自带的hive driver版本是3.1.1和3.1.2,所以需要自行添加driver 参考:kerberos-2.datagrip(jdbc)连接hive kerberos add custome JARs
阅读全文
posted @ 2016-11-08 15:23
tonglin0325
阅读(1542)
推荐(0)
摘要:
又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。 典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。 它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。 下面是字典树数据的Java
阅读全文
posted @ 2016-10-29 18:42
tonglin0325
阅读(495)
推荐(0)
摘要:
1.在IDEA或者pycharm中安装kubernets插件 2.使用kubernetes插件 在view的Tool windows中点击service 可以看到docker和kubernetes的管理界面 可以切换context,从而在不同k8s集群之间切换 多个k8s集群的配置文件默认在 /Us
阅读全文
posted @ 2016-10-29 17:10
tonglin0325
阅读(1805)
推荐(0)
摘要:
使用beeline连接hive kinit -kt xxx.keytab xxx beeline -u "jdbc:hive2://10.65.13.98:10000/default;principal=hive/_HOST@CLOUDERA.SITE" 参考: https://docs.cloud
阅读全文
posted @ 2016-10-29 12:06
tonglin0325
阅读(260)
推荐(0)
摘要:
面试题18.1:编写一个函数,将两个数字相加。不得使用+或其他算数运算符。 面试题18.2:编写一个方法,洗一副牌。要求做到完美洗牌,换言之,这副牌52!中排列组合出现的概率相同。假设给定一个完美的随机数发生器。 面试题18.3:编写一个方法,从大小为n的数组中随机选出m个整数。要求每个元素被选中的
阅读全文
posted @ 2016-10-18 20:58
tonglin0325
阅读(428)
推荐(0)
摘要:
文字部分为转载:http://hxraid.iteye.com/blog/647759 对N个关键字进行桶排序的时间复杂度分为两个部分: (1) 循环计算每个关键字的桶映射函数,这个时间复杂度是O(N)。 (2) 利用先进的比较排序算法对每个桶内的所有数据进行排序,其时间复杂度为 ∑ O(Ni*lo
阅读全文
posted @ 2016-10-17 15:36
tonglin0325
阅读(342)
推荐(0)
摘要:
面试题17.1:编写一个函数,不用临时变量,直接交换两个数。 思路:使用差值或者异或 面试题17.2:设计一个算法,判断玩家是否赢了井字游戏。 面试题17.3:设计一个算法,算出n阶乘有多少个尾随零。 面试题17.4:编写一个方法,找出两个数字中最大的那一个。不得使用if-else或其他比较运算符。
阅读全文
posted @ 2016-10-14 17:16
tonglin0325
阅读(338)
推荐(0)
摘要:
package cc150.thread_lock; public class RunnableThreadExample implements Runnable{ public int count = 0; public static void main(String[] args) { // TODO 自动生成的方法存根 RunnableThreadExample i...
阅读全文
posted @ 2016-10-14 11:04
tonglin0325
阅读(220)
推荐(0)
摘要:
带权图的最小生成树——Prim算法和Kruskal算法 带权图的最短路径算法——Dijkstra算法
阅读全文
posted @ 2016-10-13 22:52
tonglin0325
阅读(968)
推荐(0)
摘要:
点 建立无权图,添加新的顶点,添加边,显示顶点,返回一个和v邻接的未访问顶点,无权图的深度搜索,广度搜索,基于深度搜索的最小生成树,删除顶点,有向图的拓扑排序 有向图的连通性,Warshall算法 主函数
阅读全文
posted @ 2016-10-13 22:25
tonglin0325
阅读(305)
推荐(0)
摘要:
npm安装 查看npm版本 npm -v npm查看所有版本 npm view npm versions npm更新到最新版 npm install -g npm 查看npm当前镜像源 npm config get registry 设置npm镜像源为淘宝镜像 npm config set regi
阅读全文
posted @ 2016-10-11 22:03
tonglin0325
阅读(1418)
推荐(0)
摘要:
1.减轻/对抗...的影响/风险 combat/decrease/deal with/handle the effect alleviate/relieve/mitigate the risk 2.接触风险 defuse the risk 3.由什么导致 caused by/suffer from
阅读全文
posted @ 2016-10-08 10:46
tonglin0325
阅读(156)
推荐(0)
摘要:
package cc150.java; import java.util.Iterator; public class CircularArray { public static void main(String[] args) { //实现一个类似数组的数据结构,可以进行高效的旋转 // TODO 自动生成的方法存根 CircularArray ca...
阅读全文
posted @ 2016-09-30 22:32
tonglin0325
阅读(272)
推荐(0)
摘要:
面试题11.1:给定两个排序后的数组A和B,其中A的末端有足够的缓冲空间容纳B。编写一个方法,将B合并入A并排序。 面试题11.2:编写一个方法,对字符串数组进行排序,将所有变位词排在相邻的位置。 面试题11.3:给定一个排序后的数组,包含n个整数,但这个数组已被旋转过很多次,次数不详。请编写代码找
阅读全文
posted @ 2016-09-29 20:43
tonglin0325
阅读(248)
推荐(0)
摘要:
面试题9.1:有个小孩正在上楼梯,楼梯有n个台阶,小孩一次可以上1阶、2阶或者3阶。实现一个方法,计算小孩有多少种上楼梯的方式。 思路:第4个数是前三个数之和 注意:能不能使用递归,能不能建立一个很大的数组来存储传递的参数(因为可能有空间的限制),要%1000000007防止超出范围 面试题9.2:
阅读全文
posted @ 2016-09-24 22:38
tonglin0325
阅读(291)
推荐(0)
摘要:
面试题7.2:三角形的三个顶点上各有一只蚂蚁。如果蚂蚁开始沿着三角形的边爬行,两只或三只蚂蚁撞到一起的概率有多大?假定每只蚂蚁会随机选一个方向,每个方向被选到的几率相等,而且三只蚂蚁的爬行速度相同。 面试题7.3:给定直角坐标系上的两条线,确定这两条线会不会相交。 面试题7.4:编写方法,实现整数的
阅读全文
posted @ 2016-09-24 22:30
tonglin0325
阅读(331)
推荐(0)
摘要:
面试题6.1:有20瓶药丸,其中19瓶装有1克/粒的药丸,余下一瓶装有1.1克/粒的药丸。给你一台称重精准的天平,怎么找出比较重的那瓶药丸?天平只能用一次。 思路:第1瓶取1颗,第2瓶取2颗。。。。最后是(总重-210克)/0.1=第几瓶 面试题6.2:有8×8棋盘,其中对角的角落上,两个方格被切掉
阅读全文
posted @ 2016-09-22 15:36
tonglin0325
阅读(810)
推荐(0)
摘要:
面试题5.1:给定两个32位的整数N与M,以及表示比特位置的i与j。编写一个方法,将M插入N,使得M从N的第j位开始,到第i位结束。假定从j位到i位足以容纳M,也即若M=10011,那么j与i之间至少可容纳5个位。例如,不可能出现j=3和i=2的情况,因为第3位和第2位之间放不下M。 输入:N=10
阅读全文
posted @ 2016-09-20 15:34
tonglin0325
阅读(330)
推荐(0)
摘要:
面试题4.1:实现一个函数,检查二叉树是否平衡。在这个问题中,平衡树的定义如下:任意一个结点,其两颗子树的高度差不超过1。 思路:两个方法,第一种速度较快 面试题4.2: 给定有向图,设计一个算法,找出两个结点之间是否存在一条路径。 思路:解法中使用了递归以及深度遍历,并没有通过栈来优化空间的占用(
阅读全文
posted @ 2016-09-16 21:33
tonglin0325
阅读(319)
推荐(0)
摘要:
面试题3.1:描述如何只用一个数组来实现三个栈。 方法1:固定分割 方法2:弹性分割(较难) 面试题3.2:请设计一个栈,除pop与push方法,还支持min方法,可返回栈元素中的最小值。push、pop和min三个方法的时间复杂度必须为O(1)。——《Leetcode》155. Min Stack
阅读全文
posted @ 2016-09-14 16:42
tonglin0325
阅读(292)
推荐(0)
摘要:
面试题2.1:编写代码,移除未排序链表中的重复结点 进阶:如果不得使用临时缓冲区,该怎么解决? 面试题2.2:实现一个算法,找出单向链表中倒数第k个结点。——《剑指Offer》面试题15 (找出) &《Leetcode》removeNthNode (移除) 面试题2.3:实现一个算法,删除单向链表中
阅读全文
posted @ 2016-09-12 11:39
tonglin0325
阅读(331)
推荐(0)
摘要:
1.docker运行starrocks环境 docker run -p 9030:9030 -p 8030:8030 -p 8040:8040 -itd --name quickstart starrocks/allin1-ubuntu 参考:https://docs.starrocks.io/do
阅读全文
posted @ 2016-09-07 22:53
tonglin0325
阅读(286)
推荐(0)
摘要:
1.TCP/IP网络分层模型 TCP/IP通常被认为是一个四层网络通信协议系统: 1.链路层,有时也称作数据链路层或网络接口层,通常包括操作系统中的设备驱动程序和计算机中对应的网络接口卡。它们一起处理与电缆(或其他任何传输媒介)的物理接口细节。2.网络层,有时也称作互联网层,处理分组在网络中的活动,
阅读全文
posted @ 2016-09-06 23:06
tonglin0325
阅读(168)
推荐(0)
摘要:
面试题1.1:实现一个算法,确定一个字符串的所有字符是否全都不同。假使不允许使用额外的数据结构,又该如何处理? 注意:ASCII字符共有255个,其中0-127的字符有字符表 第一种解法:是《CC150》里面的解法 第二种解法:先排序,然后通过异或运算判断是否有重复的字符 面试题1.2:实现void
阅读全文
posted @ 2016-09-06 09:18
tonglin0325
阅读(317)
推荐(0)
摘要:
课程表 邻接矩阵 package graph; import java.util.LinkedList; import java.util.Queue; import thinkinjava.net.mindview.util.Stack; //类名:Vertex //属性: //方法: class
阅读全文
posted @ 2016-09-03 20:15
tonglin0325
阅读(572)
推荐(0)
posted @ 2016-09-03 11:04
tonglin0325
阅读(130)
推荐(0)