2020年3月20日

特征转换之python代码

摘要: 一、连续型变量1.1 连续变量无量纲化(1)无量纲化: 使不同规格尺度的数据转化统一规格尺度(将数据单位统一)(2)无量纲化方法:标准化, 区间所方法 标准化: 将连续性变量转变为 均值0 标准差1 的变量 代码: #对 Amount字段--均值为0,方差为1标准化from sklearn impo 阅读全文

posted @ 2020-03-20 10:11 limingqi 阅读(787) 评论(0) 推荐(0) 编辑

2020年3月16日

最长递增子序列长度

摘要: #coding=utf-8import sysn = int(input())nums = [int(x) for x in input().split()]'''dp[i]以nums[i]结尾的最长递增子序列长度if nums[i]>nums[j]说明nums[i]能加到nums[j]后面dp[i 阅读全文

posted @ 2020-03-16 17:02 limingqi 阅读(241) 评论(0) 推荐(0) 编辑

2020年3月12日

决策树缺失值处理

摘要: 现实生活中的数据集中的样本通常在某系属性上是缺失的,如果属性值缺失的样本数量比较少,我们可以直接简单粗暴的把不完备的样本删除掉,但是如果有大量的样本都有属性值的缺失,那么就不能简单地删除,因为这样删除了大量的样本,对于机器学习模型而言损失了大量有用的信息,训练出来的模型性能会受到影响。这篇博客就来介 阅读全文

posted @ 2020-03-12 15:54 limingqi 阅读(2055) 评论(0) 推荐(0) 编辑

决策树剪枝

摘要: 首先剪枝(pruning)的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,也就导致了过拟合。决策树的剪枝策略最基本的有两种:预剪枝(pre-pruning)和后剪枝(post-pruning): 预剪 阅读全文

posted @ 2020-03-12 13:57 limingqi 阅读(2288) 评论(0) 推荐(0) 编辑

二叉树层次遍历下到上,左到右python

摘要: # 利用队列进行层次遍历就行class TreeNode: def __init__(self, x): self.val = x self.left = None self.right = Noneclass Solution: def Print(self, pRoot): if not pRo 阅读全文

posted @ 2020-03-12 11:10 limingqi 阅读(415) 评论(0) 推荐(0) 编辑

2020年3月11日

最美逆行者--百度算法工程师面试

摘要: 百度、阿里、腾讯一直是很多人想进的大公司,但是由于个人的水平远远不够去这些大厂,看着身边的同学一点一点的就不在有勇气去面这些大厂,可是自己还是一直坚持,从2019年3月到2020年3月一直在面试中总结经验就是为了去面BAT,通过秋招我对各大公司的观察,我发现百度在秋招释放的岗位特别的少,而在这个过程 阅读全文

posted @ 2020-03-11 18:39 limingqi 阅读(589) 评论(0) 推荐(0) 编辑

2020年3月5日

CART回归树基本原理(具体例子)

摘要: id3不能直接处理连续性的特征,需要将连续性的转化成离散的,但是会破坏连续性特征的内在结构。 一、概念 CART全称叫Classification and Regression Tree。首先要强调的是CART假设决策树是二叉树,内部结点特征的取值只有“是”和“否”,左分支是取值为“是”的分支,有分 阅读全文

posted @ 2020-03-05 18:58 limingqi 阅读(13552) 评论(1) 推荐(1) 编辑

Leetcode 236. 二叉树的最近公共祖先 & 235. 二叉搜索树的最近公共祖先(Python3)

摘要: 236. 二叉树的最近公共祖先 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 最近公共祖先的定义为:“对于有根树 T 的两个结点 p、q,最近公共祖先表示为一个结点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节点也可以是它自己的祖先)。” 例如,给定如下二叉树: roo 阅读全文

posted @ 2020-03-05 13:12 limingqi 阅读(317) 评论(0) 推荐(0) 编辑

2020年3月4日

c和c++的区别

摘要: 1、C和C++的区别 1)C是面向过程的语言,是一个结构化的语言,考虑如何通过一个过程对输入进行处理得到输出;C++是面向对象的语言,主要特征是“封装、继承和多态”。封装隐藏了实现细节,使得代码模块化;派生类可以继承父类的数据和方法,扩展了已经存在的模块,实现了代码重用;多态则是“一个接口,多种实现 阅读全文

posted @ 2020-03-04 10:34 limingqi 阅读(8701) 评论(0) 推荐(0) 编辑

2020年2月28日

最小编辑距离python

摘要: 1 什么是编辑距离在计算文本的相似性时,经常会用到编辑距离(Levenshtein距离),其指两个字符串之间,由一个字符串转成另一个所需的最少编辑操作次数。在字符串形式上来说,编辑距离越小,那么两个文本的相似性越大,暂时不考虑语义上的问题。其中,编辑操作包括以下三种: 插入:将一个字符插入某个字符串 阅读全文

posted @ 2020-02-28 13:05 limingqi 阅读(2039) 评论(2) 推荐(0) 编辑

导航