摘要: 算法:随机森林、XGboost可以接受数据部分属性存在缺失值,解决方法: 通用方法: 1、补一个值:常见的是补中位数、均值等; 2、使用模型预测缺失值; 3、直接忽略,将缺失作为一种信息给模型学习; RF: 1、使用中位数替换:快速简单但效果差; 2、引入权重,计算对应向量与其他数据之间的相似度,计 阅读全文
posted @ 2021-03-17 19:53 Qian1996 阅读(350) 评论(0) 推荐(0) 编辑
摘要: 1、什么是用户画像? 用户画像是对用户特征数据的一种建模模型,通过调研、数据挖掘了解用户,洞察用户,基于不同需求目标,将他们分为不同的类型,并对每种特征属性进行抽象,归纳,产出用户特有的特征标签,帮助业务更好的理解用户。 总结一句话:用户数据特征标签化。 2、数据标签化 基于数据的不同类别可以大致划 阅读全文
posted @ 2021-03-12 14:05 Qian1996 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 637: 二叉树的层平均值 给定一个非空二叉树,返回一个由每层节点平均值组成的数组; https://leetcode-cn.com/problems/average-of-levels-in-binary-tree/ class Solution(object): def averageOfLev 阅读全文
posted @ 2019-03-10 16:08 Qian1996 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 在原始的空间中,包含冗余信息以及噪音信息,在实际应用中总会产生误差,降低了准确率,我们希望减少冗余信息所造成的误差,提升识别精度。又或者希望通过降维算法寻找内部的本质结构特征。 数据降维的目的:维度降低便于可视化和计算,深层次的含义在于有效信息的特征提取以及无用信息的抛弃。 线性映射: PCA以及L 阅读全文
posted @ 2019-03-07 15:41 Qian1996 阅读(1275) 评论(0) 推荐(0) 编辑
摘要: 125. 验证回文串 /* * 给定一个字符串,验证它是否是回文串,只考虑字母和数字字符,可以忽略字母的大小写。 * 输入: "A man, a plan, a canal: Panama" 输出: true 回文串:正读和反读都是一样的字符串。 * */ 28. 实现strStr() 实现 str 阅读全文
posted @ 2019-02-28 17:03 Qian1996 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 19. 删除链表的倒数第N个节点 实现原理:设置两个指针p,q,初始时先让p走n步,之后p与q一起走,当p走到结尾的时候,删除p.next即可。 二叉树遍历: 递归方式遍历: 非递归版本: 先序遍历: 中序遍历: 后序遍历: 实现原理: * 需要保证根节点在左孩子和右孩子都被访问之后才 阅读全文
posted @ 2019-02-27 18:00 Qian1996 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 219. 存在重复元素 II 给定一个整数数组和一个整数 k,判断数组中是否存在两个不同的索引 i 和 j,使得 nums [i] = nums [j],并且 i 和 j 的差的绝对值最大为 k。 // 实现原理:这里面要求的一点是,其距离问题,也就是最大为K,name也就是说只要在距离的K的范围内 阅读全文
posted @ 2019-02-26 17:54 Qian1996 阅读(144) 评论(0) 推荐(0) 编辑
摘要: /* * 给定一个链表,旋转链表,将链表每个节点向右移动 k 个位置,其中 k 是非负数。 * 构造一个环,对链表进行处理。 * *实现原理:先遍历一遍,得出链表长度,注意K可能大于len,之后令k%len,将尾节点next指针指向 *首节点,形成一个环,接着往后跑len-k步,从这里断开,就是要求 阅读全文
posted @ 2019-02-26 17:49 Qian1996 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 简单的二分查找法:(Leetcode704); 注意条件(low<=high) LeetCode 74: //编写一个高效的算法来判断 m x n 矩阵中,是否存在一个目标值。该矩阵具有如下特性:////每行中的整数从左到右按升序排列。//每行的第一个整数大于前一行的最后一个整数。//也就是数组中的 阅读全文
posted @ 2019-02-26 17:48 Qian1996 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 原文:https://blog.csdn.net/niaolianjiulin/article/details/76584785 前者的含义是轻量级,GBM:梯度上升机。 相较于xgboost: 更快的训练效率 低内存使用 更高的准确率 支持并行化学习 可处理大规模数据 更快的训练效率 低内存使用 阅读全文
posted @ 2019-02-26 11:04 Qian1996 阅读(982) 评论(0) 推荐(0) 编辑