会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Hongyu
数据分析;风控反欺诈;读书随笔
博客园
首页
新随笔
联系
订阅
管理
1
2
下一页
[置顶]
导航-机器学习(ML)
摘要: ### [1 逻辑回归](#lr) ### [2 决策树](#decision_tree) ### 3 支持向量机 ### 4 提升方法 ### 5 聚类 准备在近期复习巩固一下基本机器学期算法的原理和实现,写一些笔记,方便以后自己回顾。 1 逻辑回归 * (1) [理论推导](http://www
阅读全文
posted @ 2018-04-29 20:13 Yinhongyu
阅读(390)
评论(0)
推荐(0)
2022年2月27日
支付清算:什么是SWIFT
摘要: 最近俄乌的局势成为全球焦点,最新的消息报道,美国、欧盟、英国、加拿大发表共同声明,宣布禁止俄罗斯使用环球同业银行金融电讯协会(SWIFT)。 禁止俄罗斯使用SWIFT,被媒体们称为”金融核武器“,那么这个SWIFT到底是什么东西呢? >假如 >A国的小美,在A国的A银行开了个账户, >B国的小明,在
阅读全文
posted @ 2022-02-27 14:00 Yinhongyu
阅读(812)
评论(0)
推荐(0)
2018年11月28日
Spark Streaming基础总结
摘要: Spark Streaming基础总结,包括DStream、Fault Tolerance等。
阅读全文
posted @ 2018-11-28 10:43 Yinhongyu
阅读(537)
评论(0)
推荐(0)
2018年5月1日
信息量的度量——熵(entropy)
摘要: 引言 (废话) 我们经常说的“信息量太大了”,其中的”信息量“到底如何度量? Claude Elwood Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”。 这个概念现在看着很简单易懂,但是开创性地提出这样的概念不是容易的事情。 1 Entropy 熵 熵(entr
阅读全文
posted @ 2018-05-01 15:40 Yinhongyu
阅读(4463)
评论(0)
推荐(0)
2018年4月28日
使用sklearn进行中文文本的tf idf计算
摘要: Created by yinhongyu at 2018 4 28 email: hyhyin@163.com 使用jieba和sklearn实现了tf idf的计算 1 读取数据文件 数据爬取自新浪新闻,以"中美贸易战"为关键词,按照相关度搜索,爬取了搜索结果的前100页新闻的正文; 标题 来源
阅读全文
posted @ 2018-04-28 12:12 Yinhongyu
阅读(1510)
评论(0)
推荐(0)
2018年3月19日
Logistic Regression逻辑回归
摘要: 逻辑回归 针对二分类问题,若X是特征集合,Y是类别标签(0,1),假设Y的取值服从伯努利分布,即(式1) $P(Y=0|X)=1 p$ $P(Y=1|X)=p$ 再假设p是可以由已知的特征集合X预测的,令(式2) $$p=\frac{1}{1+e^{ {\theta}^{T} x}}=h_{\the
阅读全文
posted @ 2018-03-19 11:21 Yinhongyu
阅读(283)
评论(0)
推荐(0)
2018年3月13日
Hive分区(静态分区+动态分区)
摘要: 原文地址: https://www.cnblogs.com/yongjian/archive/2017/03/29/6640951.html Hive分区的概念与传统关系型数据库分区不同。 传统数据库的分区方式:就oracle而言,分区独立存在于段里,
阅读全文
posted @ 2018-03-13 21:20 Yinhongyu
阅读(787)
评论(0)
推荐(0)
2018年3月11日
Factorization Machine 因子分解机
摘要: 1 FM模型 FM是一般线性模型的推广,一般的线性模型可以表示为(式0): $$y(x)=w_0+\sum_\limits{i=1}^{n}{w_i}x_i$$ 但是上述模型没有考虑特征间的关联,为表示关联特征对$y$的影响,引入多项式模型,以$x_iy_i$表示两特征的组合,有如下二阶多项式模型(
阅读全文
posted @ 2018-03-11 14:11 Yinhongyu
阅读(898)
评论(0)
推荐(0)
2018年3月10日
因子分解机(FM) 和深度神经网络(DNN)
摘要: 在Baidu上以FM和DNN为关键词搜索的结果中,我找遍了都没看明白FM和DNN怎么能联系在一起,上周在导师讨论会的压力下,终于自己想明白了,这里记录一下。 在上一篇blog中,已经介绍了FM模型,对FM模型进行求解后,对于每一个特征$x_i$都能够得
阅读全文
posted @ 2018-03-10 23:56 Yinhongyu
阅读(3575)
评论(0)
推荐(0)
Python Selenium 快速上手
摘要: Selenium是用于浏览器测试的自动化工具,可以直接运行在浏览器中,模拟用户的各种操作。在爬虫领域的应用,主要就是模拟人的操作,打开浏览器,获取网页源码。获得网页源码之后就可以再利用BeautifulSoup、XPath等去解析和提取我们需要的数据了。 1 导入核心模块 s
阅读全文
posted @ 2018-03-10 23:11 Yinhongyu
阅读(406)
评论(0)
推荐(0)
1
2
下一页