摘要: 构建广义线性模型 先了解一下指数族分布的形式,如果一个分布能用以下的形式写出来,则这个式子为指数族分布 ​ 稍微对比思考会发现,之前的分类用的伯努利分布以及高斯分布都是属于指数族分布的 对于伯努利分布,有如下的式子 ​ 与指数族的式子相对比会发现,对应关系为 即 其实也就是我们上篇博客说到的logi 阅读全文
posted @ 2018-10-18 20:43 淅淅沥沥6 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 分类和逻辑回归 在之前说过了线性回归的一些问题,线性回归常常用在一些预测值为连续的情况下,但生活中有的结果是以离散的形态分布的,比如下雨还是不下雨,浏览到新闻会点击还是不会点击,看到商品买还是不买,这些都是有特定的结果类别的,我们称这一类问题为分类问题 对于二元分类的问题,从线性的角度来看,最终的预 阅读全文
posted @ 2018-10-16 08:26 淅淅沥沥6 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 从概率角度解释线性回归 上篇博客说到了线性回归的成本函数以及其拟合方案,但我们为什么要这样来定义成本函数呢? 我们先假设目标变量和自变量满足以下关系 ​ 其中表示误差项,因为我们在建模时选择的特征种类是有限的,所以有的隐含的特征我们是会忽略的,这种情况不可避免,毕竟我们不可能一开始知道所有的影响因素 阅读全文
posted @ 2018-10-12 09:00 淅淅沥沥6 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 有监督学习和无监督学习: 机器学习是如今用处较多的一个技术,机器学习,顾名思义,就是计算机替代人类主动去学习并掌握住事物发展的规律,从中拟合出自己想要的模型函数 首先先讲讲机器学习中的主要分类,机器学习分为监督学习和非监督学习,从名字中来理解,监督学习就是有监督的学习,那么是什么来监督呢,在机器学习 阅读全文
posted @ 2018-10-12 08:58 淅淅沥沥6 阅读(470) 评论(0) 推荐(0) 编辑
摘要: 在信息匹配的环节,有根据权重进行匹配的需求。用户输入的字段有: (job_name(期望工作),city(期望工作城市),sala(期望工作薪水),self_jy(个人经验),self_xl(个人学历)) 我们希望通过以上条件实现智能化的匹配。具体思路如下: 在spark分析程序中将读取Hbase中 阅读全文
posted @ 2018-10-10 22:32 淅淅沥沥6 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 一、linux的安装配置 1、 安装虚拟机(VMware) 在本机上安装VMware,此处为Vmware压缩包(包括安装包以及注册码) 链接:https://pan.baidu.com/s/1OKYP-UOpAWpcEITQfkVQTA 密码:mwi7 2、新建linux虚拟机 ​ 首先进入vmwa 阅读全文
posted @ 2018-10-10 22:28 淅淅沥沥6 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 在运行实例代码时候,在命令行中log4j的日志中,有时会出现这样的日志,没有warning也没有error,但就是出现不了结果。 18/06/17 21:12:09 INFO scheduler.JobScheduler: Added jobs for time 1420953009000 ms 1 阅读全文
posted @ 2018-10-10 22:22 淅淅沥沥6 阅读(1072) 评论(1) 推荐(0) 编辑
摘要: 一段很简单的爬虫程序,爬取的网站为http://www.tianqihoubao.com,可以自己修改爬取城市以及爬取的月份,这里爬取的是1到7月的数据 from bs4 import BeautifulSoup import requests import pymysql import warni 阅读全文
posted @ 2018-10-10 22:19 淅淅沥沥6 阅读(3517) 评论(1) 推荐(0) 编辑