随笔分类 -  Data Science

摘要:假设检验 假设检验是推论统计学(inferential statistics)的一个分支,也就是对一个较小的、有代表性的数据组(例如样本集合)进行分析与评估,并依此推断出一个大型的数据组(例如人口)的一般性结论。一个典型的例子如:估算一个国家中居民的平均身高(在这个场景下,也就是人口)。在估算时,可 阅读全文
posted @ 2020-11-19 20:55 ZacksTang 阅读(724) 评论(0) 推荐(0)
摘要:1. Bike Sharing Analysis 在这章主要介绍如何分析共享单车服务数据,以及如何基于时间、天气状态特征来识别单车的使用模式。除此之外,我们还会引入可视化分析,假设检验、以及时间序列分析的概念与方法。 共享单车是城市里较为快速的通勤方式,了解用户使用共享单车所考虑的因素,对于公司和用 阅读全文
posted @ 2020-11-12 14:50 ZacksTang 阅读(1202) 评论(0) 推荐(0)
摘要:Kaggle题目 nu-cs6220-assignment-1 题目地址如下: https://www.kaggle.com/c/nu-cs6220-assignment-1/overview 这是个二分类任务,需要预测一个人的收入,分为两类:收入大于50K,或是小于50K。 1. 查看数据结构 下 阅读全文
posted @ 2020-03-16 17:31 ZacksTang 阅读(808) 评论(0) 推荐(0)
摘要:1. 神经元模型 在神经网络中,最基本的单元为神经元。在生物的角度上来看,神经元互相连接,在神经元处于“兴奋“状态时,会向其相连的神经元传递化学物质。其中处于”兴奋“的条件为:神经元的电位达到某个阈值。 类似的,在神经网络模型中,一个基本的神经元模型为: 1. 神经元模型 在神经网络中,最基本的单元 阅读全文
posted @ 2019-04-05 17:59 ZacksTang 阅读(9021) 评论(0) 推荐(1)
摘要:8. 过滤噪声边 在当前的伴生关系中,边的权重是基于一对概念同时出现在一篇论文中的频率来计算的。这种简单的权重机制的问题在于:它并没有对一对概念同时出现的原因加以区分,有时一对概念同时出现是由于它们具有某种值得我们关注的语义关系,但有时一对概念同时出现只是因为都频繁地出现在所有文档中,同时出现只是碰 阅读全文
posted @ 2018-09-02 16:15 ZacksTang 阅读(886) 评论(0) 推荐(0)
摘要:1. 图论与GraphX 图论是一个数学学科,研究一组实体(称为顶点)之间两两关系(称为边)的特点。通过构建关系图谱,并对关系进行分析,可以实现更好的投放广告,推荐关系等。随着关系图谱越来越强大,计算量也越来越大,于是不断有新的并行图处理框架被开发出来。如谷歌的Pregel、雅虎的 Giraph 和 阅读全文
posted @ 2018-08-25 19:15 ZacksTang 阅读(1222) 评论(0) 推荐(0)
摘要:1. 决策树和决策森林 决策树算法家族能自然地处理类别型和数值型特征 决策树算法容易并行化 它们对数据中的离群点(outlier)具有鲁棒性(robust),这意味着一些极端或可能错误的数据点根本不会对预测产生影响 2. Covtype数据集 https://archive.ics.uci.edu/ 阅读全文
posted @ 2018-08-12 17:35 ZacksTang 阅读(1452) 评论(0) 推荐(0)
摘要:1. Audioscrobbler数据集 数据下载地址: http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz Audioscrobbler 数据集只记录了播放数据,如“Bob 播放了一首Prince 的歌 阅读全文
posted @ 2018-08-05 13:59 ZacksTang 阅读(2842) 评论(0) 推荐(0)
摘要:1. 问题描述 记录关联问题(Record Linkage):有大量从一个或多个源系统来的记录,其中有些记录可能代表了相同的基础实体。 每个实体有若干个属性,比如姓名、地址、生日。我们需要根据这些属性找到那些代表相同实体的记录。 不幸的是,有些属性值有问题:格式不一致,或有笔误,或信息缺失。如果简单 阅读全文
posted @ 2018-08-01 22:38 ZacksTang 阅读(2767) 评论(0) 推荐(0)
摘要:原文地址如下: https://www.kaggle.com/startupsci/titanic-data-science-solutions 泰坦尼克数据科学解决方案: 1. 工作流程步骤: 在 Data Science Solutions book 这本书里,描述了在解决一个竞赛问题时所需要做 阅读全文
posted @ 2018-01-03 20:36 ZacksTang 阅读(4678) 评论(0) 推荐(1)