随笔分类 -  大数据&算法

批处理(Batch或离线计算)和流计算(Streaming或实时计算)
摘要:大数据处理流程 课程:https://developer.aliyun.com/learning/course/432/detail/5385 流程 发 批处理(Batch或离线计算) 基础:google的三大论文——论文GFS、MapReduce、BigTable(kv存储) 基于上述论文,开发了 阅读全文

posted @ 2022-12-14 12:18 gogoy 阅读(898) 评论(0) 推荐(0)

实时计算Flink+实时数仓Hologres
摘要:阿里云培训:https://developer.aliyun.com/learning/course/807/detail/13885?accounttraceid=d2070f0a9edb471c99bf53af298c6acbzktc#directory 阅读全文

posted @ 2022-12-14 09:55 gogoy 阅读(58) 评论(0) 推荐(0)

流处理和批处理
摘要:批处理 (批处理和流处理介绍) 概念:在批处理中,新到达的数据元素将被收集到一个组中。 然后,在将来的某个时间对整个组进行批处理。 处理每个组的确切时间可以通过多种方式来确定。 例如,可以根据计划的时间间隔(例如,每小时)处理数据,也可以在到达特定数量的数据时触发数据处理,或者作为某些其他事件的结果 阅读全文

posted @ 2022-11-15 14:32 gogoy 阅读(568) 评论(0) 推荐(0)

推理(Inference)与预测(Prediction)
摘要:在机器学习的背景下,很多人似乎混淆了这两个术语。这篇文章将试图澄清我们所说的这两个词是什么意思,每一个词在哪里有用,以及它们是如何应用的。在这里,我将举几个例子来直观地理解两者之间的区别。 推理和预测这两个术语都描述了我们在监督下从数据中学习的任务,以便找到一个描述自变量和结果之间关系的模型。然而, 阅读全文

posted @ 2022-08-16 19:50 gogoy 阅读(664) 评论(0) 推荐(0)

用户分析——用户特征分析(用户画像)
摘要:https://www.jianshu.com/p/0b59c8f17fe4 什么是用户特征分析? 特征分析是用在我们产品设计面对的用户群,对典型的用户特征做分析。典型用户分析不能为超过3个以上的用户画像设计产品,否则相互冲突的需求就会让我们难以决断。当我们有多个用户画像时,我们需要考虑用户画像的优 阅读全文

posted @ 2019-05-15 17:10 gogoy 阅读(13277) 评论(0) 推荐(0)

什么是倒排索引?
摘要:https://www.cnblogs.com/zlslch/p/6440114.html 见其名知其意,有倒排索引,对应肯定,有正向索引。 正向索引(forward index),反向索引(inverted index)更熟悉的名字是倒排索引。 在搜索引擎中每个文件都对应一个文件ID,文件内容被表 阅读全文

posted @ 2019-05-15 14:19 gogoy 阅读(563) 评论(0) 推荐(0)

【百度搜索研发部】以求医为例谈搜索引擎排序算法的基础原理(转)
摘要:我们向搜索引擎网站提交处理一个查问,搜索引擎网站会从先到后列出数量多的最后结果,这些个最后结果排序的标准是啥子呢?这个看似简单的问题,却是信息检索资深专家们研讨的中心困难的问题之一。 为理解释明白这个问题,我们来研讨一个比搜索引擎网站更加古老的话题:求医。譬如,假如我牙疼,应当去看怎样的医生呢?如果 阅读全文

posted @ 2017-09-05 17:25 gogoy 阅读(308) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用(三):自动摘要
摘要:转:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html 有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法, 阅读全文

posted @ 2017-07-07 16:45 gogoy 阅读(151) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用(一):自动提取关键词
摘要:转自:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请 阅读全文

posted @ 2017-07-07 16:44 gogoy 阅读(112) 评论(0) 推荐(0)

TF-IDF与余弦相似性的应用(二):找出相似文章
摘要:转:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html 上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻" 阅读全文

posted @ 2017-07-07 13:46 gogoy 阅读(129) 评论(0) 推荐(0)

技术向:一文读懂卷积神经网络CNN(转)
摘要:目录(?)[-] 卷积神经网络 转载请注明:http://blog.csdn.net/stdcoutzyx/article/details/41596663 自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过thean 阅读全文

posted @ 2017-06-19 14:13 gogoy 阅读(307) 评论(0) 推荐(0)

[透析] 卷积神经网络CNN究竟是怎样一步一步工作的?(转)
摘要:视频地址:https://www.youtube.com/embed/FmpDIaiMIeA 转载:http://www.jianshu.com/p/fe428f0b32c1 文档参阅:pdf [2MB] & ppt [6MB] & Web View & GitBook 补充知识:深度学习 — 反向 阅读全文

posted @ 2017-06-16 18:00 gogoy 阅读(492) 评论(0) 推荐(0)

像素间的基本关系-距离(转)
摘要:定义 对于像素p、q和z,分别具有坐标(x,y),(s,t)和(u,v),如果 (1) D(p,q) ≥ 0 (当且仅当p=q时,D(p,q)=0) (2) D(p,q) = D(q,p) (3) D(p,z) ≤ D(p,q) + D(q,z) 则称D是距离函数或度量 欧几里得(欧式)距离 像素p 阅读全文

posted @ 2017-06-15 18:45 gogoy 阅读(3972) 评论(0) 推荐(0)

相关性 ≠ 因果性(转)
摘要:专家说,常食海参使人变得更聪明! 科学研究表明,20~50岁男人射精越频繁,以后患前列腺癌风险就越低! 你深信以上这种说法吗?是不是为了变聪明我们就要天天吃海参?是不是为了降低患前列腺癌的风险我们就要天天打飞机? 相信死理性派的读者,不会轻易就得出结论。但轻易下结论是很多人经常犯的毛病,为了分析类似 阅读全文

posted @ 2017-06-12 16:27 gogoy 阅读(474) 评论(0) 推荐(0)

窗口函数——数据分析
摘要:oracle的分析函数over 及开窗函数 转自:http://www.blogjava.net/loocky/archive/2007/11/13/160213.html http://www.cnblogs.com/icebutterfly/archive/2009/08/05/1539657. 阅读全文

posted @ 2017-06-06 11:16 gogoy 阅读(270) 评论(0) 推荐(0)

[转载]R2: 已解释和未解释的方差
摘要:估计值的方差与总体方差之间的差异就是回归方程对方差的解释率。试举一例,如图 1,身高与体重的回归线显示身高与体重之间呈正相关,Mr. Y身高76英寸体重220磅(图 1中插图.cdr的红点),他与体重平均值的总离差(Y-$\bar{Y}$)是220-155=65磅。这个总离差可以被分解为两部分:一部 阅读全文

posted @ 2017-05-25 17:15 gogoy 阅读(1902) 评论(0) 推荐(0)

[转载]R2: 相关系数、复相关系数及半偏相关系数之间的联系
摘要:开贴举例说明相关系数、复相关系数及半偏相关系数之间的联系。 比如,我们要预测学生在高中的表现(学生成绩),一种方法是测量学习速度和难易程度的能力测验来衡量学生的学习能力。那么,假设一个学生已经做了这样的测验,在这个样本中学习能力(X1)与学习成绩(Y)的相关系数是r1=.4,这就表明能力可以解释学习 阅读全文

posted @ 2017-05-25 16:50 gogoy 阅读(2271) 评论(0) 推荐(0)

[转]深入HBase架构解析
摘要:HBase架构讲解非常清晰的一篇文章,转自 http://www.blogjava.net/DLevin/archive/2015/08/22/426877.htmlhttp://www.blogjava.net/DLevin/archive/2015/08/22/426950.htmlhttps: 阅读全文

posted @ 2017-05-17 11:47 gogoy 阅读(143) 评论(0) 推荐(0)

导航