会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
xieyan0811
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
14
15
16
17
18
19
20
21
22
···
39
下一页
2017年12月30日
随笔_从《芳华》影评到TF/IDF算法
摘要: 前两天看好多《芳华》的影评说:为什么好人没好报?于是感叹一堆世态炎凉,人性丑陋什么的。我觉得这问题是:为什么中央空调(对谁都温暖)往往不被看好。 先说说TF/IDF算法,这是一种信息...
阅读全文
posted @ 2017-12-30 11:36 xieyan0811
阅读(24)
评论(0)
推荐(0)
2017年12月28日
随笔_写程序到底有多难
摘要: 我女儿上二年级,最近教她一些简单的python编程。一直想聊聊这事儿:如果你想写程序,学习某样东西,或者转行。多大岁数,什么起点才行?这不光是知识问题,有时候也是心理问题。 最近常看到互联网把传统行业打得落花流水,有时候也为自己和孩子的将来捏把汗。...
阅读全文
posted @ 2017-12-28 18:17 xieyan0811
阅读(42)
评论(0)
推荐(0)
2017年12月27日
Python海量数据处理之_Hadoop家族
摘要: 本篇是hadoop部分的最后一篇,主要介绍Hadoop家族的常用工具。以及解答学习过程中的一些疑问。 hadoop家族 Pig是上层封装了的数据流处理工具。 Mahout是基于集群的数据挖掘工具。 Zo...
阅读全文
posted @ 2017-12-27 17:33 xieyan0811
阅读(30)
评论(0)
推荐(0)
2017年12月26日
Python海量数据处理之_Hadoop&Spark
摘要: 1. 说明 前篇介绍了安装和使用Hadoop,本篇将介绍Hadoop+Spark的安装配置及如何用Python调用Spark。 当数据以TB,PB计量时,用单机处理数据变得非常困难,于是使用Hadoop建立计算集群处理海量数据,Hadoop分为两部分...
阅读全文
posted @ 2017-12-26 16:27 xieyan0811
阅读(60)
评论(0)
推荐(0)
2017年12月25日
Python海量数据处理之_Hadoop(三)程序调用
摘要: 1. 说明 前两篇分别介绍了Hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的,它不仅支持Java,还支持C++,Python等程序的分布计算。下面以Python为例介绍如何使...
阅读全文
posted @ 2017-12-25 18:26 xieyan0811
阅读(63)
评论(0)
推荐(0)
2017年12月22日
Python海量数据处理之_Hadoop(二)概念和原理
摘要: 1. 说明 Hadoop是个分布式的架构,它将海量数据处理工作分配到集群中的多个机器上运行。前篇介绍了Hadoop的安装,在安装过程中会产生一些疑问,比如NameNode是什么东西?本篇就以问题&解答的方式介绍Had...
阅读全文
posted @ 2017-12-22 11:34 xieyan0811
阅读(40)
评论(0)
推荐(0)
2017年12月21日
Python海量数据处理之_Hadoop(一)集群搭建
摘要: 1. 说明 数据处理时,可能会遇到数千万以及上亿条数据的情况。如果一次性处理所有数据,就会遇到内存不够,计算时间太长等问题。上篇《Python海量数据处理之_单机优化》讲述了单机的处理大数据的解决方案。下面将讲述如何利用服务器集群处理大数据,这里使用的...
阅读全文
posted @ 2017-12-21 18:38 xieyan0811
阅读(80)
评论(0)
推荐(0)
2017年12月20日
Python海量数据处理之_单机优化
摘要: 1. 说明 数据处理时,可能会遇到数千万以及上亿条数据的情况。一次处理所有数据,会遇到内存不够,计算时间太长等问题。一般的解法是:先拆分,再处理,最后将处理的结果合并(当然数据少的时候不需要这么麻烦)。本文将介绍在单机上,只使用Python如何处理大量...
阅读全文
posted @ 2017-12-20 17:22 xieyan0811
阅读(61)
评论(0)
推荐(0)
2017年12月18日
Python之DataFrame数据处理
摘要: 1. 说明 DataFrame是Pandas库中处理表的数据结构,可看作是python中的类似数据库的操作,是Python数据挖掘中最常用的工具。下面介绍DataFrame的一些常用方法。 2. 遍历 1) 代码 import pandas as...
阅读全文
posted @ 2017-12-18 17:01 xieyan0811
阅读(118)
评论(0)
推荐(0)
2017年12月15日
实战微博互动预测之三_xgboost答疑解惑
摘要: 1. 说明 前两篇完成了特征工程的相关工作:加入用户的统计特征,分析文本信息内容,并作为新特征加入了数据集。 本篇我们来看看算法,实战微博互动预测(后简称本例)的评估算法如下: 公式中f代表转发,c代表评论,l代表赞,p代表预测,r代表真实值;de...
阅读全文
posted @ 2017-12-15 17:37 xieyan0811
阅读(163)
评论(0)
推荐(0)
上一页
1
···
14
15
16
17
18
19
20
21
22
···
39
下一页
公告