随笔分类 -  data

上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 15 下一页
摘要:TPC-H is a Decision Support Benchmark http://www.dba-oracle.com/t_tpc_benchmarks.htm 阅读全文
posted @ 2017-12-26 22:24 papering 阅读(156) 评论(0) 推荐(0)
摘要:SELECT SUM(pv) as pv_t FROM 行 112247817表类型 InnoDB自动递增值 1082428327行格式 Compact索引长度 8.60 GB (9,235,939,328)数据长度 13.57 GB (14,573,125,632) 数据可用空间 4.00 MB 阅读全文
posted @ 2017-12-26 12:27 papering 阅读(240) 评论(0) 推荐(0)
摘要:没有达到目标,原因不是时间投入不够,而是不用数据决策,不用数据调度定时脚本 【数据源情况统计】 ># 近30天,日生效coin数目SELECT COUNT(DISTINCT coin) AS c,FROM_UNIXTIME(create_time,'%Y-%m-%d ') AS d FROM tes 阅读全文
posted @ 2017-12-25 11:54 papering 阅读(223) 评论(0) 推荐(0)
摘要:不能粗放式产生数据和更新数据 必须有计划地且按时按量地产生和更新数据 控制数据的产生(更新,“更新”即“产生”了数据),才能从之后动态数据转化成的静态数据中进行数据挖掘,导向决策 data decision 阅读全文
posted @ 2017-12-22 20:56 papering 阅读(158) 评论(0) 推荐(0)
摘要:1g表 每行都有可能被更新,故全表备份 检测备份是否在进行 [root@hadoop1 ~]# netstat --numeric-ports | grep 3306tcp 0 0 hadoop1:37692 121.110.203.226:3306 ESTABLISHED您在 /var/spool 阅读全文
posted @ 2017-12-22 16:30 papering 阅读(412) 评论(0) 推荐(0)
摘要:SELECT COUNT(1),FROM_UNIXTIME(update_time,'%Y%m%d %H') AS h, FROM_UNIXTIME(create_time,'%Y%m%d') AS d FROM test_url GROUP BY h,d ORDER BY h DESC ; 阅读全文
posted @ 2017-12-22 15:05 papering 阅读(360) 评论(0) 推荐(0)
摘要:去解决问题 干 阅读全文
posted @ 2017-12-22 12:48 papering 阅读(300) 评论(0) 推荐(0)
摘要:面向数据 阅读全文
posted @ 2017-12-22 10:50 papering 阅读(139) 评论(0) 推荐(0)
摘要:精细化处理 控制你的数据,你才能得到有效且高效的数据结果 阅读全文
posted @ 2017-12-21 10:19 papering 阅读(171) 评论(0) 推荐(0)
摘要:# Licensed to the Software Freedom Conservancy (SFC) under one# or more contributor license agreements. See the NOTICE file# distributed with this work for additional information# regarding copyr... 阅读全文
posted @ 2017-12-20 15:28 papering 阅读(574) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2017-12-18 14:59 papering 阅读(248) 评论(0) 推荐(0)
摘要:分布式多爬虫系统——架构设计 - CSDN博客 http://blog.csdn.net/bone_ace/article/details/55000416 基于Hadoop 的分布式网络爬虫技术学习笔记 - CSDN博客 http://blog.csdn.net/zolalad/article/d 阅读全文
posted @ 2017-12-07 12:37 papering 阅读(145) 评论(0) 推荐(0)
摘要:2018年5月中华人民共和国县以上行政区划代码 阅读全文
posted @ 2017-12-06 17:37 papering 阅读(747) 评论(0) 推荐(0)
摘要:http://arrow.apache.org/blog/ 阅读全文
posted @ 2017-11-30 12:37 papering 阅读(292) 评论(0) 推荐(0)
摘要:Serialization and deserialization are bottlenecks in parallel and distributed computing, especially in machine learning applications with large object 阅读全文
posted @ 2017-11-30 12:03 papering 阅读(170) 评论(0) 推荐(0)
摘要:如果您是网站管理员点击这里查看详情 client: 211.161.60.12, server: d171d61, time: 2017-11-29 15:17:22 [80001] 阅读全文
posted @ 2017-11-29 15:21 papering 阅读(564) 评论(0) 推荐(0)
摘要:https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2 阅读全文
posted @ 2017-11-29 14:06 papering 阅读(2722) 评论(0) 推荐(0)
摘要:https://clickhouse.yandex/docs/en/introduction/what_is_clickhouse.html 阅读全文
posted @ 2017-11-22 23:02 papering 阅读(153) 评论(0) 推荐(0)
摘要:https://github.com/google/protobuf/ 阅读全文
posted @ 2017-11-20 13:46 papering 阅读(357) 评论(0) 推荐(0)
摘要:975.45 MB (1,022,836,736) 阅读全文
posted @ 2017-11-17 21:35 papering 阅读(193) 评论(0) 推荐(0)

上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 15 下一页