随笔分类 - data
摘要:TPC-H is a Decision Support Benchmark http://www.dba-oracle.com/t_tpc_benchmarks.htm
阅读全文
摘要:SELECT SUM(pv) as pv_t FROM 行 112247817表类型 InnoDB自动递增值 1082428327行格式 Compact索引长度 8.60 GB (9,235,939,328)数据长度 13.57 GB (14,573,125,632) 数据可用空间 4.00 MB
阅读全文
摘要:没有达到目标,原因不是时间投入不够,而是不用数据决策,不用数据调度定时脚本 【数据源情况统计】 ># 近30天,日生效coin数目SELECT COUNT(DISTINCT coin) AS c,FROM_UNIXTIME(create_time,'%Y-%m-%d ') AS d FROM tes
阅读全文
摘要:不能粗放式产生数据和更新数据 必须有计划地且按时按量地产生和更新数据 控制数据的产生(更新,“更新”即“产生”了数据),才能从之后动态数据转化成的静态数据中进行数据挖掘,导向决策 data decision
阅读全文
摘要:1g表 每行都有可能被更新,故全表备份 检测备份是否在进行 [root@hadoop1 ~]# netstat --numeric-ports | grep 3306tcp 0 0 hadoop1:37692 121.110.203.226:3306 ESTABLISHED您在 /var/spool
阅读全文
摘要:SELECT COUNT(1),FROM_UNIXTIME(update_time,'%Y%m%d %H') AS h, FROM_UNIXTIME(create_time,'%Y%m%d') AS d FROM test_url GROUP BY h,d ORDER BY h DESC ;
阅读全文
摘要:精细化处理 控制你的数据,你才能得到有效且高效的数据结果
阅读全文
摘要:# Licensed to the Software Freedom Conservancy (SFC) under one# or more contributor license agreements. See the NOTICE file# distributed with this work for additional information# regarding copyr...
阅读全文
摘要:分布式多爬虫系统——架构设计 - CSDN博客 http://blog.csdn.net/bone_ace/article/details/55000416 基于Hadoop 的分布式网络爬虫技术学习笔记 - CSDN博客 http://blog.csdn.net/zolalad/article/d
阅读全文
摘要:http://arrow.apache.org/blog/
阅读全文
摘要:Serialization and deserialization are bottlenecks in parallel and distributed computing, especially in machine learning applications with large object
阅读全文
摘要:如果您是网站管理员点击这里查看详情 client: 211.161.60.12, server: d171d61, time: 2017-11-29 15:17:22 [80001]
阅读全文
摘要:https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
阅读全文
摘要:https://clickhouse.yandex/docs/en/introduction/what_is_clickhouse.html
阅读全文
摘要:https://github.com/google/protobuf/
阅读全文
摘要:975.45 MB (1,022,836,736)
阅读全文