上一页 1 ··· 47 48 49 50 51 52 53 54 55 ··· 111 下一页
摘要: 1. 关于Filebeat 当你要面对成百上千、甚至成千上万的服务器、虚拟机和容器生成的日志时,请告别 SSH 吧!Filebeat 将为你提供一种轻量型方法,用于转发和汇总日志与文件,让简单的事情不再繁杂。 关于Filebeat,记住两点: 轻量级日志采集器 输送至 Elasticsearch 或 阅读全文
posted @ 2022-03-20 14:53 hanease 阅读(10956) 评论(0) 推荐(1)
摘要: Logstash是一个开源数据收集引擎,具有实时管道功能。Logstash可以动态地将来自不同数据源的数据统一起来,并将数据标准化到你所选择的目的地。 集中、转换和存储你的数据 Logstash是一个开源的服务器端数据处理管道,可以同时从多个数据源获取数据,并对其进行转换,然后将其发送到你最喜欢的“ 阅读全文
posted @ 2022-03-20 14:39 hanease 阅读(819) 评论(0) 推荐(0)
摘要: https://www.w3cschool.cn/hive_manual/ 一、简述 HiveQL是一种声明式语言,用户提交查询,而Hive会将其转换成MapReduce job,如下图。一般来说大部分时间可以无视这个执行过程的内部逻辑,但是如果能了解这些底层实现细节,在调优的时候就会更得心应手。 阅读全文
posted @ 2022-03-19 14:51 hanease 阅读(278) 评论(0) 推荐(0)
摘要: https://www.w3cschool.cn/apache_pig/ 什么是Apache Pig? Apache Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与 Hadoop 一起使用;我们可以使用Apache Pig在Hado 阅读全文
posted @ 2022-03-18 21:42 hanease 阅读(159) 评论(0) 推荐(0)
摘要: 1.用R计算数据基本统计量(均值) 学习机器学习和数据挖掘中的各种算法和模型,需要掌握统计学的基本概念。统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,并预测对象未来走势的一门综合性科学。 简单说,统计学是根据样本估计总体的科学。它的一些思想和大数据思想有些相悖,不关注数据的大小, 阅读全文
posted @ 2022-03-18 21:37 hanease 阅读(1048) 评论(0) 推荐(0)
摘要: Storm结构概述 主流的三大分布式计算系统:Hadoop,Spark和Storm 由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。 Yahoo的工程师Doug Cutting和Mike Cafa 阅读全文
posted @ 2022-03-18 21:08 hanease 阅读(147) 评论(0) 推荐(0)
摘要: python url网址拼接 在做爬虫中,经常会遇到需要把一个域名和网址路径进行拼接,在开发时一时没想到方法,特此记录下来。 利用parse.urljoin方法进行网址拼接 from urllib import parse print(parse.urljoin("http://www.chenxm 阅读全文
posted @ 2022-03-17 09:17 hanease 阅读(185) 评论(0) 推荐(0)
摘要: 熟练使用Python常用框架Django/Tornado/Flask,熟悉Restful API; 了解分布式和微服务设计理念,熟练掌握常用的分布式开发框架,了解Kafka, Zookeeper,Redis等开源中间件。 需具备独立数据库设计并且调优的能力; 有良好的编码习惯,对代码和设计质量有严格 阅读全文
posted @ 2022-03-17 09:07 hanease 阅读(41) 评论(0) 推荐(0)
摘要: Python:正则匹配网址中的数字 第一种利用re.match url="https://baike.baidu.com/item/%E6%9D%8E%E7%99%BD/1043?fr=kg_hanyu" baike_id=re.match("https://baike.baidu.com/item 阅读全文
posted @ 2022-03-17 09:07 hanease 阅读(175) 评论(0) 推荐(0)
摘要: crontab crontab的服务进程名为crond,英文意为周期任务。crontab在Linux主要用于周期定时任务管理。通常安装操作系统后,默认已启动crond服务。crontab可理解为cron_table,表示cron的任务列表。类似crontab的工具还有at和anacrontab,但具 阅读全文
posted @ 2022-03-17 08:55 hanease 阅读(7227) 评论(0) 推荐(0)
上一页 1 ··· 47 48 49 50 51 52 53 54 55 ··· 111 下一页