会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
hanease
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
51
52
53
54
55
56
57
58
59
···
115
下一页
2022年3月20日
Logstash介绍
摘要: Logstash是一个开源数据收集引擎,具有实时管道功能。Logstash可以动态地将来自不同数据源的数据统一起来,并将数据标准化到你所选择的目的地。 集中、转换和存储你的数据 Logstash是一个开源的服务器端数据处理管道,可以同时从多个数据源获取数据,并对其进行转换,然后将其发送到你最喜欢的“
阅读全文
posted @ 2022-03-20 14:39 hanease
阅读(829)
评论(0)
推荐(0)
2022年3月19日
w3cschool-Hive 教程
摘要: https://www.w3cschool.cn/hive_manual/ 一、简述 HiveQL是一种声明式语言,用户提交查询,而Hive会将其转换成MapReduce job,如下图。一般来说大部分时间可以无视这个执行过程的内部逻辑,但是如果能了解这些底层实现细节,在调优的时候就会更得心应手。
阅读全文
posted @ 2022-03-19 14:51 hanease
阅读(297)
评论(0)
推荐(0)
2022年3月18日
w3cschool-Apache Pig 教程
摘要: https://www.w3cschool.cn/apache_pig/ 什么是Apache Pig? Apache Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与 Hadoop 一起使用;我们可以使用Apache Pig在Hado
阅读全文
posted @ 2022-03-18 21:42 hanease
阅读(180)
评论(0)
推荐(0)
R语言学习数据挖掘
摘要: 1.用R计算数据基本统计量(均值) 学习机器学习和数据挖掘中的各种算法和模型,需要掌握统计学的基本概念。统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,并预测对象未来走势的一门综合性科学。 简单说,统计学是根据样本估计总体的科学。它的一些思想和大数据思想有些相悖,不关注数据的大小,
阅读全文
posted @ 2022-03-18 21:37 hanease
阅读(1111)
评论(0)
推荐(0)
Storm学习笔记
摘要: Storm结构概述 主流的三大分布式计算系统:Hadoop,Spark和Storm 由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。 Yahoo的工程师Doug Cutting和Mike Cafa
阅读全文
posted @ 2022-03-18 21:08 hanease
阅读(159)
评论(0)
推荐(0)
2022年3月17日
Python使用技巧2
摘要: python url网址拼接 在做爬虫中,经常会遇到需要把一个域名和网址路径进行拼接,在开发时一时没想到方法,特此记录下来。 利用parse.urljoin方法进行网址拼接 from urllib import parse print(parse.urljoin("http://www.chenxm
阅读全文
posted @ 2022-03-17 09:17 hanease
阅读(195)
评论(0)
推荐(0)
python面试题
摘要: 熟练使用Python常用框架Django/Tornado/Flask,熟悉Restful API; 了解分布式和微服务设计理念,熟练掌握常用的分布式开发框架,了解Kafka, Zookeeper,Redis等开源中间件。 需具备独立数据库设计并且调优的能力; 有良好的编码习惯,对代码和设计质量有严格
阅读全文
posted @ 2022-03-17 09:07 hanease
阅读(43)
评论(0)
推荐(0)
Python使用技巧
摘要: Python:正则匹配网址中的数字 第一种利用re.match url="https://baike.baidu.com/item/%E6%9D%8E%E7%99%BD/1043?fr=kg_hanyu" baike_id=re.match("https://baike.baidu.com/item
阅读全文
posted @ 2022-03-17 09:07 hanease
阅读(191)
评论(0)
推荐(0)
crontab 定时任务详细讲解
摘要: crontab crontab的服务进程名为crond,英文意为周期任务。crontab在Linux主要用于周期定时任务管理。通常安装操作系统后,默认已启动crond服务。crontab可理解为cron_table,表示cron的任务列表。类似crontab的工具还有at和anacrontab,但具
阅读全文
posted @ 2022-03-17 08:55 hanease
阅读(7318)
评论(0)
推荐(0)
2022年3月16日
python实现excel数据处理
摘要: python xlrd读取excel(表格)详解 安装: pip install xlrd 官网地址: https://xlrd.readthedocs.io/ 介绍: 为开发人员提供一个库,用于从Microsoft Excel(tm)电子表格文件中提取数据。 快速使用xlrd import xlr
阅读全文
posted @ 2022-03-16 20:28 hanease
阅读(10194)
评论(0)
推荐(1)
上一页
1
···
51
52
53
54
55
56
57
58
59
···
115
下一页
公告