大数据技术 - 随笔分类(第2页) - 桌子哥

Leetcode Shell编程练习

摘要：Leetcode在shell编程部分只有4道题。第1题：第十行难度：简单题目：给定一个文本文件 file.txt，请只打印这个文件中的第十行。示例:假设 file.txt 有如下内容：Line 1Line 2Line 3Line 4Line 5Line 6Line 7Line 8Line 9 阅读全文

posted @ 2020-12-01 16:25 桌子哥阅读(275) 评论(0) 推荐(0)

牛客网Shell编程练习

摘要：最近因为工作原因开始接触Linux，需要做一些简单的Shell开发。在牛客网练习了一下，来记录自己的学习过程。第1题：统计文件的行数题目：写一个 bash脚本以输出一个文本文件 nowcoder.txt中的行数示例: 假设 nowcoder.txt 内容如下：复制代码 1 2 3 4 5 阅读全文

posted @ 2020-11-27 21:50 桌子哥阅读(608) 评论(0) 推荐(0)

一种Hive性能调优方法（补充）

摘要：之前学习整理过一些Hive调优的方法，最近在学习参考书的时候看到作者提供了一个Hive调优的解决方案，在这里分享下。案例所使用的数据来源于美国航班数据、机场数据和天气数据。用来查询要查找航班延误（时间超过15分钟）次数最多的5个机场，其出发机场的风速都超过1米/秒。第一个调优方向：执行引擎 Hi 阅读全文

posted @ 2020-11-24 21:47 桌子哥阅读(808) 评论(0) 推荐(0)

Hive的10种优化总结

摘要：Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。列裁剪和分区阅读全文

posted @ 2020-11-04 23:15 桌子哥阅读(5550) 评论(0) 推荐(0)

数据仓库、数据集市、数据湖、数据中台概念理解

摘要：什么是数据仓库？大家都去宜家买过东西吧，还记得一楼的大仓库不，你如果看中了某个家具，想要自己去仓库提货，一般都会记下商品上的编码：这个编码对于顾客来说，肯定是没有任何含义的，看到这个编码，不可能知道他是一个什么商品。但是这个编码，对于仓库管理员来说是有含义的，他们可以清楚的知道，是哪一个货架，阅读全文

posted @ 2020-09-17 22:19 桌子哥阅读(1641) 评论(0) 推荐(0)

Python中的数据库连接与查询——使用pymongo

摘要：pymongo是在Python环境下使用MongoDB的方法。以某电商网站搜索“连衣裙”的第一页商品数据抓取下来并存入MongoDB数据库。 import requests import pymongo client = pymongo.MongoClient('localhost',27017) 阅读全文

posted @ 2020-06-15 17:03 桌子哥阅读(965) 评论(0) 推荐(0)

Python中的数据库连接与查询——使用SQLAlchemy

摘要：SQLAlchemy是Python用来操作数据库的一个库，该库提供了SQL工具包及对象关系映射(ORM)工具。数据库的记录用Python的数据结构来表现，可以看做一个列表，每条记录是列表中的一个元组。 SQLAlchemy基本用法 1）导入SQLAlchemy，并初始化DBSession from 阅读全文

posted @ 2020-06-15 16:51 桌子哥阅读(1226) 评论(0) 推荐(0)

Python中的数据库连接与查询——使用PyMySQL

摘要：使用PyMySQL 连接数据库 pymysql.Connect() import pymysql db = pymysql.Connect( host="localhost", port=3306, user="root", password="12345", db="taobao", charse 阅读全文

posted @ 2020-06-15 15:30 桌子哥阅读(1766) 评论(0) 推荐(0)

Selenium爬虫

摘要：在用Python爬取动态页面时，普通的requests、urllib2无法实现，此时就需要Seleniums了。 Seleniums是一个用于Web应用程序测试的工具。Seleniums测试直接在浏览器中运行，就像真正的用户在操作一样。使用它爬取页面十分方便，只需要按照访问步骤模拟人的操作就可以了，阅读全文

posted @ 2020-06-15 10:59 桌子哥阅读(256) 评论(0) 推荐(0)

Scrapy爬虫

摘要：Scrapy是一个常用的爬虫框架，可以提升爬虫的效率，从而更好的实现爬虫。Scrapy是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含request（异步调度和处理）、下载器（多线程的Downloader）、解析器（selector）和twisted（异步处理）等。第一阅读全文

posted @ 2020-06-14 18:49 桌子哥阅读(316) 评论(0) 推荐(0)

Weka的基本概念和操作介绍

摘要：最近在学习Weka发现是一个很不错的数据挖掘工具，在这里介绍下。什么是数据挖掘？什么是Weka？数据挖掘是一门成熟的技术，Weka 是数据挖掘的工具包，是 Waikato Environment for Knowledge Analysis 的首字母缩略词，我们称作 Weka。 Explorin 阅读全文

posted @ 2020-06-13 09:20 桌子哥阅读(1560) 评论(0) 推荐(0)

Python爬虫学习：用API爬取天气预报数据

摘要：和风天气会提供一个API接口，方便其他的开发人员或者是学生，之前做手机APP的时候就使用过，现在回头看数据爬虫的东西，发现之前的接口已经不能用了，好可惜啊。虽然不能连接，但是展示下思路吧。 1.首先获取所有城市的ID 在https://dev.heweather.com/docs/refer/ci 阅读全文

posted @ 2020-05-27 20:24 桌子哥阅读(3845) 评论(0) 推荐(0)

Python爬虫学习：简单的爬虫

摘要：1.使用GET方式抓取数据，GET方法用于获取或者查询资源信息 #导入requests包 import requests #网址 url = 'http://www.cntour.cn/' #GET方式，获取网页数据 strhtml = requests.get(url) #strhtml是一个ur 阅读全文

posted @ 2020-05-25 23:54 桌子哥阅读(375) 评论(0) 推荐(0)

大数据可视化案例二：数据可视化地图

摘要：Echart： ECharts，一个纯 Javascript 的图表库，可以流畅的运行在 PC 和移动设备上，兼容当前绝大部分浏览器（IE8/9/10/11，Chrome，Firefox，Safari等），底层依赖轻量级的 Canvas 类库 ZRender，提供直观，生动，可交互，可高度个性化定制阅读全文

posted @ 2020-05-22 12:51 桌子哥阅读(3706) 评论(0) 推荐(0)

大数据可视化案例一：词云

摘要：词云： “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登（Rich Gordon）于近日提出。戈登做过编辑、记者，曾担任迈阿密先驱报（Miami Herald）新媒体版的主任。他一直很关注网络内容发布的最新形式——即那些只有互联网可以采用而报纸、广播、电视等其它媒体都望尘莫及的传阅读全文

posted @ 2020-05-21 20:00 桌子哥阅读(2571) 评论(0) 推荐(0)

大数据获取案例：Python网络爬虫实例

摘要：网络爬虫：网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。以上是网络爬虫的百度，下面开始介绍使用Python进行网络爬虫来获取数据。本次内容阅读全文

posted @ 2020-05-21 10:54 桌子哥阅读(7652) 评论(0) 推荐(0)

前台、中台与后台的概念

摘要：前台：这里所说的“前台”和“前端”并不是一回事。所谓前台即包括各种和用户直接交互的界面，比如web页面，手机app；也包括服务端各种实时响应用户请求的业务逻辑，比如商品查询、订单系统等等。后台：后台并不直接面向用户，而是面向运营人员的配置管理系统，比如商品管理、物流管理、结算管理。后台为前台提阅读全文

posted @ 2020-05-18 09:50 桌子哥阅读(24757) 评论(0) 推荐(3)

联邦学习：联邦学习基本概念

摘要：早在21世纪初期，在自动化领域就在面临一个问题就是“信息孤岛”，也就是在过程控制过程中，不同的控制环节采用了不同的自动控制系统并且采用和设计了自己专有的控制网络技术,这导致难以实现不同厂家控制设备的开放的系统集成,系统具有较强的封闭性和“信息孤岛”现象,系统内大量有用信息难以有效获取并实现开放共享。阅读全文

posted @ 2020-05-15 09:48 桌子哥阅读(6942) 评论(0) 推荐(1)

Python+Spark2.0+hadoop学习笔记——Spark ML Pipeline机器学习流程

摘要：情况一：二元分类这部分使用的数据集是判断网页是暂时的还是长青的。因为涉及到了文本的信息，所以需要进行文本的数字化和向量化。在这部分中，机器学习分为三个部分，第一部分是建立机器学习流程pipeline，第二部分是训练，第三部分是预测。在建立机器学习流程pipeline中包含4个阶段，如下所示：阅读全文

posted @ 2020-04-09 17:05 桌子哥阅读(999) 评论(0) 推荐(0)

Python+Spark2.0+hadoop学习笔记——RDD、DataFrame和Spark SQL数据库相关操作

摘要：在Spark中可以使用RDD API、DataFrame API和Spark API这三个接口来进行数据的相关操作。且这三者也互相有联系，RDD没有定义框架，DataFrame在创建时必须定义Schema，而Spark SQL是由DataFrame派生出来的，此外Spark API适用于只有SQL操阅读全文

posted @ 2020-04-07 17:36 桌子哥阅读(462) 评论(0) 推荐(0)

随笔分类 - 大数据技术