会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
自由的射手
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
2020年6月3日
DataFrame
摘要: DataFrame is a Dataset 运行方式 RDD java/scala ==> jvm python ==> python runtime DataFrame java/scala/python ==> Logic Plan DataFrame常用API操作
阅读全文
posted @ 2020-06-03 17:33 自由的射手
阅读(92)
评论(0)
推荐(0)
2020年5月28日
SQLserver导入Excel数据长度限制报错
摘要: 先介绍一下写该博客的背景:由于最近在使用腾讯问卷统计健康信息,导出的Excel表中,备注字段填报的数据过长,最长达到346,而在执行Excel导入表操作时,会出现数据被截断错误,导致数据导入失败。 百度搜索原因:发现大多数给出的原因是在导入数据过程中,生成的临时表会根据Excel的前8行或者前3行确
阅读全文
posted @ 2020-05-28 15:15 自由的射手
阅读(1554)
评论(0)
推荐(0)
2020年5月18日
Spark
摘要: 数据处理框架 基于内存、线程 特点:快速、易用、通用、运行在很多地方 产生背景: mapreduce的局限性: 1)代码繁琐 2)只能够支持map和reduce方法 3)执行效率低下 4)不适合迭代多次、交互式、流式的处理 框架的多样化: 1)批处理(离线处理):mapreduce、hive、pig
阅读全文
posted @ 2020-05-18 16:14 自由的射手
阅读(141)
评论(0)
推荐(0)
Hive
摘要: Hive产生背景: mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的,最初用于海量结构化的日志数据统计问题 构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同) 通常用于离线数据处理(采用mapred
阅读全文
posted @ 2020-05-18 15:05 自由的射手
阅读(112)
评论(0)
推荐(0)
2020年5月13日
MapReduce+yarn
摘要: 分布式计算框架MapReduce(离线批处理) 特点: 易于编程 良好的扩展性 高容错性 海量数据的离线处理 不擅长场景 实时计算、流式计算、DAG计算 YARN架构 1 RM(ResourceManager) + N NM(NodeManager) ResourceManager的职责:一个集群a
阅读全文
posted @ 2020-05-13 16:56 自由的射手
阅读(145)
评论(0)
推荐(0)
Hadoop-HDFS
摘要: 课程软件存放目录 hadoop/hadoop /home/hadoop software:存放安装的软件包 app:存放的是所有软件的安装目录 data:存放的是课程中所有使用的测试数据目录 source:存放的是软件源码目录,spark Hadoop环境搭建1)下载Hadoop http://ar
阅读全文
posted @ 2020-05-13 14:47 自由的射手
阅读(138)
评论(0)
推荐(0)
2020年4月16日
输入页码实现翻页跳转
摘要: try: self.browser.get(request.url) if page > 1: print(page) # input = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '# J_bottomPage
阅读全文
posted @ 2020-04-16 16:06 自由的射手
阅读(1293)
评论(0)
推荐(0)
爬虫模拟点击下一页selenium
摘要: 爬虫实现翻页功能from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_condition
阅读全文
posted @ 2020-04-16 16:04 自由的射手
阅读(5502)
评论(0)
推荐(0)
Scrapy 爬取豆瓣登录二维码
摘要: 近日正在学习python Scrapy,以豆瓣网页为目标,本篇随笔主要记录爬取豆瓣登录二维码(抓取及保存)在爬取中,需要设置等待页面加载的时间,否则会出现无法定位到网页元素的问题,因为这个问题,我弄了一上午。。。#coding = utf-8# -*- coding:utf-8 -*-from se
阅读全文
posted @ 2020-04-16 15:12 自由的射手
阅读(534)
评论(0)
推荐(0)
上一页
1
2
公告