boye169 - 博客园

2021年5月26日

摘要：安装 pip install schedule [example】 import schedule import time def job(name='job'): print("I'm working...") schedule.every(10).minutes.do(job,'job1') # 阅读全文

posted @ 2021-05-26 22:13 boye169 阅读(324) 评论(0) 推荐(0)

python 协程爬虫

摘要：协程协程：是单线程下的并发，又称微线程，纤程。英文名Coroutine。一句话说明什么是协程：协程是一种用户态的轻量级线程，即协程是由用户程序自己控制调度的。协程爬虫 import asyncio import requests import time asyncio def run(url): 阅读全文

posted @ 2021-05-26 22:02 boye169 阅读(150) 评论(0) 推荐(0)

2021年4月29日

python-yield实现协程效果

摘要：使用yield实现协程效果 1 #!/usr/bin/env python 2 # -*-coding:utf-8 -*- 3 4 import time 5 def consumer(name): 6 print(name) 7 while True: 8 bone = yield #接收send 阅读全文

posted @ 2021-04-29 00:09 boye169 阅读(78) 评论(0) 推荐(0)

2021年4月28日

pyspark reduceByKey、groupByKey、groupBy、keyBy、subtractByKey 使用

摘要： reduceByKey、groupByKey rdd=sc. parallelize([("one",1),("two",1),("one",1),("one1",1)]) rdd. reduceByKey(lambda x,y:x). count() rdd1=sc. parallelize([( 阅读全文

posted @ 2021-04-28 23:44 boye169 阅读(1084) 评论(0) 推荐(0)

2021年4月19日

pandas 读写文件

摘要：导入数据 1 pd.read_csv(filename,header=None,names=['a','b','c','d'],nrows=10) #从CSV文件导入数据 2 pd.read_table(filename,sep='\s+',nrows=1) #正则表达式分割符 3 pd.read_ 阅读全文

posted @ 2021-04-19 22:08 boye169 阅读(107) 评论(0) 推荐(0)

linux下配置java环境变量

摘要：下载 https://www.oracle.com/java/technologies/downloads/ 方式一：设置全局环境变量 su - root #切换root用户 vi /etc/profile 在最后面加入 export JAVA_HOME=/usr/java/jdk1.7.0_45 阅读全文

posted @ 2021-04-19 22:00 boye169 阅读(522) 评论(0) 推荐(0)

Spark SQL

摘要： 1 from pyspark.sql import HiveContext 2 from pyspark import SparkContext,SparkConf 3 import pyspark.sql.functions as F 4 from pyspark.sql import Spark 阅读全文

posted @ 2021-04-19 21:52 boye169 阅读(83) 评论(0) 推荐(0)

2021年3月17日

linux下curl命令使用

摘要： curl是一个利用url规则在命令行下工作的文件传输工具，可以说是一款很强大的http命令行工具。它支持文件的上传和下载 Usage: curl [options...] <url> -A/--user-agent <string> 设置用户代理发送给服务器 -b/--cookie <name=st 阅读全文

posted @ 2021-03-17 22:58 boye169 阅读(217) 评论(0) 推荐(0)

2021年3月15日

pyspark SQL

摘要： 1 from pyspark.sql import HiveContext 2 from pyspark import SparkContext,SparkConf 3 import pyspark.sql.functions as F 4 from pyspark.sql import Spark 阅读全文

posted @ 2021-03-15 23:50 boye169 阅读(230) 评论(0) 推荐(0)

pyspark 左连接右连接

摘要： pathA = [('a',1),('b',1),('c',2),('d',3)] pathB = [('c',1),('d',3),('e',3),('f',4),] a = sc.parallelize(pathA) b = sc.parallelize(pathB) a.join(b).col 阅读全文

posted @ 2021-03-15 23:45 boye169 阅读(400) 评论(0) 推荐(0)

公告