2019年9月4日
摘要: import time from multiprocessing import Process, JoinableQueue, cpu_count import csv ####处理一条数据的方法 def deal_line(line, writer, csv_file): writer.writerow((line[3], line[1])) csv_file.flush()#重点,在多进程中写 阅读全文
posted @ 2019-09-04 18:10 hailuo 阅读(6565) 评论(0) 推荐(0) 编辑
  2019年8月30日
摘要: from twisted.enterprise import adbapi from twisted.internet import reactor def creat_conn(): # 数据库基本配置 db_settings = dict(db='testdb', host='localhost', port = 3306,user = 'root',passwd = 'pwd', chars 阅读全文
posted @ 2019-08-30 11:14 hailuo 阅读(558) 评论(0) 推荐(0) 编辑
  2019年8月2日
摘要: # Splash服务器地址 SPLASH_URL = 'http://localhost:8050' # 开启Splash的两个下载中间件并调整HttpCompressionMiddleware的次序 DOWNLOADER_MIDDLEWARES = { 'scrapy_splash.SplashC 阅读全文
posted @ 2019-08-02 11:32 hailuo 阅读(794) 评论(0) 推荐(0) 编辑
摘要: def jsonfy(s:str)->object: obj = eval(s, type('js', (dict,), dict(__getitem__=lambda s, n: n))()) return obj 阅读全文
posted @ 2019-08-02 09:50 hailuo 阅读(1956) 评论(0) 推荐(0) 编辑
  2019年7月29日
摘要: 1.导出文件路径 FEED_URI = 'export_data/%(name)s.data' 2.导出数据格式 FEED_FORMAT = 'csv' 3.导出文件编码 FEED_EXPORT_ENCODING = 'gbk' 4.导出数据包含的字段(默认情况下导出所有字段),并指定次序 FEED 阅读全文
posted @ 2019-07-29 15:58 hailuo 阅读(426) 评论(0) 推荐(0) 编辑
  2019年7月22日
摘要: #redis入库 阅读全文
posted @ 2019-07-22 09:52 hailuo 阅读(949) 评论(0) 推荐(0) 编辑
  2019年7月19日
摘要: 阅读全文
posted @ 2019-07-19 14:27 hailuo 阅读(160) 评论(0) 推荐(0) 编辑
  2019年7月18日
摘要: 每分钟执行 */1 * * * * 每小时执行 0 * * * * 每天执行 0 0 * * * 每周执行 0 0 * * 0 每月执行 0 0 1 * * 每年执行 0 0 1 1 * 阅读全文
posted @ 2019-07-18 12:04 hailuo 阅读(330) 评论(0) 推荐(0) 编辑
  2019年6月11日
摘要: from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config("spark.some.config.option", "some-value") \ .getOrCreate()... 阅读全文
posted @ 2019-06-11 10:20 hailuo 阅读(288) 评论(0) 推荐(0) 编辑
  2019年6月10日
摘要: python 求拒绝域和卡方值 关于p值意义: P>0.05 碰巧出现的可能性大于5% ,不能否定无效假设,两组差别无显著意义P<0.05 碰巧出现的可能性小于5% ,可以否定无效假设,两组差别有显著意义P<0.01 碰巧出现的可能性小于1% ,可以否定无效假设,两者差别有非常显著意义 来源:《深入 阅读全文
posted @ 2019-06-10 10:32 hailuo 阅读(8300) 评论(0) 推荐(1) 编辑