05 2020 档案

摘要:Spark对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset),简称RDD。RDD其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这背后,Spark会自动将RDD中的数据分发到集群 阅读全文
posted @ 2020-05-30 20:55 夏日的向日葵 阅读(298) 评论(0) 推荐(0)
摘要:Spark是一个用来实现快速而通用的集群计算的平台。Spark的一个主要特点就是能够在内存中进行计算,因而更快。不过即使必须在磁盘上进行复杂的计算,Spark依然比MapReduce更加高效。Spark的核心是一个由很多计算任务组成的、运行在很多工作机器或者是一个计算集群上的应用进行调度、分发以及监 阅读全文
posted @ 2020-05-30 12:29 夏日的向日葵 阅读(161) 评论(0) 推荐(0)
摘要:Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。Elasticsearch用于云计算中, 阅读全文
posted @ 2020-05-26 22:50 夏日的向日葵 阅读(283) 评论(0) 推荐(0)
摘要:运行程序时,单线程或单进程往往是比较慢的,为加快程序运行速度,我们可以使用多进程,可以理解为多任务同时运行,小编的电脑是四核,所以可以设置四个进程。 下面,我们来了解下多进程的使用: 1、使用multiprocessing模块创建进程 multiprocessing模块提供了一个Process类来代 阅读全文
posted @ 2020-05-24 12:29 夏日的向日葵 阅读(1437) 评论(0) 推荐(0)
摘要:我们在备案网站上查询域名的时候,查询的域名会被自动截取,这样返回的信息就不是host对应的信息,而是二级域名对应的信息,为了应对这种情况,我们就需要截取域名: #导入模块 from tld import get_fld from tld import get_tld #只取到二级域名 print(g 阅读全文
posted @ 2020-05-23 21:55 夏日的向日葵 阅读(873) 评论(0) 推荐(0)
摘要:BeautifulSoup是一个用于从HTML和XML文件中提取数据的python库,它提供一些简单的函数来处理导航、搜索、修改分析树等功能。BeautifulSoup能自动将文档转换成Unicode编码,输出文档转换为UTF-8编码。 本例直接创建模拟HTML代码,进行美化: # 导入Beauti 阅读全文
posted @ 2020-05-21 22:00 夏日的向日葵 阅读(1219) 评论(0) 推荐(0)
摘要:1、请求headers处理 我们有时请求服务器时,无论get或post请求,会出现403错误,这是因为服务器拒绝了你的访问,这时我们可以通过模拟浏览器的头部信息进行访问,这样就可以解决反爬设置的问题。 import requests # 创建需要爬取网页的地址 url = 'https://www. 阅读全文
posted @ 2020-05-20 23:36 夏日的向日葵 阅读(1193) 评论(0) 推荐(0)
摘要:1、通过urllib.requests模块实现发送请求并读取网页内容的简单示例如下: #导入模块 import urllib.request #打开需要爬取的网页 response = urllib.request.urlopen('http://www.baidu.com') #读取网页代码 ht 阅读全文
posted @ 2020-05-19 23:36 夏日的向日葵 阅读(4749) 评论(0) 推荐(0)
摘要:nohup的使用: 1.后台运行脚本,输出默认重定向到当前目录下nohup.out文件 nohup sh test.sh & 2、后台运行脚本,并将标准输出和标准错误输出到test.log文件 nohup sh test.sh >>test.log 2>&1 & 或 nohup sh test.sh 阅读全文
posted @ 2020-05-18 22:17 夏日的向日葵 阅读(929) 评论(0) 推荐(0)
摘要:使用re模块,定义一个验证危险字符的模式字符串,验证两段文字,并输出验证结果: import re pattern = r'(黑客)|(抓包)|(监听)|(Trojan)' about = '我是一名程序员,我喜欢看黑客方面的图书,想研究一下Trojan' match =re.search(patt 阅读全文
posted @ 2020-05-18 22:01 夏日的向日葵 阅读(416) 评论(0) 推荐(0)
摘要:使用re模块,输入两个手机号码,进行验证: import re pattern = r'(13[4-9]\d{8})$|(15[01289]\d{8})$' mobile = '13634222222' match =re.match(pattern,mobile) if match == None 阅读全文
posted @ 2020-05-18 21:46 夏日的向日葵 阅读(1066) 评论(0) 推荐(0)
摘要:需求:根据country列的不同值,将内容分到不同sheet 方法一: 读取原Excel,根据country列将不同的内容放到不同的sheet,并根据国家名称命名,将结果放到新的输出文件中。 #!/usr/bin/env python3 #读取Excel文件 import pandas as pd 阅读全文
posted @ 2020-05-18 20:02 夏日的向日葵 阅读(5280) 评论(0) 推荐(1)
摘要:ps--查看进程,显示进程号pid、运行在哪个终端、进程已用的CPU时间 ps -A--显示所有进程 ps -N--显示与指定参数不符的所有进程 ps -a--显示除控制进程和无终端进程外的所有进程 ps -d--显示除控制进程外的所有进程 ps -e--显示所有进程 ps -C cmdlist-- 阅读全文
posted @ 2020-05-17 19:39 夏日的向日葵 阅读(220) 评论(0) 推荐(0)
摘要:单点符(.)表示当前目录 双点符(..)表示当前目录的父目录 ls--显示当前目录下的文件和目录 ls -F--带-F参数的ls命令轻松区分文件和目录,目录后面加了正斜线(/) ls -a--把隐藏文件和普通文件及目录一起显示出来,这时,所有以点开头的文件都会显示出来 ls -F -R(或ls -F 阅读全文
posted @ 2020-05-16 23:34 夏日的向日葵 阅读(269) 评论(0) 推荐(0)
摘要:将一个列表数据写入output.xlsx的a,b,c……等sheet中 import pandas as pd df1 = pd.DataFrame({'a':[3,1],'b':[4,3]}) df2 = df1.copy() with pd.ExcelWriter('F:\\python入门\\ 阅读全文
posted @ 2020-05-13 22:50 夏日的向日葵 阅读(12153) 评论(1) 推荐(1)
摘要:使用wordcloud模块,生成云图,测试文本为: Betty Botter bought some butter but she said the butter's bitter. If I put it in my batter it will make my batter bitter. So 阅读全文
posted @ 2020-05-10 22:53 夏日的向日葵 阅读(1198) 评论(0) 推荐(0)
摘要:分词,即将连续的字序列按照一定的规范重新组合成词序列的过程,它是一种自然语言处理技术,这里的分词指中文分词,其本质是提取一个字符串中的词组或者字。 其详细代码非常简单,如下: #导入jieba分词模块import jieba#记录输入的文件路径filepath = input('请输入要读取的文件: 阅读全文
posted @ 2020-05-08 23:11 夏日的向日葵 阅读(3760) 评论(0) 推荐(0)
摘要:在平时的工作中,我们经常会遇到需要批量创建文件的情况,例如,汇总一个月中每天回复问题的文件等,这里,我们以如何使用当前日期时间创建文件为例: import os import datetime import time while True: #记录文件的保存地址 path = input('请输入文 阅读全文
posted @ 2020-05-06 22:29 夏日的向日葵 阅读(1006) 评论(0) 推荐(0)
摘要:一些带有过度宣传的词,在淘宝、京东对商品的宣传有一定的限制,这些最佳,最大、盗版、水货等词语都不能用于产品的宣传,可以使用程序检测敏感词,以下既是具体代码。 #检索敏感词并描红输出 #输入 word = input("请输入或拷贝含有敏感词的宣传文字:") #敏感词库 sensitive = ['第 阅读全文
posted @ 2020-05-04 23:28 夏日的向日葵 阅读(962) 评论(0) 推荐(0)
摘要:本样例旨在解决base64编码的解码,提供了四种场景,希望可以帮到大家~ # -*- coding:utf-8 -*- #将base64编码/解码包 import base64 #导入url解码包 from urllib import parse #普通中文 s = "你好" #带竖线的中文 str 阅读全文
posted @ 2020-05-04 22:00 夏日的向日葵 阅读(5478) 评论(0) 推荐(0)
摘要:json数据: [{"authenticate":-99,"last_ip":"156.2.98.429","last_time":"2020/05/23 01:41:36","member_id":5067002,"mg_id":1,"name":"yuanfang","status":0,"us 阅读全文
posted @ 2020-05-04 16:07 夏日的向日葵 阅读(7706) 评论(0) 推荐(0)
摘要:本例开发一个菜谱点菜功能,可以输入菜名前的数字编号点菜。 import re option_str = input("请输入数字或方向键:") #re.sub(pattern,repl,string,count=0,flags=0)找到string中可以匹配pattern的部分, #然后将这些部分替 阅读全文
posted @ 2020-05-03 11:38 夏日的向日葵 阅读(1868) 评论(0) 推荐(0)
摘要:在一些公共场所经常可以看到一些动态提示的文字,以下代码即为文字的循环变化代码: import sys import time def print_act(word): print('新春佳节快乐'+'\r') #让光标回到行首 sys.stdout.write("\r") #缓冲区的数据全部输出 s 阅读全文
posted @ 2020-05-03 11:34 夏日的向日葵 阅读(1826) 评论(0) 推荐(0)
摘要:1、中国工商银行日间客流高峰提示牌的实现 import math #时间段 time = ['08:00','09:00','10:00','11:00','12:00','13:00','14:00','15:00','16:00'] #时间段客流人数 person = ['572','1236' 阅读全文
posted @ 2020-05-02 20:54 夏日的向日葵 阅读(423) 评论(0) 推荐(0)
摘要:1、方法一,调用字符映射表输入特殊符号 在键盘上按win+R,在打开的对话框中输入“charmap”,会出现字符映射表: 2、利用字符编码输入特殊符号 #打印Σ print(chr(931)) #打印← print(chr(8592)) #打印→ print(chr(8594)) #打印↑ prin 阅读全文
posted @ 2020-05-02 19:57 夏日的向日葵 阅读(9529) 评论(0) 推荐(0)