2020 年 5月随笔档案 - 夏日的向日葵

Spark之RDD编程

摘要：Spark对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset），简称RDD。RDD其实就是分布式的元素集合。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这背后，Spark会自动将RDD中的数据分发到集群阅读全文

posted @ 2020-05-30 20:55 夏日的向日葵阅读(298) 评论(0) 推荐(0)

初识spark

摘要：Spark是一个用来实现快速而通用的集群计算的平台。Spark的一个主要特点就是能够在内存中进行计算，因而更快。不过即使必须在磁盘上进行复杂的计算，Spark依然比MapReduce更加高效。Spark的核心是一个由很多计算任务组成的、运行在很多工作机器或者是一个计算集群上的应用进行调度、分发以及监阅读全文

posted @ 2020-05-30 12:29 夏日的向日葵阅读(161) 评论(0) 推荐(0)

ElasticSearch介绍

摘要：Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，阅读全文

posted @ 2020-05-26 22:50 夏日的向日葵阅读(283) 评论(0) 推荐(0)

python创建进程的常用方式

摘要：运行程序时，单线程或单进程往往是比较慢的，为加快程序运行速度，我们可以使用多进程，可以理解为多任务同时运行，小编的电脑是四核，所以可以设置四个进程。下面，我们来了解下多进程的使用： 1、使用multiprocessing模块创建进程 multiprocessing模块提供了一个Process类来代阅读全文

posted @ 2020-05-24 12:29 夏日的向日葵阅读(1437) 评论(0) 推荐(0)

python截取根域名

摘要：我们在备案网站上查询域名的时候，查询的域名会被自动截取，这样返回的信息就不是host对应的信息，而是二级域名对应的信息，为了应对这种情况，我们就需要截取域名： #导入模块 from tld import get_fld from tld import get_tld #只取到二级域名 print(g 阅读全文

posted @ 2020-05-23 21:55 夏日的向日葵阅读(873) 评论(0) 推荐(0)

python爬虫之BeautifulSoup的HTML解析

摘要：BeautifulSoup是一个用于从HTML和XML文件中提取数据的python库，它提供一些简单的函数来处理导航、搜索、修改分析树等功能。BeautifulSoup能自动将文档转换成Unicode编码，输出文档转换为UTF-8编码。本例直接创建模拟HTML代码，进行美化： # 导入Beauti 阅读全文

posted @ 2020-05-21 22:00 夏日的向日葵阅读(1219) 评论(0) 推荐(0)

python爬虫之headers处理、网络超时问题处理

摘要：1、请求headers处理我们有时请求服务器时，无论get或post请求，会出现403错误，这是因为服务器拒绝了你的访问，这时我们可以通过模拟浏览器的头部信息进行访问，这样就可以解决反爬设置的问题。 import requests # 创建需要爬取网页的地址 url = 'https://www. 阅读全文

posted @ 2020-05-20 23:36 夏日的向日葵阅读(1193) 评论(0) 推荐(0)

python爬虫之实现HTTP网络请求的三种方式：urllib、urllib3以及requests

摘要：1、通过urllib.requests模块实现发送请求并读取网页内容的简单示例如下： #导入模块 import urllib.request #打开需要爬取的网页 response = urllib.request.urlopen('http://www.baidu.com') #读取网页代码 ht 阅读全文

posted @ 2020-05-19 23:36 夏日的向日葵阅读(4749) 评论(0) 推荐(0)

Linux后台运行任务nohup和&

摘要：nohup的使用： 1.后台运行脚本，输出默认重定向到当前目录下nohup.out文件 nohup sh test.sh & 2、后台运行脚本，并将标准输出和标准错误输出到test.log文件 nohup sh test.sh >>test.log 2>&1 & 或 nohup sh test.sh 阅读全文

posted @ 2020-05-18 22:17 夏日的向日葵阅读(929) 评论(0) 推荐(0)

python验证是否出现危险字符

摘要：使用re模块，定义一个验证危险字符的模式字符串，验证两段文字，并输出验证结果： import re pattern = r'(黑客)|(抓包)|(监听)|(Trojan)' about = '我是一名程序员，我喜欢看黑客方面的图书，想研究一下Trojan' match =re.search(patt 阅读全文

posted @ 2020-05-18 22:01 夏日的向日葵阅读(416) 评论(0) 推荐(0)

python验证输入的手机是否为中国移动的号码

摘要：使用re模块，输入两个手机号码，进行验证： import re pattern = r'(13[4-9]\d{8})$|(15[01289]\d{8})$' mobile = '13634222222' match =re.match(pattern,mobile) if match == None 阅读全文

posted @ 2020-05-18 21:46 夏日的向日葵阅读(1066) 评论(0) 推荐(0)

python操作Excel，将汇总数据分到不同sheet

摘要：需求：根据country列的不同值，将内容分到不同sheet 方法一：读取原Excel，根据country列将不同的内容放到不同的sheet，并根据国家名称命名，将结果放到新的输出文件中。 #!/usr/bin/env python3 #读取Excel文件 import pandas as pd 阅读全文

posted @ 2020-05-18 20:02 夏日的向日葵阅读(5280) 评论(0) 推荐(1)

linux中更多的bash shell命令

摘要：ps--查看进程，显示进程号pid、运行在哪个终端、进程已用的CPU时间 ps -A--显示所有进程 ps -N--显示与指定参数不符的所有进程 ps -a--显示除控制进程和无终端进程外的所有进程 ps -d--显示除控制进程外的所有进程 ps -e--显示所有进程 ps -C cmdlist-- 阅读全文

posted @ 2020-05-17 19:39 夏日的向日葵阅读(220) 评论(0) 推荐(0)

linux中基本的bash shell命令

摘要：单点符（.）表示当前目录双点符（..）表示当前目录的父目录 ls--显示当前目录下的文件和目录 ls -F--带-F参数的ls命令轻松区分文件和目录，目录后面加了正斜线（/） ls -a--把隐藏文件和普通文件及目录一起显示出来，这时，所有以点开头的文件都会显示出来 ls -F -R（或ls -F 阅读全文

posted @ 2020-05-16 23:34 夏日的向日葵阅读(269) 评论(0) 推荐(0)

python操作Excel将数据写入多个sheet

摘要：将一个列表数据写入output.xlsx的a,b,c……等sheet中 import pandas as pd df1 = pd.DataFrame({'a':[3,1],'b':[4,3]}) df2 = df1.copy() with pd.ExcelWriter('F:\\python入门\\ 阅读全文

posted @ 2020-05-13 22:50 夏日的向日葵阅读(12153) 评论(1) 推荐(1)

python生成词云图（英文版）

摘要：使用wordcloud模块，生成云图，测试文本为： Betty Botter bought some butter but she said the butter's bitter. If I put it in my batter it will make my batter bitter. So 阅读全文

posted @ 2020-05-10 22:53 夏日的向日葵阅读(1198) 评论(0) 推荐(0)

python对读取的文件内容进行分词

摘要：分词，即将连续的字序列按照一定的规范重新组合成词序列的过程，它是一种自然语言处理技术，这里的分词指中文分词，其本质是提取一个字符串中的词组或者字。其详细代码非常简单，如下： #导入jieba分词模块import jieba#记录输入的文件路径filepath = input('请输入要读取的文件：阅读全文

posted @ 2020-05-08 23:11 夏日的向日葵阅读(3760) 评论(0) 推荐(0)

python如何以当前时间批量创建文件

摘要：在平时的工作中，我们经常会遇到需要批量创建文件的情况，例如，汇总一个月中每天回复问题的文件等，这里，我们以如何使用当前日期时间创建文件为例： import os import datetime import time while True: #记录文件的保存地址 path = input('请输入文阅读全文

posted @ 2020-05-06 22:29 夏日的向日葵阅读(1006) 评论(0) 推荐(0)

python检索敏感词并描红输出

摘要：一些带有过度宣传的词，在淘宝、京东对商品的宣传有一定的限制，这些最佳，最大、盗版、水货等词语都不能用于产品的宣传，可以使用程序检测敏感词，以下既是具体代码。 #检索敏感词并描红输出 #输入 word = input("请输入或拷贝含有敏感词的宣传文字：") #敏感词库 sensitive = ['第阅读全文

posted @ 2020-05-04 23:28 夏日的向日葵阅读(962) 评论(0) 推荐(0)

python将base64编码/解码

摘要：本样例旨在解决base64编码的解码，提供了四种场景，希望可以帮到大家~ # -*- coding:utf-8 -*- #将base64编码/解码包 import base64 #导入url解码包 from urllib import parse #普通中文 s = "你好" #带竖线的中文 str 阅读全文

posted @ 2020-05-04 22:00 夏日的向日葵阅读(5478) 评论(0) 推荐(0)

python将json数据转化为Excel表格

摘要：json数据： [{"authenticate":-99,"last_ip":"156.2.98.429","last_time":"2020/05/23 01:41:36","member_id":5067002,"mg_id":1,"name":"yuanfang","status":0,"us 阅读全文

posted @ 2020-05-04 16:07 夏日的向日葵阅读(7706) 评论(0) 推荐(0)

python开发一个菜单点菜功能，可以输入菜名前的数字编号点菜

摘要：本例开发一个菜谱点菜功能，可以输入菜名前的数字编号点菜。 import re option_str = input("请输入数字或方向键：") #re.sub(pattern,repl,string,count=0,flags=0)找到string中可以匹配pattern的部分， #然后将这些部分替阅读全文

posted @ 2020-05-03 11:38 夏日的向日葵阅读(1868) 评论(0) 推荐(0)

python动态循环输出文字

摘要：在一些公共场所经常可以看到一些动态提示的文字，以下代码即为文字的循环变化代码： import sys import time def print_act(word): print('新春佳节快乐'+'\r') #让光标回到行首 sys.stdout.write("\r") #缓冲区的数据全部输出 s 阅读全文

posted @ 2020-05-03 11:34 夏日的向日葵阅读(1826) 评论(0) 推荐(0)

利用python实现日间、星期客流高峰提示

摘要：1、中国工商银行日间客流高峰提示牌的实现 import math #时间段 time = ['08:00','09:00','10:00','11:00','12:00','13:00','14:00','15:00','16:00'] #时间段客流人数 person = ['572','1236' 阅读全文

posted @ 2020-05-02 20:54 夏日的向日葵阅读(423) 评论(0) 推荐(0)

利用python打印特殊符号

摘要：1、方法一，调用字符映射表输入特殊符号在键盘上按win+R，在打开的对话框中输入“charmap”,会出现字符映射表： 2、利用字符编码输入特殊符号 #打印Σ print(chr(931)) #打印← print(chr(8592)) #打印→ print(chr(8594)) #打印↑ prin 阅读全文

posted @ 2020-05-02 19:57 夏日的向日葵阅读(9529) 评论(0) 推荐(0)

夏日的向日葵

05 2020 档案

公告