摘要:
Python Flask 框架 .............. 数据库链接池 pip3 install pymysql dbutils 简单实现 ''' @Date : 2020-11-12 20:02:49 @LastEditors : Pineapple @LastEditTime : 2020- 阅读全文
posted @ 2022-04-06 15:08
王舰
阅读(1251)
评论(0)
推荐(0)
摘要:
随便写一个装饰器: def pine(func): def inner(*args, **kwargs): """This is inner""" return func(*args, **kwargs) return inner @pine def apple(): """This is appl 阅读全文
posted @ 2022-04-06 15:07
王舰
阅读(201)
评论(0)
推荐(0)
摘要:
Numpy中,给定范围内取随机数: numpy.random.randint(low, high=None, size=None, dtype=int) 从低(包含)到高(不含)返回随机整数。 如果只传参数low, 那么得到的随机数将小于low(不包括low), 随机值的区间为[0, low) >> 阅读全文
posted @ 2022-04-06 15:07
王舰
阅读(178)
评论(0)
推荐(0)
摘要:
## 一、问题描述 代码 ```python ''' @Date : 2020-10-20 14:17:15 @LastEditors : Pineapple @LastEditTime : 2020-10-30 17:42:21 @FilePath : /Bus_station/#test.py 阅读全文
posted @ 2022-04-06 15:06
王舰
阅读(299)
评论(0)
推荐(0)
摘要:
## 一、前言 今天是1024程序员节,大家节日快乐。听说今天发博客会得一枚1024勋章,一年一次呢,真是稀有。写篇博客顺便把这几天学习的相关知识总结一下。 ## 二、为什么要学习反爬虫 从暑假算起到现在,我也接触了4个月的爬虫,期间做过不少测试和实战,越往后学,越是难学。倒不是难在设计爬虫,编写P 阅读全文
posted @ 2022-04-06 15:05
王舰
阅读(2285)
评论(0)
推荐(0)
摘要:
random.getrandbits(k) 返回带有 k 位随机的Python整数。 此方法随 MersenneTwister 生成器一起提供,其他一些生成器也可以将其作为API的可选部分提供。 如果可用,getrandbits() 启用 randrange() 来处理任意大范围。 在 3.9 版更 阅读全文
posted @ 2022-04-06 15:05
王舰
阅读(545)
评论(0)
推荐(0)
摘要:
## 一、前言 最近一直在折腾双系统的事情,我看了一下,大约有10天没写博客哈哈,也没咋学习。以后打算把deepin作为开发工具,折腾了几天系统,基本的环境jdk,python,vmware啥的都搭建好了,接下来终于可以回归爬虫的学习,不过在这前的头等大事还是抓包工具配置Charles。 ## 二、 阅读全文
posted @ 2022-04-06 15:04
王舰
阅读(1115)
评论(0)
推荐(0)
摘要:
## 一、任务目标 针对一个文本的内容,提取其中的所有单词并去重 文本去重前  去重后 
评论(0)
推荐(0)
Hadoop 解决本地运行出错Cannot initialize Cluster. Please check your configuration for mapreduce.framework...
摘要:
## 一、问题描述  ## 二、问题分析 之前都是写完程序后直接打包到集群上运行的,这样确实有点 阅读全文
posted @ 2022-04-06 15:02
王舰
阅读(685)
评论(0)
推荐(0)
摘要:
## 一、问题描述 本地运行MapReduce程序并不能像在集群上那样输出日志信息,而且还回报log4j的警告 
评论(0)
推荐(0)
摘要:
## 一、MapReduce介绍 MapReduce是一个`分布式计算框架`,可以部署在Hadoop、Spark等大数据平台上,实现海量数据的并行计算。它采用“`分而治之`”的思想,将一个计算任务交给集群中的多台机器共同完成,之后再汇总成最终结果。 一般来说读取一个TB,PB级的文件,普通计算机的速 阅读全文
posted @ 2022-04-06 15:00
王舰
阅读(2006)
评论(0)
推荐(0)
摘要:
## 一、集群描述 主机:CentOS7.8 jdk1.8 hadoop、hive、hbase、zookeeper:CDH5.14.2 ||namenode|datanode1|datanode2| |--|--|-|-| |NameNode|✔(主)|✔(备)|✘| |DataNode|✔|✔|✔ 阅读全文
posted @ 2022-04-06 14:59
王舰
阅读(9129)
评论(1)
推荐(1)
摘要:
## Github项目链接: [https://github.com/Pineapple666/TaobaoSpider](https://github.com/Pineapple666/TaobaoSpider) ## 一、问题描述 我一开始写爬虫的时候,数据用的是Linux虚拟机的`mysql5 阅读全文
posted @ 2022-04-06 14:58
王舰
阅读(578)
评论(0)
推荐(0)
摘要:
今天在DEBUG的时候又出现了一个问题,用Scrapy下载图片,需要重写ImagesPipeline类的item_completed方法。 书上代码如下: ```python def item_completed(self, results, item, info): image_paths = [ 阅读全文
posted @ 2022-04-06 14:50
王舰
阅读(548)
评论(0)
推荐(0)
摘要:
## 一、前言 大概是一个月前就开始做淘宝的爬虫了,从最开始的用selenium用户配置到selenium模拟登录,再到这次的post请求模拟登录。一共是三篇博客,记录了我爬取淘宝网的经历。期间也有朋友向我提出了不少问题,比如滑块失败,微博登录失败等,可以说用selenium模拟登录这方面,坑特别多 阅读全文
posted @ 2022-04-06 14:49
王舰
阅读(2557)
评论(5)
推荐(0)
摘要:
## 一、前言 Github源码链接:[https://github.com/Python3WebSpider/GithubLogin](https://github.com/Python3WebSpider/GithubLogin) 崔庆才:[https://cuiqingcai.com/8229 阅读全文
posted @ 2022-04-06 14:48
王舰
阅读(442)
评论(0)
推荐(0)
摘要:
 [承接上一篇博客,直接上代码,解析请看上篇。](https://blog.csdn.net/p 阅读全文
posted @ 2022-04-06 14:46
王舰
阅读(114)
评论(0)
推荐(0)
摘要:
迭代器是生成器的一种,使用迭代器生成可迭代对象,可以避免创建巨大的列表或元组。 昨天DEBUG的时候,出现了一个BUG:TypeError: 'async_generator' object is not iterable,async_generator对象不可迭代 以下,是我的解决过程。 问题 ) 阅读全文
posted @ 2022-04-06 14:44
王舰
阅读(6851)
评论(0)
推荐(0)
摘要:
**`博客跟新说明`**:[爬取时间已缩短至29.4s](https://blog.csdn.net/pineapple_C/article/details/108054727) <<<<==传送门== ## 一、前言 英雄联盟是一款很火的游戏,像我这种没玩过的都知道`疾风剑豪-亚索`,我便以此展示 阅读全文
posted @ 2022-04-06 14:43
王舰
阅读(657)
评论(0)
推荐(0)
摘要:
## 一、前言 最近一直在搞滑块验证码,发现它比之前的极验验证码又提升了一个档次。验证码只提供两张拼图,不提供原图。所以通过对比两张图片来寻找缺口的方法已经不适用了!所以要用一些图像处理和计算机视觉相关的方法,比如openCV。但是这个东西太深奥了,又和python的另一个第三方库:numpy紧密结 阅读全文
posted @ 2022-04-06 14:42
王舰
阅读(5338)
评论(1)
推荐(1)
摘要:
## 一、前言 `重大跟新`:[https://blog.csdn.net/pineapple_C/article/details/108181761](https://blog.csdn.net/pineapple_C/article/details/108181761)`post请求模拟登录淘宝 阅读全文
posted @ 2022-04-06 14:41
王舰
阅读(2028)
评论(0)
推荐(0)
摘要:
玩王者荣耀有4年了,一直很喜欢这个游戏。记不得是哪天了,当时刚刚接触python,看见网上有人用python爬取王者荣耀全皮肤图片,虽然看不懂,但满是羡慕,也想着有一天能够自己写一个程序爬我喜欢的东西。 看了大神的文章后开始自学爬虫,期间也进行过一些尝试,但结果总是不尽人意。于是利用暑假的时间,买了 阅读全文
posted @ 2022-04-06 14:40
王舰
阅读(494)
评论(1)
推荐(0)
摘要:
`重大跟新`:[https://blog.csdn.net/pineapple_C/article/details/108181761](https://blog.csdn.net/pineapple_C/article/details/108181761)`post模拟登录淘宝并爬取商品列表` 像 阅读全文
posted @ 2022-04-06 14:39
王舰
阅读(1260)
评论(0)
推荐(0)
摘要:
复制以下的代码,选择运行的函数,验证有关矩阵、多项式的操作。 相关参考:[Python语言程序设计(上海交通大学出版社 赵璐主编)](https://item.jd.com/69301324844.html) print(f(1)) # 当x=1时,输出多项式的值 0 print(f(2)) # 5 阅读全文
posted @ 2022-04-06 14:36
王舰
阅读(601)
评论(0)
推荐(0)
摘要:
复制以下的代码,选择运行的函数,验证有关数组的操作。 相关参考:Python语言程序设计(上海交通大学出版社 赵璐主编)<< 传送门 原谅我没有找到电子版,不然一定爬下来 解释和输出都在注释中 # -*- coding: utf-8 -*- import numpy as np # 创建数组的相关操 阅读全文
posted @ 2022-04-06 14:35
王舰
阅读(200)
评论(0)
推荐(0)
摘要:
本文参考:[数据酷客](http://cookdata.cn/course/course_introduction/17/) 上个月写了一篇[Hive数据仓库基本操作](https://blog.csdn.net/pineapple_C/article/details/104985154)过了这么长 阅读全文
posted @ 2022-04-06 14:34
王舰
阅读(668)
评论(0)
推荐(1)
摘要:
质数就是大于等于2且只能被它本身及1整除的数,百度上关于质数的性质和相关的公式还有很多,不过有点高深难懂,尤其是对我这个数学不好的人来说。 网上python判断质数的方法大多是下面这种: from math import sqrt def is_prime(n): if n == 1: print( 阅读全文
posted @ 2022-04-06 14:33
王舰
阅读(456)
评论(0)
推荐(0)
摘要:
为了加深一下Hive操作的印象,也为了方便以后的学习,罗列一下Hive的基本操作。 一、Hive基本操作 1.在Linux本地新建/data/hive目录: mkdir -p /data/hive 2.切换到/data/hive目录下,使用ftp工具将作业附件中的stu_group.txt文件上传到 阅读全文
posted @ 2022-04-06 14:31
王舰
阅读(684)
评论(0)
推荐(0)

浙公网安备 33010602011771号