08 2019 档案
摘要:Go语言基础之函数 函数是组织好的、可重复使用的、用于执行指定任务的代码块。本文介绍了Go语言中函数的相关内容。 函数 Go语言中支持函数、匿名函数和闭包,并且函数在Go语言中属于“一等公民”。 函数定义 Go语言中定义函数使用func关键字,具体格式如下: func 函数名(参数)(返回值){ 函
阅读全文
摘要:Go语言基础之map Go语言中提供的映射关系容器为map,其内部使用散列表(hash)实现。 map map是一种无序的基于key-value的数据结构,Go语言中的map是引用类型,必须初始化才能使用。 map定义 Go语言中 map的定义语法如下: map[KeyType]ValueType
阅读全文
摘要:Go语言基础之指针 区别于C/C++中的指针,Go语言中的指针不能进行偏移和运算,是安全指针。 要搞明白Go语言中的指针需要先知道3个概念:指针地址、指针类型和指针取值。 Go语言中的指针 Go语言中的函数传参都是值拷贝,当我们想要修改某个变量的时候,我们可以创建一个指向该变量地址的指针变量。传递数
阅读全文
摘要:引子 因为数组的长度是固定的并且数组长度属于类型的一部分,所以数组有很多的局限性。 例如: 这个求和函数只能接受[3]int类型,其他的都不支持。 再比如, 数组a中已经有三个元素了,我们不能再继续往数组a中添加新元素了。 切片 切片(Slice)是一个拥有相同类型元素的可变长度的序列。它是基于数组
阅读全文
摘要:Go语言基础之数组 Array(数组) 数组是同一种数据类型元素的集合。 在Go语言中,数组从声明时就确定,使用时可以修改数组成员,但是数组大小不可变化。 基本语法: // 定义一个长度为3元素类型为int的数组a var a [3]int 数组定义: var 数组变量名 [元素数量]T 比如:va
阅读全文
摘要:Go语言基础之流程控制 流程控制是每种编程语言控制逻辑走向和执行次序的重要部分,流程控制可以说是一门语言的“经脉”。 Go语言中最常用的流程控制有if和for,而switch和goto主要是为了简化代码、降低重复代码而生的结构,属于扩展类的流程控制。 if else(分支结构) if条件判断基本写法
阅读全文
摘要:Go语言中有丰富的数据类型,除了基本的整型、浮点型、布尔型、字符串外,还有数组、切片、结构体、函数、map、通道(channel)等。Go 语言的基本类型和其他语言大同小异。 基本数据类型 整型 整型分为以下两个大类: 按长度分为:int8、int16、int32、int64 对应的无符号整型:ui
阅读全文
摘要:变量的初始化 Go语言在声明变量的时候,会自动对变量对应的内存区域进行初始化操作。每个变量会被初始化成其类型的默认值,例如: 整型和浮点型变量的默认值为0。 字符串变量的默认值为空字符串。 布尔型变量默认为false。 切片、函数、指针变量的默认为nil。 当然我们也可在声明变量的时候为其指定初始值
阅读全文
摘要:冒泡排序 1.将原始列表中的最大值找出且放置在列表最右侧(将元素两两比较,将数值大的数逐步向后移动) 2.重复执行步骤1 选择排序 选择排序 1.将列表中的最大值一次找出,放置在列表最右侧 正式代码 插入排序 将乱序列表分成两部分,一部分是有序部分,一部分是乱序部分,将乱序部分的每一个元素插入到有序
阅读全文
摘要:顺序查找 当数据存储在诸如列表的集合中时,我们说这些数据具有线性或顺序关系。 每个数据元素都存储在相对于其他数据元素的位置。 由于这些索引值是有序的,我们可以按顺序访问它们。 这个过程产实现的搜索即为顺序查找。 顺序查找 当数据存储在诸如列表的集合中时,我们说这些数据具有线性或顺序关系。 每个数据元
阅读全文
摘要:二叉树 根节点 左叶子节点 右叶子节点 子树 高度 二叉树的遍历 广度遍历:逐层遍历 深度遍历:前中后指的是根节点的位置 前序:根左右 中序:左根右 后序:左右根 二叉树的遍历 广度遍历:逐层遍历 深度遍历:前中后指的是根节点的位置 前序:根左右 中序:左根右 后序:左右根 二叉树的遍历 广度遍历:
阅读全文
摘要:内存 计算机的作用 用来存储和运算二进制的数据 内存 计算机的作用 用来存储和运算二进制的数据 内存 计算机的作用 用来存储和运算二进制的数据 内存 计算机的作用 用来存储和运算二进制的数据 用来存储和运算二进制的数据 衡量计算机内存大小的单位: bit(位): 字节:8bit kb:1024字节
阅读全文
摘要:栈 特性:先进后出的数据结构 栈顶,栈尾 应用:每个 web 浏览器都有一个返回按钮。当你浏览网页时,这些网页被放置在一个栈中(实际是网页的网址)。你现在查看的网页在顶部,你第一个查看的网页在底部。如果按‘返回’按钮,将按相反的顺序浏览刚才的页面。 Stack() 创建一个空的新栈。 它不需要参数,
阅读全文
摘要:常见数据结构:栈 队列 双端队列 链表 二叉树 算法: 二分查找 冒泡 选择 快速排序 插入 希尔 排序二叉树 什么是计算机科学? 首先明确的一点就是计算机科学不仅仅是对计算机的研究,虽然计算机在科学发展的过程中发挥了重大的作用,但是它只是一个工具,一个没有灵魂的工具而已。所谓的计算机科学实际上是对
阅读全文
摘要:redis NoSQL 学名(not only sql) 特点: 存储结构与mysql这一种关系型数据库完全不同,nosql存储的是KV形式 nosql有很多产品,都有自己的api和语法,以及业务场景 产品种类: Mongodb redis Hbase hadoop Nosql和sql的区别 应用场
阅读全文
摘要:pandas数据处理 使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True 使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为
阅读全文
摘要:处理丢失的数据 数据的清洗 pandas的拼接操作 pandas的拼接分为两种: 级联:pd.concat, pd.append 合并:pd.merge, pd.join 使用pd.concat()级联 使用pd.concat()级联 使用pd.concat()级联 使用pd.concat()级联
阅读全文
摘要:pandas Series的创建 Series的创建 Series的创建 Series的创建 两种创建方式: 由列表或numpy数组创建 默认索引为0到N-1的整数型索引 还可以通过设置index参数指定索引 Series(data=[1,2,3]) Series(data=[1,2,3],inde
阅读全文
摘要:数据分析:是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 数据分析三剑客:Numpy,Pandas,Matplotlib NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的
阅读全文
摘要:增量式爬虫 引言: 当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么,类似的情景,当我们在爬虫的过程中遇到时,我们是不是需要定时更新程序以便能爬取到网站中最近更
阅读全文
摘要:基于crawlspider 的 爬虫 阳光投诉网 CrawlSpider的全站数据爬取 - CrawlSpider就是另一种形式的爬虫类。CrawlSpider就是Spider的一个子类 - 创建一个基于CrawlSpider的爬虫文件: - scrapy genspider -t crawl sp
阅读全文
摘要:11 分布式 1pip install scrapy-redis 2创建爬虫文件 3修改爬虫文件 setting 配置 item .py 文件
阅读全文
摘要:彼岸网 图片下载 img.py items.py piplines.py settings.py 注意更改 开启的管道类 设置文件路径 IMG_STORE
阅读全文
摘要:scrapy 先记下吧 案例 BOSS 直聘 爬取 (深度爬取)+持久化存储 boos.py items.py pipelines.py settings.py # -*- coding: utf-8 -*- # Scrapy settings for bossPro project # # For
阅读全文
摘要:调用了超级鹰(两个文件 ,从超级鹰导入文件) 注意电脑分辨率调为100%(这样图片位置才能正好 )(或者里面的x,y 对应等比例缩放)
阅读全文
摘要:无头浏览器 - phantomJs:无可视化界面的浏览器 - 谷歌无头浏览器: from selenium.webdriver.chrome.options import Options。 chrome_options = Options() chrome_options.add_argument(
阅读全文
摘要:图片懒加载 图片懒加载概念: 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数的
阅读全文
摘要:移动的数据的爬取 使用举例 import requests # headers = { # # 'User-Agent':'qu tou tiao/3.6.1 (iPhone; iOS 12.3.1; Scale/3.00)/qukan_ios' # # } # # url = 'https://a
阅读全文
摘要:协程 多任务异步爬虫测试 aiohttp import aiohttp import asyncio import time import requests from lxml import etree headers={ 'user-agent': 'Mozilla/5.0 (Windows NT
阅读全文
摘要:代理 cookie 验证码 实例展示 线程池 异步爬取 对比:
阅读全文
摘要:编码的流程 指定url 发起请求 获取响应数据 数据解析 持久化存储 数据解析的作用 用于获取页面中局部的页面源码数据 如何实现数据解析 正则 bs4(独有) xpath(最为通用) pyquery 数据解析的通用原理是什么? 标签定位 将标签中间存储的文本数据或者其属性值进行捕获 指定url 发起
阅读全文
摘要:写入excl表中! request 添加一个cell:a b 删除cell:x 双击:进入可编辑模式 切换cell的模式: y:markdown->code m:code->markdown tab: 执行cell:shift+enter 打开帮助文档: shift+tab y:markdown->
阅读全文
摘要:爬虫 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java:可以实现爬虫。j
阅读全文

浙公网安备 33010602011771号