随笔档案「2020年9月」 - straightup

Elasticsearch中的mapping和分析过程

摘要：映射mapping 自定义表结构 (原本是es自动帮我们定义的) 每个索引都有一个映射类型(6.x版本前可有多个) 参考博客: https://www.cnblogs.com/Neeo/articles/10585039.html 字段的数据类型: 1.简单类型: *文本(text) *关键字(ke 阅读全文

posted @ 2020-09-27 07:43 straightup 阅读(557) 评论(0) 推荐(0)

Elasticsearch初识及简单操作

摘要：Lucene 是Apache软件基金会4 jakarta项目的子项目。它是一个开源的全文检索引擎工具包。但它并不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）相当于一个库, 还有很多东西要自己写. ElasticSe 阅读全文

posted @ 2020-09-27 07:24 straightup 阅读(174) 评论(0) 推荐(0)

python进制转换

摘要：10进制转换成其他进制: 10进制转换成2进制：bin(n) 10进制转换成8进制：oct(n) 10进制转换成16进制：hex(n) 2进制转换为其他进制: 2进制转换成10进制：int(n,2) 2进制转换成8进制：oct(int(n,2)) 2进制转换成16进制：hex(int(n,2)) 8 阅读全文

posted @ 2020-09-24 10:28 straightup 阅读(197) 评论(0) 推荐(0)

Flask学习Ⅳ

摘要：Websocket 1.轮询: HTTP协议的轮询(无状态) TCP三次握手缺陷: 信息不能及时传达客户端和服务器都浪费很多的资源 HTTP无法跟踪定位客户端 2.长轮询: HTTP协议的长轮询可能出现: HTTP请求超时, HTTP请求断开缺陷: 消息实时性不高占用资源客户端线程资源占阅读全文

posted @ 2020-09-24 09:08 straightup 阅读(227) 评论(0) 推荐(0)

Flask学习Ⅲ (+MongoDB)

摘要：MongoDB 1.准备阶段下载MongoDB https://www.mongodb.com/ 默认监听端口:27017 (mysql:3306;redis:6379) MonogDB 启动指定mongodb数据存储目录 mongod --dbpath="D:/mongodb/data/db" 阅读全文

posted @ 2020-09-22 20:35 straightup 阅读(257) 评论(0) 推荐(0)

Flask学习Ⅱ

摘要：Flask 中的路由 @app.route("/login",methods=['GET','POST']...) #路由中的参数 endpoint 不能重复对应视图函数默认是视图函数名 #路由和视图函数之间的桥梁 methods #允许请求的方式 ["GET","POST","DELETE", 阅读全文

posted @ 2020-09-21 22:09 straightup 阅读(169) 评论(0) 推荐(0)

Flask学习Ⅰ

摘要：Flask Web框架的安装和启动安装: pip install Flask - 1.1.2 应用Flask # 三行启动flask 提供服务 from flask import Flask app = Flask(__name__) app.run() # 六行启动实现"HelloWorld" 阅读全文

posted @ 2020-09-20 22:48 straightup 阅读(133) 评论(0) 推荐(0)

Scrapy爬虫框架使用Ⅲ

摘要：scrapy下载图片爬虫类中,将img_src作为item的属性yield即可关键实现点在管道类里导入一个图片的管道类 from scrapy.pipelines.images import ImagesPipeline 发请求 import scrapy 重写图片管道类的三个父类方法 get 阅读全文

posted @ 2020-09-18 20:49 straightup 阅读(193) 评论(0) 推荐(0)

Scrapy爬虫框架使用Ⅱ

摘要：基于Spider父类进行全站数据的爬取全站数据的爬取:将所有页码对应的页面数据进行爬取手动请求的发送(get): yield scrapy.Request(url,callback) 对yield的总结: 向管道提交item对象 yield item 手动请求发送 yield scrapy.Re 阅读全文

posted @ 2020-09-18 20:47 straightup 阅读(115) 评论(0) 推荐(0)

Scrapy爬虫框架使用Ⅰ

摘要：什么是爬虫框架? 就是具有很强通用性且集成了很多功能的爬虫项目模板 Scrapy集成好的功能: 高性能的数据解析操作(xpath) 高性能的数据下载功能(异步) 高性能的数据持久化存储(管道) ** 中间件机制(拦截请求和响应) 全站数据爬取操作将一个网站所有页面的数据进行爬取分布式(搭建集群) 阅读全文

posted @ 2020-09-18 20:41 straightup 阅读(116) 评论(0) 推荐(0)

selenium的基本使用

摘要：selenium模块实现浏览器自动化搜索京东商品并获取页面源码 from selenium import webdriver from time import sleep # 先实例化一个浏览器对象,并传入驱动程序 bro = webdriver.Chrome(executable_path='ch 阅读全文

posted @ 2020-09-18 20:36 straightup 阅读(128) 评论(0) 推荐(0)

selenium使用谷歌无头浏览器和规避监测

摘要：使用谷歌无头浏览器 from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_option = Options() chrome_option.add_argument('- 阅读全文

posted @ 2020-09-15 23:50 straightup 阅读(523) 评论(0) 推荐(0)

提升爬虫效率的方法

摘要：单线程+多任务异步协程协程在函数(特殊函数)定义的时候,使用async修饰,函数调用后,内部语句不会立即执行,而是会返回一个协程对象任务对象任务对象=高级的协程对象(进一步封装)=特殊的函数任务对象必须要注册到时间循环对象中给任务对象绑定回调:爬虫的数据解析中事件循环当做是一个装载任阅读全文

posted @ 2020-09-15 23:45 straightup 阅读(422) 评论(0) 推荐(0)

爬取梨视频网页的视频

摘要：""" 目标:爬取梨视频世界板块的视频并下载到本地分析:数据为动态加载的 """ import requests from lxml import etree import re import os dirName = './videoLibs' if not os.path.exists(dir 阅读全文

posted @ 2020-09-14 07:51 straightup 阅读(261) 评论(0) 推荐(0)

requests模块的进阶使用

摘要：代理代理服务器,可以接受请求后将其转发,从而更换我们请求所对应的ip 匿名度高匿:啥也不知道匿名:服务器会知道我使用了代理但是不知道我的真实ip 透明:服务器会知道我使用了代理并且知道我的真实ip 类型 http:意味着这个服务器只能转发http协议的请求 https:只能转发https协议的阅读全文

posted @ 2020-09-14 07:49 straightup 阅读(304) 评论(0) 推荐(0)

免费简历的爬取

摘要：# 免费的简历模板进行爬取本地保存 # http://sc.chinaz.com/jianli/free.html # http://sc.chinaz.com/jianli/free_2.html import requests from lxml import etree import os d 阅读全文

posted @ 2020-09-14 07:06 straightup 阅读(537) 评论(0) 推荐(0)

数据解析

摘要：图片的爬取 import requests headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 S 阅读全文

posted @ 2020-09-14 07:03 straightup 阅读(321) 评论(0) 推荐(0)

爬取药监总局中相关企业的详情信息

摘要：爬取药监总局中相关企业的详情信息 http://scxk.nmpa.gov.cn:81/xk/ 需求分析确定页面中相关数据是否为动态加载相关的企业信息为动态加载通过抓包工具全局搜索定位到动态加载数据的数据包,提取到相关的url和请求参数 post:http://scxk.nmpa.gov.cn 阅读全文

posted @ 2020-09-13 08:26 straightup 阅读(400) 评论(0) 推荐(0)

requests模块的基本使用

摘要：requests模块初识什么是requests模块? python中封装好的一个基于网络请求的模块 requests模块的作用是什么? 模拟浏览器发请求 requests模块的环境安装: pip install requests requests模块的编码流程: 1.指定url(输入网址) 2.发阅读全文

posted @ 2020-09-13 08:20 straightup 阅读(435) 评论(0) 推荐(0)

爬虫初识

摘要：什么是爬虫? - 就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程爬虫的分类: 通用爬虫抓取一整张网页的数据聚焦爬虫抓取页面的局部数据增量式爬虫用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据反爬机制针对门户网站,阻止爬虫爬取反反爬策略针对爬虫程序员, 阅读全文

posted @ 2020-09-13 07:51 straightup 阅读(122) 评论(0) 推荐(0)

straightup

一山还有一山高

09 2020 档案

公告