随笔分类 - python
摘要:为了便利化使用selenium驱动浏览器进行操作,遇到一个网页,大部分内容都是通过xhr请求后再通过前端js处理显示, 带来的一个问题就是,采用显示等待无法准确的定位到需要的节点。因此,需要考虑采用判断xhr请求是否完成后再进行定 位,或者直接获取xhr请求返回内容的做法。 参考链接: Seleni
阅读全文
摘要:在多指标的综合加权评价中,确定各项指标的权重是非常关键的环节。对各指标赋权的合理与否,直接关系到分析的结论。确定权重系数的方法很多,归纳起来分为两类:即主观赋权法和客观赋权法。主观赋权法是由评价人员根据各项指标的重要性而认为赋权的一种方法,充分反应专家的经验,目前,使用较多的是专家咨询法、层次分析法
阅读全文
摘要:场景:严格意思上不应存在这种场景,如果存在,说明数据量太小了。举个例子,假设仅有29条数据的情况下,使用LSTM模型,如果直接使用该函数进行归集数据,则会造成验证集数据的一些浪费。 1.函数介绍 可以使用此函数在序列数据上重新归集滑动窗口数据。 keras.preprocessing.timeser
阅读全文
摘要:简介:以keras书中案例,讲述构建电影评论情感分类模型。 1.定义问题,收集数据 使用消极、积极两类电影评论集,构建对情感分类模型,并后续用于预测。由于只有两类,因此是一个二分类模型。 原始数据采用keras库中的imdb数据集,它包含来自互联网电影数据库(IMDB)的50 000 条严重两极分化
阅读全文
摘要:简介:遇到一个反爬虫机制,该网页为gbk编码网页,但是请求参数中,部分请求使用gbk编码,部分请求使用utf8编码,还设置了一些不进行编码的安全字符,在爬取的过程中形成了阻碍。 提示:在认为参数设置正常,又无法正确爬取数据的情况下,通过response.requests.headers和espons
阅读全文
摘要:简介:不同的服务器采用的网页编码可能不一样,如果使用错误的编码发送数据,将不会得到正确的数据。 目的:识别访问网页的编码,发送正确的编码数据和解码。 参考链接: Python+request:根据四种不同的提交数据方式进行post请求 Python 爬虫 (requests) 发送中文编码的 HTT
阅读全文
摘要:简介:文本挖掘中,情感分析是经常需要使用到,而进行主题模型分析之前,对数据集进行文本分类再进行分析具有必要性,因为分类以后,每一类的主题才会更明显。而snownlp是一个python写的类库,可以方便的处理中文文本内容,主要看上了他的情感分类功能(二分类),分类是基于朴素贝叶斯的文本分类方法,当然也
阅读全文
摘要:简介:前文python jieba+wordcloud使用笔记+词云分析应用讲到可以自定义Idf文档,所以来处理处理。算法已经有现成,本文讲解基本原理及其使用。 参考链接: sklearn-TfidfVectorizer 计算过程详解 百度百科-tf-idf CountVectorize和TfidV
阅读全文
摘要:系列介绍:文本挖掘比较常见,系列思路:1-基本情况介绍(分词,词云展示);2-根据语料库的tf-idf值及创建自己的idf文件;3-基于snownlp语料情感分析;4-基于gensim进行lda主题挖掘分析; 本文简介:对于大量的短文本需要进行分析的话,会使用到分词及可视化展示,中文分词没有明显的边
阅读全文
摘要:1.关联算法应用介绍 关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。常见于与购物篮分析。 常用关联算法表如下,简单理解的话,就是测算某几项东西一起出现的概率。比如:如果测算得出,大量订单中出现面包、牛奶这两个东西,那么
阅读全文
摘要:看着别人炒股挣钱,心里总是心痒痒,但是每次一入市,总能被当韭菜收割,沉不住气。近期看了《海龟交易法则》,里面提到一些说法,觉得有点意思,所以拿历史数据试一试,探探究竟,不作为投资建议,仅供娱乐。 抛出书里的几个说法: 1、投资可以标准化,但是每几个人能坚持; 2、找到一个期望值为正的操作系统,不如有
阅读全文
摘要:options.add_argument('--disable-infobars') # 禁止策略化 options.add_argument('--no-sandbox') # 解决DevToolsActivePort文件不存在的报错 options.add_argument('window-si
阅读全文
摘要:实际工作场景中,会遇到需要处理时序表。对于少量的时点时序数据,明细数据+数据透视表,也是很快能处理完成。大量的话,可能会出现有一点慢,同时一些计算字段的每次都要设置,不太方便处理。整理一个思路:将系统的时点时序数据进行汇总整合,并形成时序表。 思路:结构化的数据是很方便处理,表格类的数据不方便程序处
阅读全文
摘要:统计数据来说,有时点数据和时期数据。通常情况下,会进行两期数据的比较,现整理一个两期数据比较的场景应用。主要流程分为: 1、数据读取 2、数据预处理 3、数据分类汇总 4、两期数据比较 5、数据输出到EXCEL 主程序如下: df = get_src_data(r'../data/learn_pan
阅读全文
摘要:官方文档:https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html 虽然可以直接查官方文档,不过还是结合一些实际场景,方便记忆,预计做一个使用的系列,涉及平时常见的数据处理应用。 从数据处理的角度来说,主要还是看怎么方便怎么
阅读全文
摘要:python 舆情分析 nlp主题分析 (1) 待续: https://www.cnblogs.com/cycxtz/p/13663895.html python 舆情分析 nlp主题分析 (2)-结合snownlp与jieba库,提高分词与情感判断 待续:https://www.cnblogs.c
阅读全文
摘要:python 舆情分析 nlp主题分析 (1) 待续: https://www.cnblogs.com/cycxtz/p/13663895.html 前文摘要: 微博热门话题:#中印双方达成五点共识# 阅读量2.4亿,讨论7430条。 1、数据采集,使用python+selenium,采集该话题下的
阅读全文
摘要:参考资料: https://blog.csdn.net/Eastmount/article/details/50891162 # 该博主有很多篇幅,解释算法原理,算法应用。 需求:一直想试试大数据+舆情分析,虽然数据量不是很大,大概应用一下,看看是否能从海量数据中,提取出主题思想,以看看当前的舆论导
阅读全文
摘要:需求:搜集一些信息,并且每日通过邮件推送给自己。 参考链接: 【干货】APScheduler官方文档翻译: https://www.jianshu.com/p/4f5305e220f0 花10分钟让你彻底学会Python定时任务框架apscheduler: https://blog.csdn.net
阅读全文
摘要:爬虫模拟登录破解无原图滑动验证码: https://www.cnblogs.com/98WDJ/p/11050559.html 需求:部分网站在频繁的使用之后,会弹出滑块验证码(极验)。有别于过去,现在的原图并不会出现,因此较过去的思路转变为以下: 1、截取带缺口的图片; 2、寻找原图,并截图; 3
阅读全文