摘要:最近用numpy比较多,边用边自己总结用法。 1. 数组 1.1 生成 m行 * n列 的随机数组 1.2 生成一组随机样本点,样本点的个数为n 示例: 1.3 array.shape:返回数组的行列数 输出: 1.4 np.float32()和np.float64的区别数位的区别,一个在内存中占分 阅读全文
posted @ 2019-09-05 11:14 正态分个布 阅读 (43) 评论 (2) 编辑
摘要:1. json在线格式化 2. 在线编码转换 3. js反混淆 4. python第三方库下载地址 阅读全文
posted @ 2019-03-01 15:02 正态分个布 阅读 (42) 评论 (0) 编辑
摘要:1.1 实现过程: 终端的字符颜色是用转义序列控制的,是文本模式下的系统显示功能,和具体的语言无关。 转义序列是以ESC开头,即用\033来完成(ESC的ASCII码用十进制表示是27,用八进制表示就是033)。 1.2 书写格式: 开头部分:\033[显示方式;前景色;背景色m + 结尾部分:\0 阅读全文
posted @ 2019-10-09 09:42 正态分个布 阅读 (50) 评论 (0) 编辑
摘要:代码: 显示: 阅读全文
posted @ 2019-09-26 10:51 正态分个布 阅读 (44) 评论 (0) 编辑
摘要:运行结果: 阅读全文
posted @ 2019-09-23 14:46 正态分个布 阅读 (43) 评论 (0) 编辑
摘要:pickle(python3.x)和cPickle(python2.x的模块)相当于java的序列化和反序列化操作。 常采用下面的方式使用: 使用pickle模块你可以把Python对象直接保存到文件,而不需要把他们转化为字符串,也不用底层的文件访问操作把它们写入到一个二进制文件里。 pickle模 阅读全文
posted @ 2019-09-16 15:12 正态分个布 阅读 (66) 评论 (0) 编辑
摘要:描述 classmethod 修饰符对应的函数不需要实例化,不需要 self 参数,但第一个参数需要是表示自身类的 cls 参数,可以来调用类的属性,类的方法,实例化对象等。 语法 classmethod 语法: 参数 无。 返回值 返回函数的类方法。 实例 以下实例展示了 classmethod 阅读全文
posted @ 2019-09-16 14:55 正态分个布 阅读 (26) 评论 (0) 编辑
摘要:安装命令如下: 慎用,反正我报错了,而且还没有找到有效的解决方法。 找不到指定模块 OSError: [WinError 126] 找不到指定的模块。 2019年9月9日,问题已解决,有时间会更新。 阅读全文
posted @ 2019-09-06 17:39 正态分个布 阅读 (50) 评论 (0) 编辑
摘要:使用Image.crop()方法对图片进行切割。 参数: left:与左边界的距离 up:与上边界的距离 right:还是与左边界的距离 below:还是与上边界的距离 简而言之就是,左上右下。 例子:将一张美女图片切分成9张(3*3) 图片: 美女.jpg 代码: 切割出来的图片: 阅读全文
posted @ 2019-09-05 16:41 正态分个布 阅读 (362) 评论 (0) 编辑
摘要:最近用numpy比较多,边用边自己总结用法。 1. 数组 1.1 生成 m行 * n列 的随机数组 1.2 生成一组随机样本点,样本点的个数为n 示例: 1.3 array.shape:返回数组的行列数 输出: 1.4 np.float32()和np.float64的区别数位的区别,一个在内存中占分 阅读全文
posted @ 2019-09-05 11:14 正态分个布 阅读 (43) 评论 (2) 编辑
摘要:经常用到sklearn中的SVC函数,这里把文档中的参数翻译了一些,以备不时之需。 本身这个函数也是基于libsvm实现的,所以在参数设置上有很多相似的地方。(PS: libsvm中的二次规划问题的解决算法是SMO)。sklearn.svm.SVC(C=1.0, kernel='rbf', degr 阅读全文
posted @ 2019-09-02 18:41 正态分个布 阅读 (50) 评论 (0) 编辑
摘要:因为my_fake_useragent 是第三方,所以需要自己进行安装。 不用担心,它没有任何依赖或者附加环境,只安装它自己就行。 方法1: 方法2: fake_useragent 和 my_fake_useragent 其实是一个东西。 使用:这里只列举两个最简单的方式去调用。 既然说到了user 阅读全文
posted @ 2019-08-30 09:33 正态分个布 阅读 (695) 评论 (0) 编辑
摘要:函数如下: z = x^2 * y / (x^4 +y^2) 代码如下: 图像: 2. sigmoid函数的绘制 y = 1 / (1 + e^x) 阅读全文
posted @ 2019-08-09 15:54 正态分个布 阅读 (92) 评论 (0) 编辑
摘要:数学期望的定义 数学期望的计算公式 例题 1.数学期望的定义 在概率论和统计学中,数学期望(或均值)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。 随机变量包括离散型和连续型,数学期望的计算也分离散型和连续型。 (1)离散型 如果随机变量只取得有限 阅读全文
posted @ 2019-08-08 16:01 正态分个布 阅读 (162) 评论 (0) 编辑
摘要:好久没有写爬虫了,今天研究了下淘宝商品评论的内容。 一开始用最简单的方法,挂代理,加请求头,对网页请求,是抓不到数据的,在网上找了一些相关文章,也基本已经过时了,就是网站逻辑有改动,用旧的方法是抓不到的。研究了一下,终于有了结果。 1. 百度->淘宝,进入官网 最后选择男装->西装,进入宝贝详情页。 阅读全文
posted @ 2019-07-29 14:11 正态分个布 阅读 (212) 评论 (2) 编辑
摘要:第一步:获取语料 1、已有语料 2、网上下载、抓取语料 第二步:语料预处理 1、语料清洗 2、分词 3、词性标注 4、去停用词 三、特征工程 1、词袋模型(BoW) 2、词向量 第四步:特征选择 第五步:模型训练 1、模型 2、注意事项 (1)过拟合 (2)欠拟合 (3)对于神经网络,注意梯度消失和 阅读全文
posted @ 2019-07-26 10:16 正态分个布 阅读 (87) 评论 (0) 编辑
摘要:装饰器在编写后台的逻辑时有可能会用到,比方说一个场景:公司的员工想要登录自己公司的考勤记录系统去修改自己的考勤,以前是随便谁都有权限去修改,这样老板不同意了,现在,要在你登录前加一个权限验证的逻辑,如果你权限没有达到等级要求,你就不能登录系统去修改自己的考勤记录。如何在不改动原函数的情况下去增加这部 阅读全文
posted @ 2019-07-25 14:52 正态分个布 阅读 (66) 评论 (0) 编辑
摘要:在编写python程序时,常常会遇到一些不太常见的函数,有时候又不想去百度,那么,使用pycharm设置快速显示函数的参数和用法,这个方法十分快捷方便。 step1. file -> settings 进入设置,在搜索栏搜索“code completion” 下图所示方框内全部勾选: step2. 阅读全文
posted @ 2019-07-24 14:07 正态分个布 阅读 (1268) 评论 (0) 编辑
摘要:将词汇按它们的词性(parts-of-speech,POS)分类以及相应的标注它们的过程被称为词性标注(part-of-speech tagging, POS tagging)或干脆简称标注。词性也称为词类或词汇范畴。用于特定任务的标记的集合被称为一个标记集。 使用词性标注器进行英文的词性标注。 1 阅读全文
posted @ 2019-07-16 15:24 正态分个布 阅读 (76) 评论 (0) 编辑
摘要:1. 分词 分词是自然语言处理中最基础的一个步骤。而jieba分词是中文分词的一个比较好的工具。下面看看可以怎么用jieba进行分词。 结果: 2. 词性识别 结果: 有关于词性识别,还是比较重要的。一般我们识别一句话或一段话,首先要提取的是这句话的主语谓语宾语,接着是形容词等,进而提取有用的情感信 阅读全文
posted @ 2019-06-20 14:31 正态分个布 阅读 (72) 评论 (0) 编辑
摘要:今天在研究多进程的时候,如果想要充分利用多核CPU资源,最起码的一点你应该知道自己的电脑有几个核。 下面是用python3 的 os 模块来查看自己的电脑是几个核的方法。 阅读全文
posted @ 2019-05-29 13:52 正态分个布 阅读 (226) 评论 (0) 编辑
摘要:之前已经了解了使用nltk库,将文本作为参数传入相应函数进行切分的方法,下面看看使用正则表达式如何来进行文本切分。 1. 使用正则表达式切分 1.1 通过RegexpTokenizer 进行切分。先导入 RegexpTokenizer 模块,然后构建一个与文本中的标识符相匹配的正则表达式。将此正则表 阅读全文
posted @ 2019-05-16 14:58 正态分个布 阅读 (118) 评论 (0) 编辑
摘要:使用python进行自然语言处理,有一些第三方库供大家使用: ·NLTK(Python自然语言工具包)用于诸如标记化、词形还原、词干化、解析、POS标注等任务。该库具有几乎所有NLP任务的工具。 ·Spacy是NLTK的主要竞争对手。这两个库可用于相同的任务。 ·Scikit-learn为机器学习提 阅读全文
posted @ 2019-05-15 14:40 正态分个布 阅读 (663) 评论 (0) 编辑
摘要:接下来的一段时间,要深入研究下自然语言处理这一个学科,以期能够带来工作上的提升。 学习如何实用python实现各种有关自然语言处理有关的事物,并了解一些有关自然语言处理的当下和新进的研究主题。 NLP,Natural Language Processing,自然语言处理是计算机科学领域与人工智能领域 阅读全文
posted @ 2019-05-15 13:49 正态分个布 阅读 (61) 评论 (0) 编辑
摘要:有两张表,学生信息表infolist: 学生姓名表namelist: 现要查询出,存在infolist中,而不存在namelist中的学生,语句如下: 查询结果如下: age有些奇葩,不用在意。 阅读全文
posted @ 2019-05-05 09:24 正态分个布 阅读 (886) 评论 (0) 编辑
摘要:数据导出时,出现错误: 一脸懵逼,百度了下,是导出数量有格式有限制。一开始导出为excel表格式,后改为文本格式,不会报错。 阅读全文
posted @ 2019-04-22 09:38 正态分个布 阅读 (262) 评论 (0) 编辑
摘要:匹配时间: 阅读全文
posted @ 2019-04-12 10:01 正态分个布 阅读 (337) 评论 (0) 编辑
摘要:1. isspace()方法 定义一个值为3个空格的变量,使用isspace()方法可直接判断该字符串是否全为空格组成。 2. strip() 字符串去除前后端的空格及指定字符的函数。 strip()的相关用法(去掉左边空格/去掉右边空格) 去掉字符串两端的指定字符。 阅读全文
posted @ 2019-04-08 17:00 正态分个布 阅读 (569) 评论 (0) 编辑
摘要:在抓取网络数据的时候,有时会用正则对结构化的数据进行提取,比如 href="https://www.1234.com"等。python的re模块的findall()函数会返回一个所有匹配到的内容的列表,在将数据存入数据库时,列表数据类型是不被允许的,而是需要将其转换为元组形式。下面看下,str/li 阅读全文
posted @ 2019-04-01 16:21 正态分个布 阅读 (608) 评论 (0) 编辑
摘要:在写网络爬虫的时候,有时候会抓取到一些json格式的字符串,想要通过python字典的方式对字串中的内容进行寻址,则需要将json字符串先转换为python字典。 dumps()函数: loads()函数: 示例: 阅读全文
posted @ 2019-04-01 11:21 正态分个布 阅读 (196) 评论 (0) 编辑
摘要:爬虫时适当更换user-agent可以稍微规避一下代理被封的风险。。。 阅读全文
posted @ 2019-03-21 09:43 正态分个布 阅读 (80) 评论 (0) 编辑
摘要:1.在当前路径地址栏中直接输入‘cmd’,然后回车。 2.在当前路径下,按住‘shift’键同时点击鼠标右键,点击“在此处打开Powershell”。 其实你会发现,两个命令行有很大的区别。 cmd: powershell: 事实上对于电脑性能优秀(内存上,cmd占用内存的情况要比powershel 阅读全文
posted @ 2019-03-18 10:07 正态分个布 阅读 (661) 评论 (0) 编辑