05 2018 档案
摘要:由于centos7原本就安装了Python2,而且这个Python2不能被删除,因为有很多系统命令,比如yum都要用到。 [root@VM_105_217_centos Python-3.6.2]# python Python 2.7.5 (default, Aug 4 2017, 00:39:18
阅读全文
摘要:在word2vec原理(一) CBOW与Skip-Gram模型基础中,我们讲到了使用神经网络的方法来得到词向量语言模型的原理和一些问题,现在我们开始关注word2vec的语言模型如何改进传统的神经网络的方法。由于word2vec有两种改进方法,一种是基于Hierarchical Softmax的,另
阅读全文
摘要:word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。虽然源码是开源的,但是谷歌的代码库国内无法访问,因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于wor
阅读全文
摘要:整个互联网的流量中,真人占比有多少? 80% ? 60% ? 50% ? 根据 Aberdeen Group 在近期发布的以北美几百家公司数据为样本的爬虫调查报告显示,2015 年网站流量中的真人访问仅为总流量的 54.4% ,剩余的流量由 27% 的好爬虫和 18.6% 的恶意爬虫构成。 爬与反爬
阅读全文
摘要:简单实现一个线程池: 复杂线程池 线程池要点:1,创建线程池时,是在需要执行线程的时候创建线程,而不是创建好最大队列等待执行2,创建一个回调函数,检查出剩余队列的任务,当线程执行完函数的时候通知线程池,3,使用线程池时让其循环获取任务,并执行4,线程池,让其自行的去激活线程,执行完成后,关闭退出 本
阅读全文
摘要:现在多进程多线程已经是老生常谈了,协程也在最近几年流行起来。python中有协程库gevent,py web框架tornado中也用了gevent封装好的协程。本文主要介绍进程、线程和协程三者之间的区别。 一、概念 1、进程 进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进
阅读全文
摘要:个人觉得:取决于你怎么解读这个问题。 传统意义对比: 传统意义上的所谓编译与解释,区别在于代码是在什么时候被翻译成目标CPU的指令。——虽然这种解释从科学上说不通,但这却是一直以来大家更认可的更约定俗成的定义。 对 C 语言或者其他编译型语言来说,编译生成了目标文件,而这个目标文件是针对特定的 CP
阅读全文
摘要:一、为什么需要建立爬虫代理ip池 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑、在一段时间内被禁止访问。 这种时候,可以通过降低爬虫的频率,或者更改ip来应对。后者就需要有一个可用的代理ip池,以供爬虫工作时切换。 二
阅读全文
摘要:新手学习机器学习很难,就是收集资料也很费劲。所幸Robbie Allen从不同来源收集了目前最全的有关机器学习、Python和相关数学知识的速查表大全。强烈建议收藏! 机器学习有很多方面。 当我开始刷新这个主题时,我遇到了各种“速查表”,仅仅列出了需要知道的给定主题的所有要点。 最后,我收集了与机器
阅读全文
摘要:python 元类 之前想清楚了写到了笔记中,最近看到python3.6又出了个__init_subclass__,之前的东西又全忘了.这次在总结一下. new: 结合javascript的原型链体会一下动态语言一切皆对象的思想. 以一个实用的实例 #!/usr/bin/env python cla
阅读全文
摘要:多进程IPC与Python支持 linux下进程间通信的几种主要手段简介: 管道(Pipe)及有名管道(named pipe):管道可用于具有亲缘关系进程间的通信,有名管道克服了管道没有名字的限制,因此,除具有管道所具有的功能外,它还允许无亲缘关系进程间的通信; 信号(Signal):信号是比较复杂
阅读全文
摘要:Python不同于C/C++,程序执行并不需要主程序,如main(),而是文件自上而下的执行。但很多Python程序中都有 这样的语句。 这段代码的主要作用主要是让该python文件既可以独立运行,也可以当做模块导入到其他文件。当导入到其他的脚本文件的时候,此时__name__的名字其实是导入模块的
阅读全文