摘要:简单操作 Python-层次聚类-Hierarchical clustering Hierarchical与DataFrame之间的转换 Merge,join,Concatenate 进行拼接concat 合并两个DataFrame,并且只是交集 Series和DataFrame一起Concaten
阅读全文
摘要:转载自:廖雪峰的官方网站 协程,又称微线程,纤程。英文名Coroutine。 协程的概念很早就提出来了,但直到最近几年才在某些语言(如Lua)中得到广泛应用。 子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕。
阅读全文
摘要:原文链接: http://www.jianshu.com/p/9c6ae64a1bd7 image GitHub 上有一个 Awesome - XXX 系列的资源整理,资源非常丰富,涉及面非常广。awesome-python 是 vinta 发起维护的 Python 资源列表,内容包括:Web框架、
阅读全文
摘要:机器学习算法比较 Posted on 2016-02-26 20:24 | In ML | | views 本文主要回顾下几个常用算法的适应场景及其优缺点!(提示:部分内容摘自网络)。 机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我
阅读全文
摘要:1.Series Series是一个一维数组 pandas会默认从0开始作为Series的index 也可以自己指定index Series还可以用dictionary来构造一个Series 2.DataFrame DataFrame是一个二维的数组 DataFrame可以由一个dictionary
阅读全文
摘要:如果"/"处在XPath表达式开头则表示文档根元素,(表达式中间作为分隔符用以分割每一个步进表达式)如:/messages/message/subject是一种绝对路径表示法,它表明是从文档根开始查找节点。假设当前节点是在第一个message节点【/messages/message[1]】,则路径表
阅读全文
摘要:转载自:Beautiful Soup库(bs4)入门 该库能够解析HTML和XML 使用Beautiful Soup库: from bs4 import BeautifulSoup import requests r = requests.get('http://www.23us.so/') htm
阅读全文
摘要:Twisted是一个事件驱动型的网络模型。时间驱动模型编程是一种范式,这里程序的执行流由外部决定。特点是:包含一个事件循环,当外部事件发生时,使用回调机制来触发相应的处理。 线程模式: 1.单线程同步模型,任务按照顺序执行。如果某个任务因为IO阻塞,其他所有的任务都必须等待,直到完成才能执行,但如果
阅读全文
摘要:import和from import都是将其他模块导入当前模块中。 刚开始一直以为import和from import唯一的区别,就是from import可以少写一些模块名。虽然from XX import 会污染当前名字空间,但似乎仅限如此。 但其实from import还有一个相当严重的陷阱。
阅读全文
摘要:最近在看scrapy,在spider.py中,每次调用函数的时候都会用到yield,所以查了查,在python中有迭代器和生成器两种 迭代器:是一个实现了迭代器协议的对象,python的一些内置数据类型(列表,数组,字符串,字典等)都可以通过for语句进行迭代,我们也可以自己创建一个容器,实现了迭代
阅读全文
摘要:试着用scrapy将之前写的抓取链家网信息的重新写了写 然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了 类似于这样的问题,并且抓取不到信息 2017-03-28 17:52:49 [scrapy.core.engine] DEBUG: Crawled (200) <GET
阅读全文
摘要:用scrapy建立一个project,名字为Spider 因为之前一直用的是电脑自带的python版本,所以在安装scrapy时,有很多问题,也没有装成功,所以就重新给本机安装了一个python3.+,然后安装scrapy和其他的库。新建的Spider文件夹结构如图 其中Spider.py 是spi
阅读全文
摘要:scrapy是python中数据抓取的框架。简单的逻辑如下所示 scrapy的结构如图所示,包括scrapy engine、scheduler、downloader、spider、item pipeline。 scrapy engine:引擎,是负责scheduler、downloader、spid
阅读全文
摘要:线程和进程的区别 多进程中子进程与父进程之间是相互独立的,并且内存空间相互独立。并且多进程比较稳定,如果一个子进程崩溃,不会影响到祝进程和其他子进程,缺点是穿件进程的代价大,多线程模式通常比多进程快一点,而且,多线程模式致命的,缺点是如果任何一个线程挂掉都可能直接造成整个进程崩溃,因为所有的线程共享
阅读全文
摘要:闲着没事就抓取了下链家网的房源信息,抓取的是北京二手房的信息情况,然后通过网址进行分析,有100页,并且每页的url都是类似的 url = 'https://bj.lianjia.com/ershoufang/pg' + 页数,然后请求是get 请求,所以静态页面,然后依次来进行分析,并且存储在mo
阅读全文
摘要:1.xrange python2.x中,比如使用rang(100),会给分配100的内存保存100个数(执行效率和内存) python3.x中,使用xrange,空间复杂度是o(1),要一个数给一个数。 2.print python2.x中,print不用加括号 python3.x中,print要加
阅读全文
摘要:现在属于是老年人的脑子,东西写着写着就忘了,东西记着记着就不知道了。之前学C++的时候就把类、对象这块弄得乱七八糟,现在是因为很想玩python,所以就看看python的类和对象。 就像说的,类有三个特征:封装、继承、多态。 1、封装:类封装了一些方法,可通过一定的规则约定方法进行访问权限。 C++
阅读全文
摘要:最近在看mongodb,然后会用了一些最简单的mongodb的操作,然后想着结合股票信息的数据的抓取,然后将数据存储在mongodb中,对于mongo和数据库的最大的区别是,mongo不需要建表,直接进行存储,然后在选择数据表的时候在进行插入数据的时候要将str格式的字符串转换成json的格式进行插
阅读全文
摘要:转自:易百教程 MongoDB中的数据具有灵活的模式。文档在同一集合,但它们不需要具有相同的字段或结构集合,集合文档中的公共字段可以包含不同类型的数据。 MongoDB中的数据具有灵活的模式。与SQL数据库不同,SQL数据库必须在插入数据之前确定和声明表的模式,MongoDB的集合不会强制执行文档结
阅读全文