摘要: 1、机器学习分类 有监督学习 无监督学习 半监督学习 强化学习 遗传算法 2、神经网络 一种基于传统统计学的模型,由大量的神经元与其关系构成。常用来对复杂的输入和输出关系进行建模 误差反向传递:给出信号,得到经过神经网络算法之后的结果(信号正向传播),再根据结果来修改神经网络中的神经元强度(信号反向 阅读全文
posted @ 2019-05-15 22:39 HHello_World 阅读(450) 评论(0) 推荐(0) 编辑
摘要: 什么是机器学习? 监督学习(supervised learning) 如神经网络,提供数据和数据的标签进行训练 非监督学习(Unsupervised learning) 只提供数据而不提供对应的标签进行训练 半监督学习 利用少量有标签样本和大量无标签样本进行训练,来对无标签样本进行分类 强化学习(r 阅读全文
posted @ 2019-05-12 16:17 HHello_World 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 工作中会用到docker,于是这两天都在学习相关内容。 docker是一个开源的应用容器引擎,刚开始看到这个定义完全摸不清头脑。其实从头到尾走一遍流程就清晰了。镜像和容器的关系就像类与对象一样。容器依赖镜像创建,一个容器类似于一个虚拟机,在上面可以做各种操作,每个容器是相互隔绝的环境。 主要使用do 阅读全文
posted @ 2018-11-14 23:08 HHello_World 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 这次的实例是使用selenium爬取淘宝美食关键字下的商品信息,然后存储到MongoDB。 首先我们需要声明一个browser用来操作,我的是chrome。这里的wait是在后面的判断元素是否出现时使用,第二个参数为等待最长时间,超过该值则抛出异常。 声明好之后就需要进行打开网页、进行搜索的操作。 阅读全文
posted @ 2017-12-04 11:37 HHello_World 阅读(2031) 评论(0) 推荐(0) 编辑
摘要: 试了一下爬取今日头条的组图。 首先是进入输入关键词后的索引页,使用chrom的开发者工具可以看到这是一个get请求,且包含一些数据,于是在这一步应该构造这个get请求,请求成功则会返回一个json数据。 对于上一步返回的数据进行解析,取出需要的article_url字段 对每个组图的url进行请求: 阅读全文
posted @ 2017-11-29 21:25 HHello_World 阅读(2018) 评论(0) 推荐(0) 编辑
摘要: 前段时间做了一个关于豆瓣电影的爬虫,之后又写了一个陈奕迅歌词的词云制作,于是我想不如做一个关于豆瓣高分电影导演的词云试试,于是有了接下来这篇随笔。 首先,我需要知道豆瓣top100电影详情页面的url,以便爬取对应导演。在豆瓣电影top250界面 在得到top100电影详情界面的url之后,需要对这 阅读全文
posted @ 2017-10-17 16:57 HHello_World 阅读(1420) 评论(0) 推荐(0) 编辑
摘要: 一直想做一个词云,在看实例的时候发现了一位博主写了篇关于励志歌曲的词云,由此想分析一下陈奕迅歌词中出现的较高频率的词是什么。于是我在百度文库上找到了一部分歌词,做了这个小分析。需要用到的库有:wordcloud,jieba,PIL,numpy,matplotlib 首先是读取歌词文件 在此之后,需要 阅读全文
posted @ 2017-10-14 16:47 HHello_World 阅读(595) 评论(0) 推荐(0) 编辑
摘要: 学了python这么久,终于写了一个小爬虫,虽然很简单,但是总算动手了。 这个爬虫小程序爬取了豆瓣高分榜前100的电影名,所用到的知识也十分简单。 以下是源码 之前学习了Python的基本数据结构,但是在用到时才发现学的比较零散,用的时候不知道该怎么用,还是需要更多的项目来练习。 在这个简单的项目中 阅读全文
posted @ 2017-10-12 19:51 HHello_World 阅读(613) 评论(0) 推荐(0) 编辑
摘要: 正则表达式:匹配文本片段的模式。 通配符:匹配多于一个的字符串。如‘.’可以匹配除换行符之外所有字符,只能匹配一个字符。 对特殊字符进行转义:假如要对字符串‘Python.org’进行匹配,如果直接使用‘python.org’进行匹配,则不仅会匹配到'python.org',还会有'pythonio 阅读全文
posted @ 2017-10-05 16:05 HHello_World 阅读(1620) 评论(0) 推荐(1) 编辑
摘要: 打开文件:open(name[,mode[,buffering]]),返回一个文件对象,模式(mode)和缓冲(buffering)是两个可选参数。 假设有一个名为somefile.txt的文件,存储路径为c:\text,打开方式如下:f = open(r'C:\text\somefile.txt' 阅读全文
posted @ 2017-08-29 20:13 HHello_World 阅读(255) 评论(0) 推荐(0) 编辑