摘要: 中文文本特征值处理:如何从一段话中,分解句子,以矩阵的形式,得到每个词语出现的次数,可以应用于文章类别分析、情感预测等等。 1.中文文本特征抽取:第一种方法:1.利用jieba.cut进行分词; 2.实例化CountVectorizer; 3.将分词结果变成字符串当做fit_transform的输入 阅读全文
posted @ 2019-10-21 20:27 会飞的发如雪 阅读(499) 评论(0) 推荐(0)
摘要: 1.特征抽取:将文本、字符串、字典等数据,转换成数字就是特征抽取。 2.特征抽取API:sklearn.feature_extraction 3.字典特征抽取:对字典数据进行特征值化 , 使用sklearn.feature_extraction.DictVectorizer DictVectoriz 阅读全文
posted @ 2019-10-21 19:50 会飞的发如雪 阅读(452) 评论(0) 推荐(0)
摘要: 1.Scikit-learn库介绍:包含许多知名的机器学习算法的实现,文档完善、容易上手,丰富的API。 2.安装:创建一个基于Python3的虚拟环境(可以在已有的虚拟环境中):mkvirtualenv -p /usr/bin/python3.5 ml3 在ubuntu的虚拟环境中运行以下命令:p 阅读全文
posted @ 2019-10-21 11:55 会飞的发如雪 阅读(247) 评论(0) 推荐(0)
摘要: 1.什么是机器学习? 从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。 比如AlphaGo的应用:从成千上万的棋谱中,找到模型,利用已知的棋谱对新棋谱进行预测。 2.机器学习的目的: 让机器学习程序替换手动的步骤,减少企业的成本也提高企业的效率。 3.机器学习的数据: 常用文件csv 阅读全文
posted @ 2019-10-21 11:47 会飞的发如雪 阅读(190) 评论(0) 推荐(0)
摘要: 机器学习目标: 以算法、案例为驱动的学习,浅显易懂的数学知识。 目标: 熟悉机器学习各类算法的原理 掌握算法的使用,能够结合场景解决实际问题 掌握机器学习算法库和框架的技能 机器学习主要领域:自然语言处理、图像识别、传统预测。 机器学习库和框架:sklearn。 深度学习框架:tensorflow。 阅读全文
posted @ 2019-10-21 10:45 会飞的发如雪 阅读(127) 评论(0) 推荐(0)