随笔分类 - 大数据
学习——构建民航业知识图谱并实现语义查询的
摘要:一、参考资料 构建民航业知识图谱并实现语义查询_ShawnHu的博客-CSDN博客 二、neo4j安装 下载地址:https://neo4j.com/download-center/ 安装教程:https://www.cnblogs.com/jpfss/p/10874303.html
阅读全文
新闻文本分类——词云可视化
摘要:一、参考资料 文本可视化(词云图)_huanxingchen1的博客-CSDN博客 一、文本可视化种类 在上篇博客提取完文本中的关键词之后,进行词云可视化 1)基于文本内容的可视化 基于文本内容的可视化研究包括基于词频的可视化和基于词汇分布的可视化,常用的有词云、分布图和 Document Card
阅读全文
新闻文本分类——关键词提取
摘要:一、参考资料 新闻关键字提取和新闻推荐_mawenqi0729的博客-CSDN博客_新闻关键词抽取 jieba 分词的三种模式_天主极乐大帝的博客-CSDN博客 二、使用jieba进行分类 1、结巴分词的三种模式 精确模式(默认)、全模式和搜索引擎模式 1)精确模式,试图将句子精确的分开,适用于文本
阅读全文
新闻文本分类——爬虫观察者官网
摘要:一、源代码 import requests import queue import pymysql from lxml import etree import threading import re import useful_functions import fake_user_agent # h
阅读全文
论企业集成架构设计及应用之新闻文本分析
摘要:论企业集成架构设计及应用之新闻文本分析 研发项目过程的数据管理以及企业系统的集成化都是在行业中提高企业竞争力的关键因素.随着企业应用系统数量不断增加,异构的应用系统之间交互困难形成一个个"信息孤岛".传统的企业集成方案都有各自的局限性.企业的发展对企业应用系统集成提出了新的需求. 本文章结合参加过的
阅读全文
新闻文本分类——将csv数据保存到mysql
摘要:一、参考资料 Python将csv文件数据保存到MySQL中_weixin_43351935的博客-CSDN博客 二、源代码 import pymysql import pandas as pd def run_sql(path): connection = pymysql.connect( hos
阅读全文
机器学习七讲——最优化
摘要:一、学习资料 北京博雅数据酷客平台大讲堂:http://cookdata.cn/auditorium/course_room/10018/ 案例分析:http://cookdata.cn/note/view_static_note/24b53e7838cde188f1dfa6b62824edbb/
阅读全文
机器学习六讲——降维
摘要:一、学习资料 北京博雅数据酷客平台大讲堂:http://cookdata.cn/auditorium/course_room/10017/ 案例分析:http://cookdata.cn/note/view_static_note/91fef440f61ec0fa68c121b958fd6385/
阅读全文
机器学习三讲——分类
摘要:一、学习资料: 北京博雅数据酷客平台大讲堂:http://cookdata.cn/auditorium/course_room/10014/ 二、概念 1、什么是分类: 另一种典型的有监督学习问题 标签(模型预测值)y为离散值 实际应用举例: 新闻主题分类:科技、教育、社会、体育? 疾病诊断:根据病
阅读全文
支持向量机实现
摘要:采用的测试数据:参考上一篇博客4.1部分 https://www.cnblogs.com/hhjing/p/14340924.html 1、 import numpy as np import matplotlib.pyplot as plt %matplotlib inline #定义函数 def
阅读全文
梯度下降法求解逻辑回归
摘要:采用的测试数据:参考上一篇博客4.1部分 https://www.cnblogs.com/hhjing/p/14340924.html 1、实现使用梯度下降求解的逻辑回归算法 import numpy as np #d定义梯度下降法求解的迭代公式 def logistic_regression(X,
阅读全文
感知机算法案例
摘要:采用的测试数据:参考上一篇博客4.1部分 https://www.cnblogs.com/hhjing/p/14340924.html 1、用一个perception函数实现上述算法。为了深入观察算法运行过程,我们保留每一轮迭代的参数w,并对每一轮迭代中随机选取的样本进行记录。所以,percepti
阅读全文
机器学习二讲——回归
摘要:一、学习资料 北京博雅数据酷客平台大讲堂:http://cookdata.cn/auditorium/course_room/10013/ 二、矩阵的逆 概念:对于n×n方阵A,如果存在矩阵B使得AB=BA=1,则称B为A的逆矩阵,记为 相关性质:若A为可逆矩阵,则其逆矩阵是唯一的 是否可逆:行列式
阅读全文
机器学习一讲——机器学习介绍
摘要:一、学习资源: 北京博雅数据酷客平台大讲堂:http://cookdata.cn/auditorium/course_room/10012/ 二、相关简单介绍 1、大数据是指数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法 2、机器学习是大数据分析的核心内容。机器学习解决的是找到
阅读全文
Tensorflow-K近邻算法
摘要:一、实验目的 1.掌握使用TensorFlow进行KNN操作 2.掌握KNN 算法的原理 二、实验原理 knn的基本原理: KNN是通过计算不同特征值之间的距离进行分类。 整体的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
阅读全文
RDD编程初级实践
摘要:一、实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作; (2)熟悉使用 RDD 编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三、实验内容和要求 1.spark-shell 交互式编程 请到本教程官网的“下载专区”的“数
阅读全文
Spark_RDD
摘要:一、概念 RDD是Resilient Distributed Dataset。RDD是Spark的基础数据结构。表现形式为不可变的分区元素的集合,并且可以在集群中并行操作。 同时, RDD 还提供了一组丰富的操作来操作这些数据. 在这些操作中, 诸如 map, flatMap, filter 等转换
阅读全文
Spark简单使用案例-WordCount
摘要:一、基本步骤 1.观察数据集 2.编写代码测试数据集 3.固化代码、提交集群运行上线 二、编写代码方式 1.spark-shell ·数据集的探索 ·测试 2.独立应用 ·上线,放在集群运行 三、WordCount案例 步骤:1.读取文件 2.差分单词 3.给与每个单词词频为1 4.按照单词进行词频
阅读全文
Scala+idea环境配置和简单使用
摘要:一、资源 1、scala下载路径:http://www.scala-lang.org/download/ 2、安装教程:https://jingyan.baidu.com/article/5225f26babb1ffe6fa0908a0.html 3、参考博客:https://www.cnblogs
阅读全文
Tensorflow安装和配置
摘要:一、资料 安装教程:https://blog.csdn.net/wenyusuran/article/details/83010044 二、安装步骤 1、在官网下载anaconda安装包并进行安装 2、打开终端,可查看安装的conda版本号 3、由于tensorflow最适合的版本是python3.
阅读全文
浙公网安备 33010602011771号