• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






kayy

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理
上一页 1 2 3 下一页

2019年3月20日

排序问题评价指标
摘要: # -*- coding: utf-8 -*-import matplotlib.pyplot as pltfrom sklearn.metrics import roc_curvefrom sklearn.metrics import roc_auc_scoreimport pandas as p 阅读全文
posted @ 2019-03-20 16:12 kayy 阅读(364) 评论(0) 推荐(0)
 

2018年11月16日

simhash
摘要: #-*- coding: utf-8 -*-import jieba.analyseimport numpy as npimport hashlibcts = 128#hash字符串位数def word_hash(t, w): if int(t)==1: return w else: return 阅读全文
posted @ 2018-11-16 09:38 kayy 阅读(281) 评论(0) 推荐(0)
 

2018年11月15日

tree+lr
摘要: main_tkz.py import pandas as pdfrom tree_tkz import tree_tkzfrom logistic_regression_tkz import logistic_regression_tkzfrom logistic_regression_test i 阅读全文
posted @ 2018-11-15 14:54 kayy 阅读(267) 评论(0) 推荐(0)
 

2018年8月6日

xgb+lr
摘要: #-*- coding: utf-8 -*- from sklearn.ensemble import GradientBoostingClassifier import numpy as np from sklearn.preprocessing import OneHotEncoder from 阅读全文
posted @ 2018-08-06 11:54 kayy 阅读(1219) 评论(0) 推荐(0)
 

2018年4月21日

pyspark hive
摘要: from pyspark import SparkContext from pyspark import SparkConf from pyspark.sql import HiveContext from pyspark.mllib.regression import LabeledPoint s 阅读全文
posted @ 2018-04-21 18:13 kayy 阅读(170) 评论(0) 推荐(0)
 

2018年4月17日

pyspark GBT
摘要: from pyspark import SparkContext from pyspark import SparkConf from pyspark.mllib.regression import LabeledPoint from pyspark.mllib.tree import Gradie 阅读全文
posted @ 2018-04-17 18:16 kayy 阅读(221) 评论(0) 推荐(0)
 

2018年3月25日

feature select
摘要: 特征选择的主要作用是:降维,减少特征数量,防止过拟合,增强模型的泛化能力。 1、变异系数(标准差/均值) 2、皮尔逊相关系数(线性相关) 3、互信息 4、线性拟合系数 5、L1(Lasso)或者L2(Ridge)正则化 6、树模型 7、交叉验证 8、卡方检验 阅读全文
posted @ 2018-03-25 22:16 kayy 阅读(185) 评论(0) 推荐(0)
 
pandas dataframe to rdd
摘要: import pandas as pd from pyspark.sql import SQLContext from pyspark import SparkContext from pyspark.sql import SparkSession sc = SparkContext()#连接spa 阅读全文
posted @ 2018-03-25 09:33 kayy 阅读(475) 评论(0) 推荐(0)
 

2018年3月6日

sparksql
摘要: 上传文件到hdfs: hadoop fs -put /root/people.json / /root/people.json:本地路径 /:hdfs路径 阅读全文
posted @ 2018-03-06 18:00 kayy 阅读(118) 评论(0) 推荐(0)
 
pyspark连接hdfs
摘要: from pyspark import SparkContext from pyspark import SparkConf string_test = 'pyspark_test' conf = SparkConf().setAppName(string_test).setMaster('yarn 阅读全文
posted @ 2018-03-06 14:58 kayy 阅读(547) 评论(0) 推荐(0)
 
上一页 1 2 3 下一页