09 2018 档案

摘要:Crond 关于编写完成的爬虫脚本,我们后续的操作无非是定时执行,以及挂掉的监听。定时执行的话可以用到crontab. 有两个坑吧,第一个在编辑定时任务的时候需要绝对路径,第二个就是scrapy.cfg需要放在当前目录下。 crontab文件的含义: 用户所建立的crontab文件中,每一行都代表一 阅读全文
posted @ 2018-09-19 20:11 家迪的家 阅读(441) 评论(0) 推荐(0)
摘要:WordCount.py 使用spark-submit执行命令 Hadoop Web界面 阅读全文
posted @ 2018-09-06 10:29 家迪的家 阅读(171) 评论(0) 推荐(0)
摘要:FirewallD 是 iptables 的一个封装,可以让你更容易地管理 iptables 规则 - 它并不是 iptables 的替代品。虽然 iptables 命令仍可用于 FirewallD,但建议使用 FirewallD 时仅使用 FirewallD 命令。 安装和管理 1. 启动服务,并 阅读全文
posted @ 2018-09-05 15:27 家迪的家 阅读(334) 评论(0) 推荐(0)
摘要:1.安装pip 因为centos7.0自带的python系统是2.7.5,并没有安装pip,需要先安装pip 2.配置启动项 3.jupyter 无法远程访问 其实这时候,local如果有browser的话,就可以输入访问了,但是没有,所以需要远程访问: http://ip:8888,发现访问不了 阅读全文
posted @ 2018-09-04 20:57 家迪的家 阅读(935) 评论(0) 推荐(0)
摘要:1. Scala的安装 注意点:版本匹配的问题, Spark 1.6.2 -- Scala2.10 Spark 2.0.0 -- Scala2.11 2. Spark的安装 输入pyspark 显示: 至此安装成功。 3.本地运行pyspark 4.在Hadoop YARN上运行pyspark 5. 阅读全文
posted @ 2018-09-04 10:37 家迪的家 阅读(284) 评论(0) 推荐(0)
摘要:大纲: 赛题描述==》定位机器学习问题 数据分析==》特征选择==》算法选择==》参数优化 先分类,后回归,最后将每个回归模型用不同的算法进行模型融合。 流程: 熟悉数据: 前105个特征是关于游戏属性,后三个特征分别是平均在线时长,7日付费金额,7日付费次数,需要预测的是45日付费金额。 筛选特征 阅读全文
posted @ 2018-09-03 11:22 家迪的家 阅读(956) 评论(0) 推荐(0)