摘要:
在IIS7.0中Web应用程序有两种配置形式:经典和集成经典模式经典模式是为了与之前的版本兼容,使用ISAPI扩展来调用ASP.NET运行库,原先运行于IIS6.0下的Web应用程序迁移到IIS7.0中只要将应用程序配置成经 典模式,代码基本不用修改就可以正常运行。集成模式集成模式是一种全新的模式,... 阅读全文
摘要:
原文:http://www.oschina.net/translate/best-practices-for-a-pragmatic-restful-api数据模型已经稳定,接下来你可能需要为web(网站)应用创建一个公开的API(应用程序编程接口)。需要认识到这样一个问题:一旦API发布后,就很难... 阅读全文
摘要:
OAuth是一个关于授权(authorization)的开放网络标准,在全世界得到广泛应用,目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程,做一个简明通俗的解释,主要参考材料为RFC 6749。原文地址:http://www.ruanyifeng.com/blog/2014/05... 阅读全文
摘要:
UDAF有两种,第一种是比较简单的形式,利用抽象类UDAF和UDAFEvaluator,暂不做讨论。主要说一下第二种形式,利用接口GenericUDAFResolver2(或者抽象类AbstractGenericUDAFResolver)和抽象类GenericUDAFEvaluator。 这里用A... 阅读全文
摘要:
hive的优化问题1。启动一次JOB尽可能多做事,尽量减少job的数量。能重用就重用,要设计好的模型。2。合理设置reduce个数,reduce个数过多,会造成大量小文件问题。3。使用hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,提高作业的并发4。注意j... 阅读全文
摘要:
There isn't an easy way to change the type of a project in Visual Studio project once it is created; for example changing a C# Class Library into a Po... 阅读全文
摘要:
虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。模型中引入虚拟变量的作用1、分离异常因素的影响,例... 阅读全文
摘要:
去年年底,炼数成金曾开设过比特币算法的课程,貌似3节课,200元,那时还不知道什么是比特币,有什么用?原来就是一种虚拟币。除了比特币,还有许多山寨币,莱特币,狗币,好多好多呀。。。。。。。。。。感觉像炒股票好多人挖的热火朝天的,看的人眼红,不过,要有专门的机器来挖币,咱没这条件,泪奔。。。。。。。。... 阅读全文
摘要:
听说经过北京总部同事的争取,我们部门实行弹性工作质,今天是第一天,我7:59就到公司打了卡,哈哈~这历史的一刻记下来。。。。。。。。。。。。。 阅读全文
摘要:
pig自带的pigstorage不能指定行分隔符,所以自己重写了一个简单的UDF类,可以指定列和行的分隔符,之前研究过的简单的,http://blog.csdn.net/ruishenh/article/details/12048067但是弊端大,所以这次重写一下。操作步骤打好包上传到服务器,gru... 阅读全文
摘要:
一、Mahout命令使用合成控制的数据集 synthetic_control.data 可以从 此处下载,总共由600行X60列double型的数据组成, 意思是有600个元组,每个元组是一个时间序列。1. 把数据拷到集群上,放到kmeans/目录下hadoop fs -mv synthetic_c... 阅读全文
摘要:
最近几天,在研究怎么样把日志中的IP地址转化成具体省份城市。希望写一个pig udfIP数据库采用的纯真IP数据库文件qqwry.dat,可以从http://www.cz88.net/下载。这里关键点在于怎么样读取这个文件,浪费了二天时间,现在把代码记录下来供和我遇到相同问题的朋友参考。pig sc... 阅读全文
摘要:
Hive是基于Hadoop的数据管理系统,作为分析人员的即时分析工具和ETL等工作的执行引擎,对于如今的大数据管理与分析、处理有着非常大的 意义。GeoIP是一套IP映射数据库,它定时更新,并且提供了各种语言的API,非常适合在做地域相关数据分析时的一个数据源。Precondition:通过 IP ... 阅读全文
摘要:
文本内容:上海市黄浦区瑞典江苏省无锡市广东省深圳市南山区我希望分别将字符串中的省份,城市名,城区名匹配出来,如匹配不出来就默认放在省份中。 1 public static HashMap splitCountry(String country) { 2 HashMap ret = n... 阅读全文
摘要:
[正则表达式]文本框输入内容控制整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$只能输入数字:"^[0-9]*$"。只能输入n位的数字:"^\d{n}$"。只能输入至少n位的数字:"^\d{n,}$"。只能输入m~n位的数字:。"^\d{m,n}$"只能输入零和非零开头的数字:"^(... 阅读全文
摘要:
前言正则表达式是烦琐的,但是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。只要认真去阅读这些资料,加上应用的时候进行一定的参考,掌握正则表达式不是问题。索引1._引子 2._正则表达式的历史 3._正则表达式定义3.1_普通字符 3.2_非打印字符 3.3_特殊字符 3.4_限... 阅读全文
摘要:
External Source InputPattern Description这种模式不从hdfs加载数据,而是从hadoop以外系统,例如RDB或web service加载。Intent想要从非MapReduce框架的系统并行加载数据。Motivation使用MapReduce分析数据通常的做法... 阅读全文
摘要:
CHAPTER 7.Input and Output Patterns本章关注一个最经常忽略的问题,来改进MapReduce 的value:自定义输入和输出。我们并不会总使用Mapreduce本身的方式加载或存储数据。有时,可以跳过在hdfs存储数据这项耗时的阶段,仅存储一些数据,不是全部的,或直接... 阅读全文
摘要:
Chain Folding这是对job 链的一种优化。基本上是一种大体规则:每条记录都会提交给多个mapper,或者给reducer然后给mapper。这种综合处理方法会节省很多读文件和传输数据的时间。多个job的结构通常这样处理是可行的,因为map阶段是完全无共享的:看起来每条记录是单独的,数据的... 阅读全文
摘要:
Chapter 6. Metapatterns这种模式不是解决某个问题的,而是处理模式的关系的。可以理解为“模式的模式”。首先讨论的是job链,把几个模式联合起来解决复杂的,有多个阶段要处理的问题。第二个是job 合并,用相同的MapReduce job执行多个分析的优化,达到一箭多雕的目的。Job... 阅读全文