PHP生成短连接

<?php 
     #短连接生成算法
     
     class Short_Url {
         #字符表
         public static $charset = "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz";
 
         public static function short($url) {
             $key = "alexis";
             $urlhash = md5($key . $url);
             $len = strlen($urlhash);
 
             #将加密后的串分成4段,每段4字节,对每段进行计算,一共可以生成四组短连接
             for ($i = 0; $i < 4; $i++) {
                 $urlhash_piece = substr($urlhash, $i * $len / 4, $len / 4);
                 #将分段的位与0x3fffffff做位与,0x3fffffff表示二进制数的30个1,即30位以后的加密串都归零
                 $hex = hexdec($urlhash_piece) & 0x3fffffff; #此处需要用到hexdec()将16进制字符串转为10进制数值型,否则运算会不正常
 
                 $short_url = "http://t.cn/";//t.cn新浪的
                 #生成6位短连接
                 for ($j = 0; $j < 6; $j++) {
                     #将得到的值与0x0000003d,3d为61,即charset的坐标最大值
                     $short_url .= self::$charset[$hex & 0x0000003d];
                     #循环完以后将hex右移5位
                     $hex = $hex >> 5;
                 }
 
                 $short_url_list[] = $short_url;
             }
 
             return $short_url_list;
         }
     }
 
     $url = "http://www.cnblogs.com/zemliu/";
     $short = Short_Url::short($url);
     print_r($short);
 ?>
Array ( [0] => http://t.cn/KyfLyH [1] => http://t.cn/bPafHS [2] => http://t.cn/H880aD [3] => http://t.cn/TmvDK0 )

生成的短url存到服务器里,做一个映射,short_url => original_url,输入短url的时候按照映射转回长url,然后访问原始url即可

PS:另外有一种想法,就是把url按照顺序存贮,第一条为aaaaaa,第二条为aaaaab..以此类推,不需要hash,这样不就不会重复了吗。

 

算法一
  1)将长网址md5生成32位签名串,分为4段, 每段8个字节;
  2)对这四段循环处理, 取8个字节, 将他看成16进制串与0x3fffffff(30位1)与操作, 即超过30位的忽略处理;
  3)这30位分成6段, 每5位的数字作为字母表的索引取得特定字符, 依次进行获得6位字符串;
  4)总的md5串可以获得4个6位串; 取里面的任意一个就可作为这个长url的短url地址;
算法二
   a-zA-Z0-9 这64位取6位组合,可产生500多亿个组合数量.把数字和字符组合做一定的映射,就可以产生唯一的字符串,如第62个组合就是aaaaa9,第63个组 合就是aaaaba,再利用洗牌算法,把原字符串打乱后保存,那么对应位置的组合字符串就会是无序的组合。
  把长网址存入数据库,取返回的 id,找出对应的字符串,例如返回ID为1,那么对应上面的字符串组合就是bbb,同理 ID为2时,字符串组合为bba,依次类推,直至到达64种组合后才会出现重复的可能,所以如果用上面的62个字符,任意取6个字符组合成字符串的话,你 的数据存量达到500多亿后才会出现重复的可能。

算法一:使用新版的md5和sha算法,不存在碰撞问题。算法二:“你的数据存量达到500多亿后才会出现重复的可能”。
原理就是排列组合的应用。

posted @ 2013-04-08 17:51  seabxyh  阅读(725)  评论(0编辑  收藏  举报