惊奇的发现我很久前写的unicode2utf8能用

/* 
* 此函数将unicode编码字串转为utf8编码字符串 
* 参数 str ,unicode编码的字符串。
* 参数 order ,unicode字串的存放次序，为big endian还是little endian.
* 返回 utf8string , 转换过的字符串。
* bailing
* 2007-12-26
*/
function unicodeToUtf8($str,$order="little")
{
	$utf8string ="";
    $n=strlen($str);
    for ($i=0;$i<$n ;$i++ ) {
		if ($order=="little") {
		    $val = dechex(ord($str[$i+1])).dechex(ord($str[$i]));
		}
		else {
			$val = dechex(ord($str[$i])).dechex(ord($str[$i+1]));
		}
		$val = intval($val,16); //由于上次的.连接，导致$val变为字符串，这里得转回来。
		$i++; //两个字节表示一个unicode字符。
		$c = "";
		if($val < 0x7F){        // 0000-007F
			$c .= chr($val);
		}elseif($val < 0x800) { // 0080-0800
			$c .= chr(0xC0 | ($val / 64));
			$c .= chr(0x80 | ($val % 64));
		}else{                // 0800-FFFF
			$c .= chr(0xE0 | (($val / 64) / 64));
			$c .= chr(0x80 | (($val / 64) % 64));
			$c .= chr(0x80 | ($val % 64));
			//echot($c);
		}		
		$utf8string .= $c;
    }
	return $utf8string;
} // end func

/**
* 此函数将utf8编码字串转为unicode编码字符串 
* 参数 str ,utf8编码的字符串。
* 参数 order,存放数据格式，是big endian还是little endian，默认的unicode存放次序是little.
* 如："大"的unicode码是 5927。little方式存放即为：27 59 。big方式则顺序不变：59 27.
* little 存放格式文件的开头均需有FF FE。big 存放方式的文件开头为 FE FF。否则。将会产生严重混乱。
* 本函数只转换字符，不负责增加头部。
* iconv转换过来的字符串是 big endian存放的。
* 返回 ucs2string , 转换过的字符串。 
* 感谢唠叨（xuzuning）提供的算法思路。
* 作者 ： gu1dai
*/
function utf8ToUnicode($str,$order="little")
{
 	$ucs2string ="";
    $n=strlen($str);
    for ($i=0;$i<$n ;$i++ ) {
		$v = $str[$i];
		$ord = ord($v);
		if( $ord<=0x7F){ //  0xxxxxxx  
		  	if ($order=="little") {
			    $ucs2string .= $v.chr(0);	
			}
			else {
			    $ucs2string .= chr(0).$v;	
			}
		}
		elseif ($ord<0xE0 && ord($str[$i+1])>0x80) {  //110xxxxx 10xxxxxx 
			$a = (ord($str[$i]) & 0x3F )<<6;
			$b =  ord($str[$i+1]) & 0x3F ;
			$ucsCode = dechex($a+$b);			//echot($ucsCode);
			$h = intval(substr($ucsCode,0,2),16);
			$l  =  intval(substr($ucsCode,2,2),16);
			if ($order=="little") {
			    $ucs2string   .= chr($l).chr($h); 
			}
			else {
			     $ucs2string   .= chr($h).chr($l); 
			}
			$i++;
		}elseif ($ord<0xF0  && ord($str[$i+1])>0x80  && ord($str[$i+2])>0x80) { //1110xxxx 10xxxxxx 10xxxxxx 
		   	$a = (ord($str[$i]) & 0x1F)<<12;	    
			$b = (ord($str[$i+1]) & 0x3F )<<6;
			$c =  ord($str[$i+2]) & 0x3F ;
			$ucsCode = dechex($a+$b+$c);			//echot($ucsCode);
			$h = intval(substr($ucsCode,0,2),16);
			$l  =  intval(substr($ucsCode,2,2),16);
			if ($order=="little") {
			    $ucs2string   .= chr($l).chr($h); 
			}
			else {
			     $ucs2string   .= chr($h).chr($l); 
			}			
			$i +=2;
		}
    }
	return $ucs2string;   
} // end func

//下面这个函数本来是简化版的，但是发现有问题

/**
*
* 把utf8编码字符转为ucs-2编码
* 参数 utf8编码的字符。
* 返回 该字符的unicode码值。知道了码值，你就可以使用chr将字符弄出来了。
* 
*  原理：unicode转为utf-8码的算法是。头部固定位或。
   该过程的逆向算法就是这个函数了，头部固定位反位与。
*/

function utf2ucs($str){
	$n=strlen($str);
	if ($n=3) {
	    $highCode = ord($str[0]);	    
		$midCode = ord($str[1]);
	    $lowCode = ord($str[2]);
		$a   = 0x1F & $highCode;
		$b   = 0x3F & $midCode;
		$c   = 0x3F & $lowCode;
		$ucsCode = (64*$a + $b)*64 + $c;  
	}
	elseif ($n==2) {
	  	$highCode = ord($str[0]);	    
	    $lowCode = ord($str[1]);
		$a   = 0x3F & $highCode;  //0x3F是0xC0的补数
		$b   = 0x3F & $lowCode;  //0x7F是0x80的补数
		$ucsCode = 64*$a + $b;
	}
	elseif($n==1) {
	    $ucscode = ord($str);
	}
	return dechex($ucsCode);
}
Posted on 2007-12-26 15:40 古代阅读(621) 评论(0) 收藏举报
刷新页面返回顶部