网页内容抓取
Hi ALL:
Index.php:
//查询文本框:
<div class="input-group">
<input type="text" class="form-control" placeholder="Enter your url here..." id="urlinput">
<span class="input-group-addon disabled" id="btn-submit" onclick="vali();">View</span>
</div>
//点击View触发的function
<script type="text/javascript">
function vali () {
var urlinput = document.getElementById('urlinput').value;
if((urlinput.substr(0,5) == 'http:') || (urlinput.substr(0,5) == 'https')) {
}else{
urlinput = 'http://' + urlinput;
};
var frame_url = document.getElementById('frameCont');
frame_url.setAttribute('src', 'webfonts/real.php?url='+urlinput);
frame_url.setAttribute('scrolling', 'yes');
}
</script>
//frame显示的区域
<div class="frame-wrap">
<iframe src="webfonts/dummy.php" width="320" height="480" frameborder="0" id="frameCont" scrolling="no"></iframe>
</div>
webfonts/real.php(由于有的website不允许frame,所以我们以游客身份访问website):
<?php
$url = $_REQUEST['url']; //接收index.php传递过来的url
?>
<!DOCTYPE html>
<html>
<head>
<title></title>
<base href="<?php echo $url ;?>" /> //由于有的website的图片是相对路径,所以要给他们定义一个website的绝对路径。
</head>
<body>
</body>
</html>
<?php
function getFileContents($url, $data = '') // 模拟提交数据函数
{
$curl = curl_init(); // 启动一个CURL会话
curl_setopt($curl, CURLOPT_URL, $url); // 要访问的地址
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查
@curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1); // 从证书中检查SSL加密算法是否存在
curl_setopt($curl, CURLOPT_USERAGENT, isset($_SERVER['HTTP_USER_AGENT']) ? $_SERVER['HTTP_USER_AGENT'] : 'Mozilla/5.0 (Windows NT 6.1; WOW64)'); // 模拟用户使用的浏览器
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转
curl_setopt($curl, CURLOPT_AUTOREFERER, 1); // 自动设置Referer
if (!empty($data))
{
curl_setopt($curl, CURLOPT_POST, 1); // 发送一个常规的Post请求
curl_setopt($curl, CURLOPT_POSTFIELDS, $data); // Post提交的数据包
}
curl_setopt($curl, CURLOPT_TIMEOUT, 300); // 设置超时限制防止死循环
curl_setopt($curl, CURLOPT_HEADER, 0); // 显示返回的Header区域内容
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回
$tmpInfo = curl_exec($curl); // 执行操作
if (curl_errno($curl))
{
$tmpInfo = FALSE;
}
curl_close($curl); // 关闭CURL会话
return $tmpInfo; // 返回数据
}
echo getFileContents($url);
?>

浙公网安备 33010602011771号