爬虫技术——抓取新浪云邀请排名

本文介绍如何抓取新浪云邀请排名。

 

一、新浪云邀请

新浪云邀请新用户并实名认证,可以获得云豆。使用云豆就可以免费使用新浪云的服务器。目前,方倍工作室的多个项目都部署在新浪云上。其SAE的应用非常好用。

 

二、抓取方法

使用simple_html_dom的方式先抓取整个页面,再进行元素分析。将邀请者,累计获得奖励(云豆),累计邀请人数三项抓取出来。并实时发送到自己的微信上。

 1 require_once('../../class/simple_html_dom.php');
 2 
 3 $sinaArray = array(); 
 4 $sinaArray[] = array("Title" =>"新浪云邀请排名", "Description" =>"方倍工作室", "PicUrl" =>"", "Url" =>"");
 5 
 6 try
 7 {
 8     $url = "http://www.sinacloud.com/special/activity/invite.html?from=ucenter";
 9     $ch = curl_init();
10     curl_setopt($ch, CURLOPT_URL, $url);
11     curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
12     $output = curl_exec($ch);
13     curl_close($ch);
14     
15     $html_main = str_get_html($output);
16     if (!isset($html_main)){
17         $html_main->clear();
18         return "文件载入出错!";
19     }
20     
21     $i = 1;
22     // $content = "";
23     foreach($html_main->find('tbody tr') as $hotNewsInfo)
24     {
25         $name     = @$hotNewsInfo->find('td', 1)->plaintext; 
26         if (empty($name) || $i > 9){
27             continue;
28         }
29         
30         $bean     = @$hotNewsInfo->find('td', 2)->plaintext; 
31         $people = @$hotNewsInfo->find('td', 3)->plaintext; 
32         $title = "名次:".$i."\t奖励:".$bean."\t人数:".$people."\n用户:".$name;
33         $sinaArray[] = array("Title" =>$title, "Description" =>"", "PicUrl" =>"", "Url" =>"");
34         // $content .= "名次:".$i."\n微博:".$name."\n云豆:".$bean."\n人数".$people;
35         // echo $i."\t".$name."\t".$bean."\t".$people."\n";
36         $i++ ;
37     }
38     $html_main->clear();
39 }catch (Exception $e){
40     echo $e;
41     exit;
42 }

 

posted @ 2019-07-15 15:06 方倍工作室 阅读(...) 评论(...) 编辑 收藏