网络采集软件核心技术剖析系列（5）---将任意博主的全部博文下载到内存中并通过Webbrower显示（将之前的内容综合到一起）

（1）若为链接提取页面，则提取全部符合规则的文章链接，然后压入到前面的Url队列中（其实是堆栈操作，这里可以理解为，一个分页页面地址换取了几十个文章链接地址，接下来调度器将取得的链接是这几十个文章链接地址，全部下载完，存储到数据存储后，接下来才会轮到取第二个分页页面，这点大家可以对照提供的代码自行理解，此处是网络爬虫的精髓）。

（2）若为文章正文页，则按照正文css路径，提取出正文，存储到数据存储中（本节为datatable中），具体可参考本系列第二节内容。

4.递归的执行第2步和第3步，直至Url队列为空或已经判断出全部文章下载完毕（参见第一节）时，程序结束。

核心代码如下：

private void ParseWebPage(string strVisitUrl, string strPageContent, DoWorkEventArgs e)
        {

            string strUrlFilterRule = GetUrlFilterRule();

            if (!IsFinalPage(strVisitUrl, strUrlFilterRule))
            {
        
                bool bNoArticle = SaveUrlToDB(strVisitUrl, strPageContent, e);
                if (!bNoArticle)
                {
                    BlogGatherNext(e);
                }
            }
            else
            {
                if (strPageContent != "")
                {
                    string strTitle = SaveFinalPageContent(""
                        , GetMainContentCss(), strVisitUrl, strPageContent);
            

                }

                BlogGatherNext(e);
            }
        }

IsFinalPage(strVisitUrl, strUrlFilterRule)，该行代码根据本次请求的url和文章链接的url规则来判断当前获取的页面是最终文章页还是文章链接提取页，其实现代码如下：

       protected  bool IsFinalPage(string strVisitUrl, string strUrlFilterRule)
        {
            bool bRet = false;

            MatchCollection matchsTemp = Regex.Matches(strVisitUrl.ToString(), strUrlFilterRule, RegexOptions.Singleline);
            if (matchsTemp.Count > 0)
            {
                bRet = true;
            }
            return bRet;
        }

补充说明，何谓链接提取页？如下图所示即是：

更详细的代码请自行下载研究。

作者：宋波
出处：http://www.cnblogs.com/ice-river/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接。
正在看本人博客的这位童鞋，我看你气度不凡，谈吐间隐隐有王者之气，日后必有一番作为！旁边有“推荐”二字，你就顺手把它点了吧，相得准，我分文不收；相不准，你也好回来找我！

posted @ 2014-12-02 08:47 际为软件事务所阅读(1010) 评论(2) 收藏举报

刷新页面返回顶部

际为软件事务所

风云际会有所作为

网络采集软件核心技术剖析系列（5）---将任意博主的全部博文下载到内存中并通过Webbrower显示（将之前的内容综合到一起）

公告

际为软件事务所

风云际会 有所作为

网络采集软件核心技术剖析系列（5）---将任意博主的全部博文下载到内存中并通过Webbrower显示（将之前的内容综合到一起）

公告

风云际会有所作为