T.t.T!Ck.¢
博客园
首页
博问
闪存
新随笔
联系
订阅
管理
随笔- 50 文章- 0 评论- 194
12 2008 档案
搜索引擎中的URL判断
摘要: 在做蜘蛛采集的时侯从一个起始地址开始能得到一大堆的URL对于内容的页面需要进行内容抽取对于URL列表的页面需要解析出内容页面URL很显然,对于不同的页面需要进行不同的操作。但是问题是,如何判断一个URL到底是内容页面还是列表页面。一个很简单的方法是:抽取页面内的所有URL,判断URL的相似度。当然通过判断页面内是否存在大块的文本也能大概知道这个页面是否内容页面。这里要提一下的是URL相似度的判断。...
阅读全文
posted @
2008-12-16 13:55
T.t.T!Ck.¢# 阅读(858) |
评论 (9)
编辑
公告
专注于Microsoft.Net Application
探讨自然语言处理和图像处理以及人工智能相关
PS:如无特别注明,所有文章均为个人原创.
Dict.CN
我正在看的
我想看的
我看过的
昵称:
T.t.T!Ck.¢#
园龄:
5年9个月
粉丝:
11
关注:
0
<
2008年12月
>
日
一
二
三
四
五
六
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
更多链接
最新随笔
1. 识别地图上的地名-- 笔记二(完结)
2. 搜索引擎中的URL判断
3. 人工神经网络(Artificial Neural Netwroks)笔记-模拟退火算法(Simulated Annealing)
4. 人工神经网络(Artificial Neural Netwroks)笔记-径向基函数(Radial Basis Function- RBF)
5. 人工神经网络(Artificial Neural Netwroks)笔记-粒子群优化(Partical Swarm Optimization - PSO)
6. 识别地图上的地名-- 笔记一
7. 人工神经网络(Artificial Neural Netwroks)笔记-基本的非确定性统计训练算法
8. 人工神经网络(Artificial Neural Netwroks)笔记
9. 人工神经网络(Artificial Neural Netwroks)笔记-消除样本顺序的BP算法
10. 人工神经网络(Artificial Neural Netwroks)笔记-基本BP算法
我的标签
互信息(Mutual Information
(1)
MI)
(1)
随笔分类
(90)
.NET(13)
(rss)
Artificial Intelligence(人工智能)(13)
(rss)
Artificial Neural Netwroks(人工神经网络)(10)
(rss)
Distributed(分布式)
(rss)
Image Processing(图像处理)(2)
(rss)
J2ME&JAVA(6)
(rss)
JXTA(5)
(rss)
Nature Language(自然语言)(16)
(rss)
Prattle(14)
(rss)
Search Engine(搜索引擎)(1)
(rss)
Sounds Of Nature
(rss)
Technology Translation(7)
(rss)
Web(3)
(rss)
随笔档案
(38)
2009年4月 (1)
2008年12月 (1)
2008年11月 (1)
2008年9月 (1)
2008年8月 (3)
2008年7月 (6)
2008年6月 (2)
2008年5月 (2)
2007年8月 (3)
2007年7月 (4)
2007年4月 (4)
2007年3月 (3)
2007年2月 (1)
2006年12月 (1)
2006年10月 (2)
2006年9月 (1)
2006年8月 (2)
有空去看看
Q.yuhen
(rss)
風語·深蓝
广州大学
广州大学经济与管理学院
笑看风云
积分与排名
积分 - 94869
排名 - 1082
最新评论
阅读排行榜
评论排行榜
推荐排行榜