朗志工作室(Langzhi Studio)

江浙沪一带找工作中,欢迎联系

  博客园 :: 首页 :: 联系 :: 订阅 订阅 :: 管理
  3492 Posts :: 2 Stories :: 498 Comments :: 7 Trackbacks

公告

本站大量内容为转载,一般都保留原链接,如果侵犯了你的权益,请以各种方式联系我,我会第一时间修正。

将我自己会忘记的内容,觉得好的,想法备在此处, 所以比较凌乱,莫怪
 


QQ:1036130199


msn/GTalk: Frederick.mao@gmail.com
twitter:http://twitter.com/mlzboy



新浪微博 http://weibo.com/mlzboy
profile 2011
移动充话费
我的简历2011.9

我的简历2010.7
项目截图


分享

抓虾
pageflakes
Rojo
google reader
netvibes
my yahoo
newsgator
bloglines
鲜果
哪吒
有道
QQ邮箱
抓虾
pageflakes
Rojo
google reader
netvibes
my yahoo
newsgator
bloglines
鲜果
哪吒
有道
QQ邮箱
分享家:Addthis中文版
昵称:lexus
园龄:4年10个月
粉丝:21
关注:5

搜索

 

常用链接

我的标签

最新评论

阅读排行榜

评论排行榜

推荐排行榜

2008年9月5日 #

在这里记录一下

使用如下的正则表达式来抽取一个网页下的所有链接,并

<a[^>]+href=["']?(?'Url'[^"'>]+)['"]?[^>]*>

测试字符串

<a               href=www.sina.com.cn>ddfa</a>

<a               href=xx.aspx?id=11>ddfa</a>

<a               href="www.sina.com.cn">ddfa</a>

<a               href='www.sina.com.cn'>ddfa</a>

<a               href=http://www.sina.com.cn>ddfa</a>

 

采集网页中所有图片的正则表达式

((http(s)?://)?)+(((/?)+[\w-.]+(/))*)+[\w-./]+\.+(jpg|jpeg|png|ico|bmp|gif)

注意在正则中勾选case insensitive选项

测试字符串

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>

<BODY>
<!-- 对于<a href="http://www.sina.com.cn%22%3e2%3c/a>这样网址的识别的还有问题 -->
<a href=http://www.sina.com.cn>2</a>
<a href=/aa/.aspx>1<a>
<img src="ddd.gif" />
</BODY>
</HTML>

 

 

还可以有这样的链接http:// news.bjut.edu.cn/./newscontent.jsp?p=s&articleID=6769

效果和下面的是一样的

 http://news.bjut.edu.cn/newscontent.jsp?p=s&articleID=6769

posted @ 2008-09-05 09:03 lexus 阅读(83) 评论(0) 编辑