随笔分类 -  Regular Expressions

摘要:利用正则表达式去掉网页中的HTML 标签 正则表达式HTML 抓取某网页的数据后(比如描述),如果照原样显示的话,可能会因为它里面包含没有闭合的HTML标签而打乱了格式,也可能它里面用了比较让人 "费解" 的HTML标签,把预订的格式搅乱. 如果全盘删除里面的 HTML 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分. 正则表达式里,判断 包含某些字符串 是非常容易理解的,但是如何判断 不包含某些字符串 (是字符串,不是字符,是某些,不是某个) 确实是个费解的事. <(?!((/?\s?li)|(/?\s?ul)|(/?\ 阅读全文
posted @ 2011-08-02 15:59 洗碗心得 阅读(652) 评论(0) 推荐(0)
摘要:网上正则表达式的教程够多了,但由于javascript的历史比较悠久,也比较古老,因此有许多特性是不支持的。我们先从最简单地说起,文章所演示的正则基本都是perl方式。元字符( [ { \ ^ $ | ) ? * + .预定义的特殊字符字符正则描述\t/\t/制表符\n/\n/制表符\r/\r/回车符\f/\f/换页符\a/\a/alert字符\e/\e/escape字符\cX/\cX/与X相对应... 阅读全文
posted @ 2010-03-24 11:35 洗碗心得 阅读(185) 评论(0) 推荐(0)
摘要:.:单个字符范围:[字符集合]非范围:[^字符集合]\r:回车\n:换行\t:Tab键\d:[0-9]\D:[^0-9]\w:[0-9a-zA-Z_]\W:[^0-9a-zA-Z_]\s:[\f\n\r\t\v]\S:[^\f\n\r\t\v]+:一个或多个*:0个或多个?:0个或一个{n}:匹配n个{min,max}:匹配范围{0,1}:?{0,}:*{1,}:+?:惰性匹配与贪婪匹配的区别\b... 阅读全文
posted @ 2008-12-26 09:35 洗碗心得 阅读(177) 评论(0) 推荐(0)
摘要:引言 正则表达式(regular expression)就是用一个“字符串”来描述一个特征,然后去验证另一个“字符串”是否符合这个特征。比如 表达式“ab+” 描述的特征是“一个 'a' 和 任意个 'b' ”,那么 'ab', 'abb', 'abbbbbbbbbb' 都符合这个特征。 正则表达式可以... 阅读全文
posted @ 2008-12-13 15:18 洗碗心得 阅读(174) 评论(0) 推荐(0)
摘要:一、采集器的制作的基本知识点。 1、懂一些简单的正则表达式的知识,知道些基本知识对大家在采集软件设置规则的时候是有帮助,正则表达式的一些基础知识是很容易掌握的,而绝大多数采集用的是最基本的正则表达式的内容。 如:你起码要知道"." “\n” “\s” "\d" "*" "+" "?" "{3,5}" "[3-6]"。 了解这些简单正则式的基本含义,这里不作详细详解,大家可以从网上查到资料。我个人... 阅读全文
posted @ 2008-07-14 18:45 洗碗心得 阅读(386) 评论(0) 推荐(0)
摘要:"^\d+$" //非负整数(正整数 + 0) "^[0-9]*[1-9][0-9]*$" //正整数 "^((-\d+)|(0+))$" //非正整数(负整数 + 0) "^-[0-9]*[1-9][0-9]*$" //负整数 "^-?\d+$" //整数 "^\d+(\.\d+)?$" //非负浮点数(正浮点数 + 0) "^(([0-9]+\.[0-9]*[1-9][0-9]... 阅读全文
posted @ 2008-07-14 18:45 洗碗心得 阅读(145) 评论(0) 推荐(0)
摘要:正则表达式是干什么的: 正则表达式的作用是从一个字符串中捕获符合要求的字符串。 先看一个最简单的捕获: 正则表达式 /123/ 捕获任意字符串中的 ”123”。如: “a123b” “aaab12bb13123c” 匹配: 如果一个字符串中存在至少一个捕获,就算这个正则表达式匹配此字符串。如果只存在一个捕获,而且此捕获是整个字符串,则算完全匹配。 “或”符号(“|”): 正则表达... 阅读全文
posted @ 2008-07-14 18:44 洗碗心得 阅读(272) 评论(0) 推荐(0)
摘要:"^\d+$" //非负整数(正整数 + 0) "^[0-9]*[1-9][0-9]*$" //正整数 "^((-\d+)|(0+))$" //非正整数(负整数 + 0) "^-[0-9]*[1-9][0-9]*$" //负整数 "^-?\d+$" //整数 "^\d+(\.\d+)?$" //非负浮点数(正浮点数 + 0) "^(([0-9]+\.[0-9]*[1-9][0-9]*)... 阅读全文
posted @ 2008-07-14 16:08 洗碗心得 阅读(142) 评论(0) 推荐(0)