12 2017 档案
摘要:在测试中发现之前构造的正则表达式 总是在一次匹配中匹配两个<li>标签以及两标签中间的内容.现在经过分析发现了问题. 上一篇中构造的正则表达式String regex = "<li[^>n].*>[\\s\\S]+?</li>";经测试此正则表达式的前一部分 "<li[^>n].*>" 即可匹配一个
阅读全文
摘要:写了一个小程序抓取到了百度新闻首页的源码。接下来要获取新闻页网址。 分析发现,网址大多嵌在<li>标签里的<a>标签中。首先通过正则表达获取<li>标签。 运行效果:<li>标签及其子标签全部匹配
阅读全文
摘要:一、正则表达式 一个正则表达式是含有一些具有特殊意义字符的字符串,这些字符称作正则表达式中的元字符。例如“\\dcat”中的\\d就是具有特殊意义的元字符,代表0到9中的任何一个字符。 表1 元字符 . \d \D \s \S \w \W \p{punct} . \\d \\D \\s \\S \\
阅读全文

浙公网安备 33010602011771号