幽灵蛛(pholcus)(四)--正则表达式学习资料

正则表达式和strings包相同,也是一个非常通用的包,在解析网页时肯定是没法略过它的。

转载请注明出处:http://www.cnblogs.com/SSSR/p/6347542.html

博客:

http://studygolang.com/articles/99 基础介绍

http://studygolang.com/articles/104 

http://studygolang.com/articles/5565

 

以下为测试通过代码:

regexp.go

package regexplearning

import (
	"fmt"
	"regexp"
)
import "bytes"

func RegixAll(){
	FindTest()
	FindIndexTest()
	FindStringTest()
	FindChinesString()
	FindNumOrLowerLetter()
	FindAndReplace()
}


//传入[]byte,返回[]byte
func FindTest() {
	str := "ab001234hah120210a880218end"
	reg := regexp.MustCompile("\\d{6}") //六位连续的数字
	fmt.Println("------Find------")
	//返回str中第一个匹配reg的字符串
	data := reg.Find([]byte(str))
	fmt.Println(string(data))

	fmt.Println("------FindAll------")
	//返回str中全部匹配reg的字符串
	//第二个參数表示最多返回的个数。传-1表示返回全部结果
	dataSlice := reg.FindAll([]byte(str), -1)
	for _, v := range dataSlice {
		fmt.Println(string(v))
	}
}

//传入[]byte,返回首末位置索引
func FindIndexTest() {
	fmt.Println("------FindIndex------")
	//返回第一个匹配的字符串的首末位置
	reg2 := regexp.MustCompile("start\\d*end") //start開始。end结束。中间全是数字
	str2 := "00start123endhahastart120PSend09start10000end"
	//index[0]表示開始位置,index[1]表示结束位置
	index := reg2.FindIndex([]byte(str2))
	fmt.Println("start:", index[0], ",end:", index[1], str2[index[0]:index[1]])

	fmt.Println("------FindAllIndex------")
	//返回全部匹配的字符串首末位置
	indexSlice := reg2.FindAllIndex([]byte(str2), -1)
	for _, v := range indexSlice {
		fmt.Println("start:", v[0], ",end:", v[1], str2[v[0]:v[1]])
	}
}

//传入string,返回string(更加方便)
func FindStringTest() {
	fmt.Println("------FindString------")

	str := "ab001234hah120210a880218end"
	reg := regexp.MustCompile("\\d{6}") //六位连续的数字
	fmt.Println(reg.FindString(str))
	fmt.Println(reg.FindAllString(str, -1))
	//下面两个方法是相似的
	fmt.Println(reg.FindStringIndex(str))
	fmt.Println(reg.FindIndex([]byte(str)))
}

//查找汉字
func FindChinesString() {
	str := "hello中国hello世界和平hi好"
	reg := regexp.MustCompile("[\\p{Han}]+")
	fmt.Println(reg.FindAllString(str, -1))

	//[中国 世界和平 好]
}

//查找数字或小写字母
func FindNumOrLowerLetter() {
	str := "HAHA00azBAPabc09FGabHY99"
	reg := regexp.MustCompile("[\\d|a-z]+")
	fmt.Println(reg.FindAllString(str, -1))

	//[00az abc09 ab 99]
}

//查找并替换
func FindAndReplace() {
	str := "Welcome for Beijing-Tianjin CRH train."
	reg := regexp.MustCompile(" ")
	fmt.Println(reg.ReplaceAllString(str, "@")) //将空格替换为@字符

	//Welcome@for@Beijing-Tianjin@CRH@train.
}


func RegixBase() {
	//这个测试一个字符串是否符合一个表达式。
	match, _ := regexp.MatchString("p([a-z]+)ch", "peach")
	fmt.Println(match)
	//上面我们是直接使用字符串,但是对于一些其他的正则任务,你需要使用 Compile 一个优化的 Regexp 结构体。
	r, _ := regexp.Compile("p([a-z]+)ch")
	//这个结构体有很多方法。这里是类似我们前面看到的一个匹配测试。
	fmt.Println(r.MatchString("peach"))
	//这是查找匹配字符串的。
	fmt.Println(r.FindString("peach punch"))
	//这个也是查找第一次匹配的字符串的,但是返回的匹配开始和结束位置索引,而不是匹配的内容。
	fmt.Println(r.FindStringIndex("peach punch"))
	//Submatch 返回完全匹配和局部匹配的字符串。例如,这里会返回 p([a-z]+)ch 和 `([a-z]+) 的信息。
	fmt.Println(r.FindStringSubmatch("peach punch"))
	//类似的,这个会返回完全匹配和局部匹配的索引位置。
	fmt.Println(r.FindStringSubmatchIndex("peach punch"))
	//带 All 的这个函数返回所有的匹配项,而不仅仅是首次匹配项。例如查找匹配表达式的所有项。
	fmt.Println(r.FindAllString("peach punch pinch", -1))
	//All 同样可以对应到上面的所有函数。
	fmt.Println(r.FindAllStringSubmatchIndex(
		"peach punch pinch", -1))
	//这个函数提供一个正整数来限制匹配次数。
	fmt.Println(r.FindAllString("peach punch pinch", 2))
	//上面的例子中,我们使用了字符串作为参数,并使用了如 MatchString 这样的方法。我们也可以提供 []byte参数并将 String 从函数命中去掉。
	fmt.Println(r.Match([]byte("peach")))
	//创建正则表示式常量时,可以使用 Compile 的变体MustCompile 。因为 Compile 返回两个值,不能用语常量。
	r = regexp.MustCompile("p([a-z]+)ch")
	fmt.Println(r)
	//regexp 包也可以用来替换部分字符串为其他值。
	fmt.Println(r.ReplaceAllString("a peach", "<fruit>"))
	//Func 变量允许传递匹配内容到一个给定的函数中,
	in := []byte("a peach")
	out := r.ReplaceAllFunc(in, bytes.ToUpper)
	fmt.Println(string(out))
}

  

 regexp_test.go

package regexplearning

import (
	"fmt"
	"testing"
	//"regexplearning"
)
var print=fmt.Println
func TestFindTest(t *testing.T) {
	FindTest()
	fmt.Println("Hello World!这是测试")
}

func TestRegixBase(t *testing.T) {
	RegixBase()
	fmt.Println("Hello World!这是测试")
}

func TestRegixAll(t *testing.T) {
	print("测试所有的函数")
	RegixAll()
	fmt.Println("Hello World!这是测试")
}

  

posted on 2017-01-24 17:17  徐长卿学数据分析  阅读(340)  评论(0编辑  收藏  举报