使用正则表达式sub实现数据清洗

1、爬取的数据如下:

         <div class="job-detail">
        <p>此岗位长期驻点客户方</p>
<p>职位描述:<br></p>
<p>1、负责教育中台服务端的算法与工程的设计和研发工作;</p>
<p>2、运用工程及算法能力实现教育领域的产品落地</p>
<p>3、主要实现语言为Python / Golang。</p>
<p>&nbsp;</p>
<p>职位要求:</p>
<p>1、大学本科(统招)及以上学历,计算机、通信等相关专业;</p>
<p>2、有扎实的编程能力,掌握Python,Golang,Java,C++等任意一种后端编程语言</p>
<p>3、深刻理解计算机原理,有良好的数据结构和算法基础,能够通过算法解决效率问题</p>
<p>4、熟悉Mysql、Memcache、Redis、消息队列等常用WEB组件;</p>
<p>5、有较好的产品意识优先;</p>
<p>6、积极乐观,责任心强,工作认真细致,具有良好的团队沟通与协作能力;</p>
<p>&nbsp;</p>
<p>HC数量:根据招聘进展来定</p>
<p>学历是否专科也考虑:本科的化1一年以上即可,专科可以考虑,但要求3年及以上</p>
<p>&nbsp;</p>
        </div> 

2、清洗思路:

        使用正则表达式sub将不需要的内容替换为空即可

 

3、程序源码:

      import re

      def main():

        data = """<div class="job-detail">
        <p>此岗位长期驻点客户方</p>
<p>职位描述:<br></p>
<p>1、负责教育中台服务端的算法与工程的设计和研发工作;</p>
<p>2、运用工程及算法能力实现教育领域的产品落地</p>
<p>3、主要实现语言为Python / Golang。</p>
<p>&nbsp;</p>
<p>职位要求:</p>
<p>1、大学本科(统招)及以上学历,计算机、通信等相关专业;</p>
<p>2、有扎实的编程能力,掌握Python,Golang,Java,C++等任意一种后端编程语言</p>
<p>3、深刻理解计算机原理,有良好的数据结构和算法基础,能够通过算法解决效率问题</p>
<p>4、熟悉Mysql、Memcache、Redis、消息队列等常用WEB组件;</p>
<p>5、有较好的产品意识优先;</p>
<p>6、积极乐观,责任心强,工作认真细致,具有良好的团队沟通与协作能力;</p>
<p>&nbsp;</p>
<p>HC数量:根据招聘进展来定</p>
<p>学历是否专科也考虑:本科的化1一年以上即可,专科可以考虑,但要求3年及以上</p>
<p>&nbsp;</p>
        </div>"""

       ret = re.sub(r"[</>a-zA-Z&]","",data)

       print(ret)

清洗结果:

    

posted @ 2020-05-11 11:10  hl爱编程  阅读(549)  评论(0)    收藏  举报