使用正则表达式sub实现数据清洗
1、爬取的数据如下:
<div class="job-detail">
<p>此岗位长期驻点客户方</p>
<p>职位描述:<br></p>
<p>1、负责教育中台服务端的算法与工程的设计和研发工作;</p>
<p>2、运用工程及算法能力实现教育领域的产品落地</p>
<p>3、主要实现语言为Python / Golang。</p>
<p> </p>
<p>职位要求:</p>
<p>1、大学本科(统招)及以上学历,计算机、通信等相关专业;</p>
<p>2、有扎实的编程能力,掌握Python,Golang,Java,C++等任意一种后端编程语言</p>
<p>3、深刻理解计算机原理,有良好的数据结构和算法基础,能够通过算法解决效率问题</p>
<p>4、熟悉Mysql、Memcache、Redis、消息队列等常用WEB组件;</p>
<p>5、有较好的产品意识优先;</p>
<p>6、积极乐观,责任心强,工作认真细致,具有良好的团队沟通与协作能力;</p>
<p> </p>
<p>HC数量:根据招聘进展来定</p>
<p>学历是否专科也考虑:本科的化1一年以上即可,专科可以考虑,但要求3年及以上</p>
<p> </p>
</div>
2、清洗思路:
使用正则表达式sub将不需要的内容替换为空即可
3、程序源码:
import re
def main():
data = """<div class="job-detail">
<p>此岗位长期驻点客户方</p>
<p>职位描述:<br></p>
<p>1、负责教育中台服务端的算法与工程的设计和研发工作;</p>
<p>2、运用工程及算法能力实现教育领域的产品落地</p>
<p>3、主要实现语言为Python / Golang。</p>
<p> </p>
<p>职位要求:</p>
<p>1、大学本科(统招)及以上学历,计算机、通信等相关专业;</p>
<p>2、有扎实的编程能力,掌握Python,Golang,Java,C++等任意一种后端编程语言</p>
<p>3、深刻理解计算机原理,有良好的数据结构和算法基础,能够通过算法解决效率问题</p>
<p>4、熟悉Mysql、Memcache、Redis、消息队列等常用WEB组件;</p>
<p>5、有较好的产品意识优先;</p>
<p>6、积极乐观,责任心强,工作认真细致,具有良好的团队沟通与协作能力;</p>
<p> </p>
<p>HC数量:根据招聘进展来定</p>
<p>学历是否专科也考虑:本科的化1一年以上即可,专科可以考虑,但要求3年及以上</p>
<p> </p>
</div>"""
ret = re.sub(r"[</>a-zA-Z&]","",data)
print(ret)
清洗结果:

本文来自博客园,作者:hl爱编程,转载请注明原文链接:https://www.cnblogs.com/hlprogrammer/p/12867849.html

浙公网安备 33010602011771号