10 2021 档案
摘要:一个CAS编号以连字符“-”分为三部分,第一部分有2到7位数字,第二部分有2位数字,第三部分有1位数字作为校验码。 CAS编号以升序排列且没有任何内在含义。校验码的计算方法如下:CAS顺序号(第一、二部分数字)的最后一位乘以1,最后第二位乘以2,往前依此类推,然后再把所有的乘积相加,再把和除以10,
阅读全文
摘要:import re from w3lib import html def parse_tags(): # 去除样式 # link_re = re.compile(r'<a.*?>') p_re = re.compile(r'<p.*?>') # span_re = re.compile(r'<spa
阅读全文
摘要:下午在测试 Element scroll down 选择器的时候,想获取元素的a标签链接信息,可是选择器提示 Parent does not contain selected element 一开始有点摸不着头脑,尝试各种方式,后来想看看选中的每个元素的html源码是什么,测试一遍发现原来是选择范围
阅读全文
摘要:一直用xpath提取网页数据,有些文章嵌入一些图片 a标签等,一般的通用做法是用【正则】去除,可是也很难满足要求, 尤其是要提取的内容跟图片和a标签在相同的标签里 如上图,都在p标签里,不管是内容还是图片,这时用正则也不是很灵活,现在办法是通过提取到文章主体部分,然后依次遍历每个段落, div_li
阅读全文