10 2021 档案

摘要:一个CAS编号以连字符“-”分为三部分,第一部分有2到7位数字,第二部分有2位数字,第三部分有1位数字作为校验码。 CAS编号以升序排列且没有任何内在含义。校验码的计算方法如下:CAS顺序号(第一、二部分数字)的最后一位乘以1,最后第二位乘以2,往前依此类推,然后再把所有的乘积相加,再把和除以10, 阅读全文
posted @ 2021-10-29 10:16 kakaok 阅读(502) 评论(0) 推荐(0)
摘要:import re from w3lib import html def parse_tags(): # 去除样式 # link_re = re.compile(r'<a.*?>') p_re = re.compile(r'<p.*?>') # span_re = re.compile(r'<spa 阅读全文
posted @ 2021-10-14 17:42 kakaok 阅读(530) 评论(0) 推荐(0)
摘要:下午在测试 Element scroll down 选择器的时候,想获取元素的a标签链接信息,可是选择器提示 Parent does not contain selected element 一开始有点摸不着头脑,尝试各种方式,后来想看看选中的每个元素的html源码是什么,测试一遍发现原来是选择范围 阅读全文
posted @ 2021-10-13 18:01 kakaok 阅读(647) 评论(0) 推荐(0)
摘要:一直用xpath提取网页数据,有些文章嵌入一些图片 a标签等,一般的通用做法是用【正则】去除,可是也很难满足要求, 尤其是要提取的内容跟图片和a标签在相同的标签里 如上图,都在p标签里,不管是内容还是图片,这时用正则也不是很灵活,现在办法是通过提取到文章主体部分,然后依次遍历每个段落, div_li 阅读全文
posted @ 2021-10-09 10:01 kakaok 阅读(1795) 评论(0) 推荐(0)