上一页 1 2 3 4 5 6 7 ··· 11 下一页
摘要: 一个CAS编号以连字符“-”分为三部分,第一部分有2到7位数字,第二部分有2位数字,第三部分有1位数字作为校验码。 CAS编号以升序排列且没有任何内在含义。校验码的计算方法如下:CAS顺序号(第一、二部分数字)的最后一位乘以1,最后第二位乘以2,往前依此类推,然后再把所有的乘积相加,再把和除以10, 阅读全文
posted @ 2021-10-29 10:16 kakaok 阅读(529) 评论(0) 推荐(0)
摘要: import re from w3lib import html def parse_tags(): # 去除样式 # link_re = re.compile(r'<a.*?>') p_re = re.compile(r'<p.*?>') # span_re = re.compile(r'<spa 阅读全文
posted @ 2021-10-14 17:42 kakaok 阅读(544) 评论(0) 推荐(0)
摘要: 下午在测试 Element scroll down 选择器的时候,想获取元素的a标签链接信息,可是选择器提示 Parent does not contain selected element 一开始有点摸不着头脑,尝试各种方式,后来想看看选中的每个元素的html源码是什么,测试一遍发现原来是选择范围 阅读全文
posted @ 2021-10-13 18:01 kakaok 阅读(670) 评论(0) 推荐(0)
摘要: 一直用xpath提取网页数据,有些文章嵌入一些图片 a标签等,一般的通用做法是用【正则】去除,可是也很难满足要求, 尤其是要提取的内容跟图片和a标签在相同的标签里 如上图,都在p标签里,不管是内容还是图片,这时用正则也不是很灵活,现在办法是通过提取到文章主体部分,然后依次遍历每个段落, div_li 阅读全文
posted @ 2021-10-09 10:01 kakaok 阅读(1813) 评论(0) 推荐(0)
摘要: # -*- coding: utf-8 -*- import pandas as pd IO = "ABC.xlsx" df = pd.DataFrame(pd.read_excel(io=IO, sheet_name="翻译列表")) for index, row in df.iterrows() 阅读全文
posted @ 2021-09-06 16:27 kakaok 阅读(2947) 评论(0) 推荐(0)
摘要: 一直使用xpath和css提取数据,但是有些时候需要处理一些数字,使用正则相对来说更简单些 比如 只想提取a标签里的245,用xpath和css还需要特殊处理 1 page_list = response.xpath( 2 '//div[@class="paging_content"]/div[@c 阅读全文
posted @ 2021-08-25 15:09 kakaok 阅读(264) 评论(0) 推荐(0)
摘要: 之前处理超时异常时都在downloadmiddleware中处理,但是总感觉很费劲 今天查文档发现可在errback回调中处理 from scrapy.spidermiddlewares.httperror import HttpError from twisted.internet.error i 阅读全文
posted @ 2021-08-24 18:03 kakaok 阅读(677) 评论(0) 推荐(0)
摘要: NaN是 not a number的缩写,pymongo尝试了多种查询方式发现都不起作用, 发现利用numpy中的nan类型可以查询处理 coll.find({"price": np.nan}, no_cursor_timeout=True) 阅读全文
posted @ 2021-06-21 11:43 kakaok 阅读(733) 评论(0) 推荐(0)
摘要: Edge的启动方式与之前的启动有些差异 from selenium import webdriver from msedge.selenium_tools import EdgeOptions from msedge.selenium_tools import Edge def TransByEdg 阅读全文
posted @ 2021-06-17 11:38 kakaok 阅读(2732) 评论(0) 推荐(0)
摘要: import re def parse(): # 匹配所有的a标签 link_re = re.compile(r'<a.*?>') p_re = re.compile(r'<p.*?>') span_re = re.compile(r'<span.*?>') font_re = re.compile 阅读全文
posted @ 2021-06-16 15:21 kakaok 阅读(524) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 11 下一页