摘要:
对CSV文件进行预处理生成无标题文本文件,将爬虫大作业产生的csv文件上传到HDFS 首先,我们需要在本地中创建一个/usr/local/bigdatacase/dataset文件夹,具体的步骤为: ① cd /usr/local ② sudo mkdir bigdatacase ③ cd bigd 阅读全文
摘要:
import requests from bs4 import BeautifulSoup from datetime import datetime import re def click(url): id =re.findall('(\d{1,5})',url)[-1] clickUrl='ht 阅读全文