随笔分类 - 科技查新数据分析系统【毕设】
摘要:今天在处理数据的时候遇到一个,需要用正则表达式匹配不包含某字符的字符串的问题,用到否定匹配,现总结如下: 一个正则小知识 ↓ []:表示范围,匹配其中任何一个 {}:表示重复匹配多次。 ():表示分组,意思就是括号内是一个整体。 (?=pattern)正向肯定环视。例如“Windows(?=95|9
阅读全文
摘要:科技报告语料处理 接着上次爬取到的科技报告数据进行处理【参考 https://www.cnblogs.com/rainbow-1/p/16725576.html】 为了建立科技报告的分类模型,现将其关键字和中图分类名称进行汇总,作为原始语料库。 先前爬取的数据,存在数据格式不统一不规范的问题,比如分
阅读全文
摘要:按学科分类【中图分类】 共计三十余万条科技报告数据 爬取的网址:https://www.nstrs.cn/kjbg/navigation !!! 如果要完整地跑起来代码,需要先看一下我的这篇博客,完成IP代理池的相关配置: https://www.cnblogs.com/rainbow-1/p/16
阅读全文

浙公网安备 33010602011771号