今天要求在上一次的基础上补全地域维度并将其标准化(三级),例如130102表示河北省石家庄市长安区,统一命名规则为:省市区。
为了这一目标我想先爬取全国的三级区划代码,但是还没有爬取完一个省的区划代码便被拦截了。明天打算先解决这个问题。
此外还观看了老师提供的德拓云端里的机器学习算法里的部分内容,了解了依存语法分析标签提取,利用关键词匹配构建训练集。但是也仅仅是了解了还没有具体操作。