备赛数据安全大赛2025
1、问题1,如何爬取一个网站的数据?
你会爬取一个网站的数据吗?
你会爬取一个有保护的网站的数据吗?保护主要是不允许python工具访问。需要user agent
你会爬取一个接口的网站数据吗?多页的
你会爬取登录后才能爬取数据的网站吗?cookie
你会把爬取的数据保存到本地的csv吗?
2、问题2,处理csv
如果有一个本地csv,你会对比你保存的csv和这个csv的差别吗?
你会给你的csv中的数据脱敏吗?比如手机号从13800000000改为138****0000
你会给csv中的数据进行唯一性处理吗?确认某列是否唯一值。
你会根据某列数据的特征进行脱敏吗?比如32.44变为37.44,33.44变为28.44 就是说根据数据的个位奇偶性,+5或者-5
3、零宽字符
使用sublime或者cyberchef ,
浙公网安备 33010602011771号