字体反爬—第一步弄清楚字符编码

字体反爬,顾名思义就是利用自定义的字符编码与字体文件的映射呈现文字的一种反爬措施。

在许多网站采用字体反爬策略,即替换一些字符的unicode编码并且将生成的字体文件加密后传输到前端,由前端解析并显示正常的字符。

    部分参考崔老师的一篇博客 https://cuiqingcai.com/6431.html,这篇博客讲述了处理字体反爬最初思路。但该博客只提供了大致的处理思路,受博客的启发,我整理了另一直做法来克服多个页面的不同汉字的变化。

    首先,我们要大致理解字体反爬是怎么实现的。在崔老师的博客中提及到ttf文件以及对应的xml文件。观察内容,xml文件中包含了一些映射以及字体内容。这里所谓的字体内容就是这个字的字形数据,通过这些字形数据,能勾画出字符。我们找到这个字形数据是通过unicode编码以及映射在文件里找到对应的TTGlyph标签。所以当我们使用的是服务端传来的字体文件时,能根据传来的“错误的”unicode编码去找到正确的字形数据并展示到页面上。个人猜测,服务端根据要返回的敏感信息的字生成临时的字体文件,并设新的unicode编码,返回时将字体文件内容加密传给前端,前端一律使用生成的字体文件,所以能解析传来的unicode编码。同时因为字体文件是会刷新生成的,所以崔老师博客里的代码偶尔会失效。在理清了字体反爬后,我们就可以开始做出相应的处理。

第一:字符编码

  字体爬虫就是使用类似自定义的字符编码的形式来呈现文字,字符编码的详细信息见如下

  HTML里可以用 &#字符编码; 表示一个字符,x表示编码值用十六进制表示未 表示字符编码为十六进制672A的字符 ,就是中文“未”字。

 

特殊符号 命名实体 十进制编码 特殊符号 命名实体 十进制编码 特殊符号 命名实体 十进制编码
Α Α Α Β Β Β Γ Γ Γ
Δ Δ Δ Ε Ε Ε Ζ Ζ Ζ
Η Η Η Θ Θ Θ Ι Ι Ι
Κ Κ Κ Λ Λ Λ Μ Μ Μ
Ν Ν Ν Ξ Ξ Ξ Ο Ο Ο
Π Π Π Ρ Ρ Ρ Σ Σ Σ
Τ Τ Τ Υ Υ Υ Φ Φ Φ
Χ Χ Χ Ψ Ψ Ψ Ω Ω Ω
α α α β β β γ γ γ
δ δ δ ε ε ε ζ ζ ζ
η η η θ θ θ ι ι ι
κ κ κ λ λ λ μ μ μ
ν ν ν ξ ξ ξ ο ο ο
π π π ρ ρ ρ ς ς ς
σ σ σ τ τ τ υ υ υ
φ φ φ χ χ χ ψ ψ ψ
ω ω ω ϑ ϑ ϑ ϒ ϒ ϒ
ϖ ϖ ϖ • • … …
′ ′ ″ ″ ‾ ‾
⁄ ⁄ ℘ ℘ ℑ ℑ
ℜ ℜ ™ ™ ℵ ℵ
← ← ↑ ↑ → →
↓ ↓ ↔ ↔ ↵ ↵
⇐ ⇐ ⇑ ⇑ ⇒ ⇒
⇓ ⇓ ⇔ ⇔ ∀ ∀
∂ ∂ ∃ ∃ ∅ ∅
∇ ∇ ∈ ∈ ∉ ∉
∋ ∋ ∏ ∏ ∑ −
− − ∗ ∗ √ √
∝ ∝ ∞ ∞ ∠ ∠
∧ ⊥ ∨ ⊦ ∩ ∩
∪ ∪ ∫ ∫ ∴ ∴
∼ ∼ ≅ ≅ ≈ ≅
≠ ≠ ≡ ≡ ≤ ≤
≥ ≥ ⊂ ⊂ ⊃ ⊃
⊄ ⊄ ⊆ ⊆ ⊇ ⊇
⊕ ⊕ ⊗ ⊗ ⊥ ⊥
⋅ ⋅ ⌈ ⌈ ⌉ ⌉
⌊ ⌊ ⌋ ⌋ ◊ ◊
♠ ♠ ♣ ♣ ♥ ♥
♦ ♦       ¡ ¡ ¡
¢ ¢ ¢ £ £ £ ¤ ¤ ¤
¥ ¥ ¥ ¦ ¦ ¦ § § §
¨ ¨ ¨ © © © ª ª ª
« « « ¬ ¬ ¬ ­ ­ ­
® ® ® ¯ ¯ ¯ ° ° °
± ± ± ² ² ² ³ ³ ³
´ ´ ´ µ µ &#181 " " "
< &lt; &#60; > &gt; &#62; '   &#39;

这里只是曾献部分的,详细编码链接如下:https://download.csdn.net/download/cza/2074490

posted @ 2019-11-07 15:37  白勤  阅读(387)  评论(0)    收藏  举报