08 2025 档案
摘要:在实际的大模型中,多个Transformer结构(层)是串联(堆叠)起来的,每一层都站在前一层“巨人”的肩膀上,使得模型对信息的理解越来越深入和精准。在2017年的原始Transformer论文中,编码器和解码器各使用了6层。 图中 Multi-Head Attention就是注意力
阅读全文
摘要:用esp32 qemu模拟器实验的,但是原理适用于多数网络设备,因为协议通用。 esp32硬件里内置mac和wlan的phy,没有内置以太网phy,真实使用时需要外接dp83848这类的phy,数据通过RMII接口发送到PHY。 MII RMII是类似SDIO的一种接口,专门用于以太网phy esp
阅读全文
浙公网安备 33010602011771号