08 2025 档案

摘要:在实际的大模型中,​​多个Transformer结构(层)是串联(堆叠)起来的​​,每一层都站在前一层“巨人”的肩膀上,使得模型对信息的理解越来越深入和精准。在2017年的原始Transformer论文中,编码器和解码器各使用了​​6层​​。 图中 Multi-Head Attention就是注意力 阅读全文
posted @ 2025-08-27 23:12 园友1683564 阅读(502) 评论(0) 推荐(0)
摘要:用esp32 qemu模拟器实验的,但是原理适用于多数网络设备,因为协议通用。 esp32硬件里内置mac和wlan的phy,没有内置以太网phy,真实使用时需要外接dp83848这类的phy,数据通过RMII接口发送到PHY。 MII RMII是类似SDIO的一种接口,专门用于以太网phy esp 阅读全文
posted @ 2025-08-10 15:31 园友1683564 阅读(69) 评论(0) 推荐(1)