贝隆

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

参考

https://zhuanlan.zhihu.com/p/1927397109025473129

https://zhuanlan.zhihu.com/p/1931878660807300257#:~:text=所有的代码写到cs336_basics%2F* 下面,然后在adapters.py里调用自己的.py,需要通过所有的test。 最后的作业分为两部分,一个是code,一个是写的报告。 课程里建议用einsum来表示%40,matrix multiplication,可以更清晰的看到每个维度是如何变换的。 import, 这里用*,因为后面我们还会在layer.py里写别的。

uv环境
https://zhuanlan.zhihu.com/p/1927712586645899242
bpe实现

https://zhuanlan.zhihu.com/p/1935209292715241716
https://zhuanlan.zhihu.com/p/1926723111111340178

实现说明
https://blog.csdn.net/Bug_makerACE/article/details/149248369

分析代码cpu,memory
uv run scalene --cpu --memory cs336_basics/my_train_bpe.py

posted on 2025-08-16 09:30  贝隆  阅读(11)  评论(0)    收藏  举报