MicroGrad: 动手实现一个简单的自动微分框架
Micrograd 简介 (Introduction) Micrograd 是Andrej Karpathy打造的一个学习性项目,用于理解自动微分、反向传播等基本知识。
视频地址:https://www.bilibili.com/video/BV1De4y1p7Z8
代码地址:h…
解码LoRA: 参数高效微调的艺术与实践
论文地址:https://arxiv.org/abs/2106.09685 作者:Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang…
让万亿参数模型更简单高效——深入解读 Switch Transformer
论文地址:https://arxiv.org/abs/2101.03961 作者:Google 团队
引言
在追求更强大、更智能的人工智能模型的道路上,“越大越好” 似乎已成为一条公认的法则。然而,模型的 “大” 往往伴随着惊人的计算成本和训练难度…
BERT:开启深度双向语言理解新纪元
论文地址:https://arxiv.org/abs/1810.04805 作者:Google AI Language
引言:语言表征的求索之路与 BERT 的横空出世
在自然语言处理(NLP)的星辰大海中,如何让机器真正 “理解” 人类语言,一直是研究者们孜孜以求的核心目标…