NNLM:意外诞生词嵌入的神经网络语言模型
n-gram 之后的重要技术是 NNLM(Neural Network Language Model),由Yoshua Bengio等人在 2003 年提出,原本只是想用神经网络改进语言建模,却意外地发明了词嵌入。 表示问题:从顺序编码到 one-hot
在深入 NNLM 之前…
重新理解n-gram:从统计到深度学习的桥梁
最近在梳理早期 NLP 技术时,重新归纳了 n-gram 模型。虽然现在更关注 Transformer 等架构,但回头看这些 "古老" 的方法,其实能学到很多东西。 n-gram 的基本思想
n-gram 的核心想法其实很直观:一个词出现的概率只取决于它前面的几个词(具体来说是前…
MicroGrad: 动手实现一个简单的自动微分框架
Micrograd 简介 (Introduction) Micrograd 是Andrej Karpathy打造的一个学习性项目,用于理解自动微分、反向传播等基本知识。
视频地址:https://www.bilibili.com/video/BV1De4y1p7Z8
代码地址:h…
解码LoRA: 参数高效微调的艺术与实践
论文地址:https://arxiv.org/abs/2106.09685 作者:Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang…
让万亿参数模型更简单高效——深入解读 Switch Transformer
论文地址:https://arxiv.org/abs/2101.03961 作者:Google 团队
引言
在追求更强大、更智能的人工智能模型的道路上,“越大越好” 似乎已成为一条公认的法则。然而,模型的 “大” 往往伴随着惊人的计算成本和训练难度…
BERT:开启深度双向语言理解新纪元
论文地址:https://arxiv.org/abs/1810.04805 作者:Google AI Language
引言:语言表征的求索之路与 BERT 的横空出世
在自然语言处理(NLP)的星辰大海中,如何让机器真正 “理解” 人类语言,一直是研究者们孜孜以求的核心目标…