zl1bks
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  • 友链
AI整理的对话笔记 10
PyTorch中的高效张量操作库Einops 残差流的本质 Transformer归一化策略:Pre-Norm, Post-Norm与高级技巧 Transformer中的位置编码演进:从绝对到旋转(RoPE) 词向量的基石:Word2vec, 分布语义学与学习过程 神经网络基石:梯度、传播与激活函数 深入理解混合专家模型(MoE)的路由与训练 Transformer FFN设计:为何移除偏置项 Transformer中的并行层架构 深度可分离卷积与LoRA的哲学思辨
日常 2
可以开始写博客了 神秘测试文章
cs61b 1
工厂方法
课程项目记录 1
李宏毅HW03(CNN)记录

搜索

本站总访问量次
Hexo Fluid