PyTorch中的高效张量操作库Einops PyTorch中的高效张量操作库Einopseinops 是一个功能强大且灵活的库,用于以可读和可靠的方式操作张量。它的名字来源于 “Einstein Operations”(爱因斯坦操作),其设计的灵感来自于爱因斯坦求和约定。einops 并非 PyTorch 的一部分,而是一个独立的库,但它与 PyTorch、NumPy, TensorFlow, JAX 等深度学习框架无缝集成。 使用 ein 2025-09-20 AI整理的对话笔记
残差流的本质 残差流的本质:Transformer的信息高速公路本文档整理了关于“残差流 (Residual Stream)”这一核心概念的深入讲解和探讨。理解残差流是理解现代深度神经网络(尤其是 Transformer)运作方式的钥匙。 1. 核心思想:像“审阅文档”一样处理信息,而不是“重写” 传统方式(没有残差流):每一层网络都对输入信息进行一次彻底的“重写”。经过多层传递后,原始信息可能被严重扭曲或丢失 2025-09-20 AI整理的对话笔记
李宏毅HW03(CNN)记录 基于PyTorch的食物分类项目:从Baseline到FixMatch与TTA的实践之路引言这是让AI帮我整理的李宏毅hw03CNN,记录了相对baseline的改进,并让AI帮我把混乱的代码稍微做了重构。这次没有做模型集成,没怎么调参,最终在kaggle排行榜10%左右,过了private strong baseline。 在深度学习领域,图像分类是一个基础且重要的任务。本次项目旨在对 food 2025-09-20 课程项目记录 #AI生成 #深度学习 #李宏毅《机器学习》 #CNN
Transformer归一化策略:Pre-Norm, Post-Norm与高级技巧 Transformer归一化策略:Pre-Norm, Post-Norm与高级技巧本文档整理了关于Transformer架构中层归一化(Layer Normalization)的各种策略,以及为提升训练稳定性而设计的多种技巧,并包含了相关的深入问答。 1. Pre-Norm vs. Post-Norm:归一化的位置之争Pre-Norm 和 Post-Norm 指的是在 Transformer 的一 2025-09-20 AI整理的对话笔记
Transformer中的位置编码演进:从绝对到旋转(RoPE) Transformer中的位置编码演进:从绝对到旋转(RoPE)本文档整理了关于Transformer模型中位置编码(Positional Encoding)技术的演进过程,从最初的绝对位置编码,到相对位置编码,再到目前最主流的旋转位置编码(RoPE),并包含了对RoPE设计哲学的深入探讨。 1. 为什么需要位置编码?Transformer模型的核心是自注意力机制(Self-Attention)。 2025-09-20 AI整理的对话笔记
词向量的基石:Word2vec, 分布语义学与学习过程 词向量的基石:Word2vec, 分布语义学与学习过程本文档整理了关于词向量学习的基础理论,涵盖了Word2vec的核心思想、工作流程、数学原理,以及背后的语义学思想和学习方法。 1. Word2vec 核心思想与工作流程Word2vec的目标是为词汇表中的每一个词,学习到一个能够代表其语义的向量。其核心思想基于分布假说(Distributional Hypothesis):一个词的意义是由它所在 2025-09-20 AI整理的对话笔记
神经网络基石:梯度、传播与激活函数 神经网络基石:梯度、传播与激活函数本文档整理了关于神经网络如何“学习”的几个最核心、最基础的概念,包括前向/反向传播、梯度消失/爆炸问题,以及ReLU激活函数的关键作用,并包含了相关的深入问答。 1. 神经网络的学习过程:一个四步循环想象教一个机器人射箭,整个学习过程可以分为四步: **猜测 (前向传播)**:机器人根据当前姿势,射出一箭。 **评估 (计算损失)**:你看靶 2025-09-20 AI整理的对话笔记
深入理解混合专家模型(MoE)的路由与训练 深入理解混合专家模型(MoE)的路由、训练与架构本文档整理了关于混合专家模型(Mixture of Experts, MoE)的详细讲解,从核心思想到具体的路由机制、训练挑战、前沿架构,并包含了相关的深入问答,旨在提供一个全面而深入的理解。 1. 核心思想:用“专家委员会”替代“全能天才”传统的“稠密模型”(Dense Model)在处理任何任务时,都需要调动其全部参数,计算成本高昂。MoE的核心 2025-09-20 AI整理的对话笔记
Transformer FFN设计:为何移除偏置项 Transformer FFN设计:为何移除偏置项本文档整理了关于现代Transformer模型在其前馈神经网络(FFN)层中通常会省略偏置项(bias terms)的原因和考虑。 1. 偏置项(Bias Terms)是什么?在原始的 Transformer 公式中,FFN层的计算如下:FFN(x) = max(0, xW₁ + b₁)W₂ + b₂ 这里的 b₁ 和 b₂ 就是偏置项。它们是可学 2025-09-20 AI整理的对话笔记
Transformer中的并行层架构 Transformer中的并行层架构本文档整理了关于Transformer架构的一种变体——“并行层”(Parallel Layers)的详细讨论,旨在解释其工作原理、优势以及实现方式。 核心思想:从串行到并行在一个标准的Transformer模块里,信息的处理是分步进行的,像流水线一样:首先经过注意力层(Attention Layer),然后其输出再经过前馈网络层(MLP Layer)。两者是串 2025-09-20 AI整理的对话笔记