zl1bks

PyTorch中的高效张量操作库Einops

PyTorch中的高效张量操作库Einopseinops 是一个功能强大且灵活的库，用于以可读和可靠的方式操作张量。它的名字来源于 “Einstein Operations”（爱因斯坦操作），其设计的灵感来自于爱因斯坦求和约定。einops 并非 PyTorch 的一部分，而是一个独立的库，但它与 PyTorch、NumPy, TensorFlow, JAX 等深度学习框架无缝集成。使用 ein

2025-09-20

AI整理的对话笔记

残差流的本质

残差流的本质：Transformer的信息高速公路本文档整理了关于“残差流 (Residual Stream)”这一核心概念的深入讲解和探讨。理解残差流是理解现代深度神经网络（尤其是 Transformer）运作方式的钥匙。 1. 核心思想：像“审阅文档”一样处理信息，而不是“重写” 传统方式（没有残差流）：每一层网络都对输入信息进行一次彻底的“重写”。经过多层传递后，原始信息可能被严重扭曲或丢失

2025-09-20

AI整理的对话笔记

李宏毅HW03(CNN)记录

基于PyTorch的食物分类项目：从Baseline到FixMatch与TTA的实践之路引言这是让AI帮我整理的李宏毅hw03CNN，记录了相对baseline的改进，并让AI帮我把混乱的代码稍微做了重构。这次没有做模型集成，没怎么调参，最终在kaggle排行榜10%左右，过了private strong baseline。在深度学习领域，图像分类是一个基础且重要的任务。本次项目旨在对 food

2025-09-20

课程项目记录

#AI生成 #深度学习 #李宏毅《机器学习》 #CNN

Transformer归一化策略：Pre-Norm, Post-Norm与高级技巧

Transformer归一化策略：Pre-Norm, Post-Norm与高级技巧本文档整理了关于Transformer架构中层归一化（Layer Normalization）的各种策略，以及为提升训练稳定性而设计的多种技巧，并包含了相关的深入问答。 1. Pre-Norm vs. Post-Norm：归一化的位置之争Pre-Norm 和 Post-Norm 指的是在 Transformer 的一

2025-09-20

AI整理的对话笔记

Transformer中的位置编码演进：从绝对到旋转(RoPE)

Transformer中的位置编码演进：从绝对到旋转(RoPE)本文档整理了关于Transformer模型中位置编码（Positional Encoding）技术的演进过程，从最初的绝对位置编码，到相对位置编码，再到目前最主流的旋转位置编码（RoPE），并包含了对RoPE设计哲学的深入探讨。 1. 为什么需要位置编码？Transformer模型的核心是自注意力机制（Self-Attention）。

2025-09-20

AI整理的对话笔记

词向量的基石：Word2vec, 分布语义学与学习过程

词向量的基石：Word2vec, 分布语义学与学习过程本文档整理了关于词向量学习的基础理论，涵盖了Word2vec的核心思想、工作流程、数学原理，以及背后的语义学思想和学习方法。 1. Word2vec 核心思想与工作流程Word2vec的目标是为词汇表中的每一个词，学习到一个能够代表其语义的向量。其核心思想基于分布假说（Distributional Hypothesis）：一个词的意义是由它所在

2025-09-20

AI整理的对话笔记

神经网络基石：梯度、传播与激活函数

神经网络基石：梯度、传播与激活函数本文档整理了关于神经网络如何“学习”的几个最核心、最基础的概念，包括前向/反向传播、梯度消失/爆炸问题，以及ReLU激活函数的关键作用，并包含了相关的深入问答。 1. 神经网络的学习过程：一个四步循环想象教一个机器人射箭，整个学习过程可以分为四步： **猜测 (前向传播)**：机器人根据当前姿势，射出一箭。 **评估 (计算损失)**：你看靶

2025-09-20

AI整理的对话笔记

深入理解混合专家模型(MoE)的路由与训练

深入理解混合专家模型(MoE)的路由、训练与架构本文档整理了关于混合专家模型（Mixture of Experts, MoE）的详细讲解，从核心思想到具体的路由机制、训练挑战、前沿架构，并包含了相关的深入问答，旨在提供一个全面而深入的理解。 1. 核心思想：用“专家委员会”替代“全能天才”传统的“稠密模型”（Dense Model）在处理任何任务时，都需要调动其全部参数，计算成本高昂。MoE的核心

2025-09-20

AI整理的对话笔记

Transformer FFN设计：为何移除偏置项

Transformer FFN设计：为何移除偏置项本文档整理了关于现代Transformer模型在其前馈神经网络（FFN）层中通常会省略偏置项（bias terms）的原因和考虑。 1. 偏置项（Bias Terms）是什么？在原始的 Transformer 公式中，FFN层的计算如下：FFN(x) = max(0, xW₁ + b₁)W₂ + b₂ 这里的 b₁ 和 b₂ 就是偏置项。它们是可学

2025-09-20

AI整理的对话笔记

Transformer中的并行层架构

Transformer中的并行层架构本文档整理了关于Transformer架构的一种变体——“并行层”（Parallel Layers）的详细讨论，旨在解释其工作原理、优势以及实现方式。核心思想：从串行到并行在一个标准的Transformer模块里，信息的处理是分步进行的，像流水线一样：首先经过注意力层（Attention Layer），然后其输出再经过前馈网络层（MLP Layer）。两者是串

2025-09-20

AI整理的对话笔记