ADD file via upload

8 months ago · 7264f942f7
parent d6b6d1be88
commit 7264f942f7
1 changed files with 48 additions and 0 deletions
--- a/position_encoding.py
+++ b/position_encoding.py
@ -0,0 +1,48 @@
+import torch
+from torch import nn
+import math
+import config
+class PositionalEncoding(nn.Module):
+    """实现Positional Encoding功能"""
+
+    def __init__(self, d_model=config.input_dim, dropout=config.dropout, max_len=config.seq_len):
+        """
+        位置编码器的初始化函数
+        :param d_model: 词向量的维度，与输入序列的特征维度相同，512
+        :param dropout: 置零比率
+        :param max_len: 句子最大长度,5000
+        """
+        super(PositionalEncoding, self).__init__()
+        # 初始化一个nn.Dropout层，设置给定的dropout比例
+        self.dropout = nn.Dropout(p=dropout)
+
+        # 初始化一个位置编码矩阵
+        # (5000,512)矩阵，保持每个位置的位置编码，一共5000个位置，每个位置用一个512维度向量来表示其位置编码
+        pe = torch.zeros(max_len, d_model)
+        # 偶数和奇数在公式上有一个共同部分，使用log函数把次方拿下来，方便计算
+        # position表示的是字词在句子中的索引，如max_len是128，那么索引就是从0，1，2，...,127
+        # 论文中d_model是512，2i符号中i从0取到255，那么2i对应取值就是0,2,4...510
+        # (5000) -> (5000,1)
+        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
+        # 计算用于控制正余弦的系数，确保不同频率成分在d_model维空间内均匀分布
+        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
+        # 根据位置和div_term计算正弦和余弦值，分别赋值给pe的偶数列和奇数列
+        pe[:, 0::2] = torch.sin(position * div_term)  # 从0开始到最后面，补长为2，其实代表的就是偶数位置
+        pe[:, 1::2] = torch.cos(position * div_term)  # 从1开始到最后面，补长为2，其实代表的就是奇数位置
+        # 上面代码获取之后得到的pe:[max_len * d_model]
+        # 下面这个代码之后得到的pe形状是：[1 * max_len * d_model]
+        # 多增加1维，是为了适应batch_size
+        # (5000, 512) -> (1, 5000, 512)
+        pe = pe.unsqueeze(0)
+        # 将计算好的位置编码矩阵注册为模块缓冲区（buffer），这意味着它将成为模块的一部分并随模型保存与加载，但不会被视为模型参数参与反向传播
+        self.register_buffer('pe', pe)
+
+    def forward(self, x):
+        """
+        x: [seq_len, batch_size, d_model]  经过词向量的输入
+        """
+        x = x + self.pe[:, :x.size(1)].clone().detach()  # 经过词向量的输入与位置编码相加
+        # Dropout层会按照设定的比例随机“丢弃”（置零）一部分位置编码与词向量相加后的元素，
+        # 以此引入正则化效果，防止模型过拟合
+        return self.dropout(x)
+