PyTorch笔记 - 开发技巧与爱因斯坦标示法(einops)-LMLPHP

NLP seq2seq代码编写技巧

数据

  1. tokenization,离散符号,翻译,划分token
  2. token2idx,将token变成idx
  3. add SoS&EoS,开头和结尾添加标识符,start of sentence,end of sentence
  4. collate_fnpad_sequencelabel=target[:,1:]decoder_input=target[:, :-1]
    1. 每一句话的长度都不一样,对于batch进行后处理,填充到最长句子的长度
    2. torch.nn.utils.rnn.pad_sequence
    3. collate_fn输入是多个训练对,batch_size
    4. label获取从第1个位置
12-08 10:51