ML_2021_5-2 Transformer（上）

發表於 2022-07-23 更新於 2022-08-08

seq2seq簡介

由模型來決定輸出要多長
語音辨識、機器翻譯、speech translation就是應用(Hw4做的是分類模型)
speech translation不一定是speech recognition + machine translation，因為很多語言其實並沒有文字，或不普及(ex.台語:母湯?不行?)
其實有機會直接輸入台語的聲音資料，直接輸出中文(省略再翻譯的過程)

大多數的NLP應用，都可以想成是QA問題，而QA的問題，又可以透過seq2seq model來解決
不過對於NLP的任務，通常還是會針對任務特性做一個客製化的模型，seq2seq就像是瑞士刀一樣，對大多問題都可用，但不是最佳模型
- 相關模型有另外一個課程:
  DEEP LEARNING FOR HUMAN LANGUAGE PROCESSING 2020 SPRING

- ex. 文法解析(syntactic parsing)

- 把一個樹狀的結構用括號硬解成一個sequence，參考

- 物件偵測也可以用seq2seq硬做

給定一排向量(input)，輸出一樣長度的向量
transformer中block用的技巧就是self-attention，好幾個block就是作好幾次self-attention
self-attention詳細的執行過程請參考CH4
- 避免見樹不見林，這裡解釋一下encoder步驟，下方再分開講解每個區塊在幹嘛。encoder就是先把輸入轉成vectors(input embedding)，做完positional encoding以後，連續做好幾個block
- 每一個block做:self-attention -> residual connection -> layer norm -> FC

原因暫且不討論，不過這種架構在DL被廣泛應用
做完self-attention之後在輸入到下一個block之前，需要進行一次的residual connection，就是把self-attention的輸出再加上自己原本的輸入

❗️ 與Batch norm的差別：
batch norm是把batch內不同筆data的同一個dimantion做標準化(橫向)；
而layer norm則是把同一筆data內不同dimantion做標準化(豎向)