1. Seq2Seq 模型

Transformer 是一個序列到序列（Sequence-to-Sequence，Seq2Seq）的模型。序列到序列模型輸入和輸出都是一個序列，輸入與輸出序列長度之間的關係有兩種情況：一是輸入跟輸出的長度一樣；二是機器自行決定輸出的長度。

2. 應用

輸入是聲音訊號的一串的 vector，輸出是語音辨識的結果，也就是輸出的這段聲音訊號，所對應的文字 ⇒ 輸出的長度由機器自己決定

Untitled

機器讀一個語言的句子，輸出另外一個語言的句子，輸入的文字的長度是 $N$，輸出的句子的長度是 $N'$，$N$ 跟 $N'$ 之間的關係也由機器自己來決定

Untitled

將聽到的英文的聲音訊號翻譯成中文文字

Untitled

問題：

把語音識別系統跟機器翻譯系統接起來就直接是語音翻譯，為何還需獨立出語音翻譯？因為世界上很多語言沒有文字，無法做語音識別。因此需要對這些語言做語音翻譯，直接把它翻譯成文字

輸入文字、輸出聲音信號就是語音合成（Text-To-Speech，TTS）

現在還沒有真的做端到端（end-to-end）的模型，以閩南語的語音合成為例，其使用的模型還是分成兩階，首先模型會先把中文的文字轉成閩南語的拼音，再把閩南語的拼音轉成聲音信號

Untitled