Meta推「英台翻譯系統」背後推手是台灣人 暖心初衷曝光
來自台灣的Meta AI軟體工程師陳鵬仁。(圖/翻攝自臉書@Tech at Meta)
臉書母公司Meta成功利用AI系統,將台語(Hokkien;閩南語、福建話)同步翻譯成英文,創辦人兼執行長祖克柏(Mark Zuckerberg)也發佈影片,親自與負責這項計畫的Meta工程師陳鵬仁(Peng-Jen Chen)用英文和閩南語對話。而來自台灣的陳鵬仁表示,他的初衷是希望自己的父親能夠無障礙地,用自己熟悉的台語和任何人溝通。
根據Meta發佈的新聞稿,來自台灣的AI研究員表示,在他成長過程中大部分時間都說中文,但他70歲、已經退休的父親來自台灣南部,主要說台語,雖然他聽得懂中文,但是對中文的反應比較慢,談論到比較複雜的問題時,說話速度也會比較慢。
陳鵬仁從父親的例子發覺,語言的障礙會影響人們的溝通,所以他希望能夠讓父親能夠用閩南語和所有人溝通,因為那是父親用起來最舒服的語言,因為這個目標,陳鵬仁遂投入心力,推動這個全新的技術。
發展這個新技術的挑戰在於,大多數的AI即時翻譯技術都建構在書寫語言的基礎上,如英語、西班牙語、中文等已經有完善文字系統的語言,便可以用大量的文字來訓練AI模型,但對於台語這類沒有標準書寫系統、也沒有太多人使用的語言,要建構龐大的數據模型變得極其困難。
為克服這項挑戰,研究人員必須找到一個中間語言來連接台語和英語,以便幫助系統建立初始模型,而研究團隊選擇的是中文,「我們的團隊首先將英語或台語語音翻譯成中文文本,然後將其翻譯成台語或英語,然後將成對的句子添加到用於訓練AI模型的數據中」;研究人員還積極和以台語為母語的人合作,以確保AI翻譯模型準確程度。
Meta表示,這項技術採用開放原始碼的翻譯系統為Meta Universal Speech Translator(UST,通用語音翻譯工具)專案的一部分,研究團隊還採用總長約3萬小時的台劇作為翻譯文本。
陳鵬仁及其團隊建造的這套翻譯系統,成為沒有標準書寫文字的語言翻譯系統先驅,這項翻譯模型仍在發展中,Meta研究人員將免費向外界公開他們的模型、代碼和基準數據。在全球超過7000種現存語言中,有近半數沒有標準的書寫文字系統,Meta表示開放這些資源以翻譯這些沒有標準文字的語言,將對這個日益數位化的世界產生重大影響。