生成文字、圖片、影像還不滿足 OpenAI推出「聲音模仿」AI工具…15秒片段就能搞定
編輯:廖梓翔 | 2024-03-30 12:36
(示意圖/pixabay)
在生成式聊天機器人ChatGPT問世之後,其所屬公司OpneAI之後又推出圖片生成、影像生成等相關AI工具,每次出現都撼動整個業界,堪稱是業界最頂尖的AI公司。而如今有消息指出,OpneAI已經完成了「模仿聲音」的AI生成工具,只需要15秒片段就能完成生成。
根據《Tech Crunch》報導指出,OpenAI在官方網站上宣布,他們自2022年底就著手進行開發AI語音引擎,可以透過該項引擎將文字轉語音,或是讓ChatGPT直接使用語音的方式進行溝通(其實目前ChatGPT的手機版已經有語音溝通的功能)。
但考量DeepFake等相關技術恐會產生的困擾與資訊安全上的麻煩,因此OpenAI目前雖然已經將該套軟體研發到一定程度,但並沒有正式對外公布,而是採用小規模的測試方式,一邊聽取使用者的建議,同時也在構思該如何避免產品問世後遭到濫用。
而實際透過OpenAI所演示的內容來看,官方宣稱只需要一段15秒的語音片段,就可以透過AI語音引擎聲成相對應的片段,而且可以透過AI翻譯文字的功能,讓語音以各種不同語言的方式呈現。比如採集的目標可能原本母語是西班牙文,但是透過聲音模型的採集,再透過AI的文版輸入,就可以收到採集目標的聲音說著日文或是中文的片段。
雖說目前為止,OpenAI所演示出來的仍有不自然感以及強烈的播報腔,但整體水準已經維妙維肖,沒有特別告知的話,頂多會覺得「不自然」,而非覺「這有造假」。OpenAI方面也表示,會直到解決相關的安全性與造假的問題後,才會選擇公布這套AI語音引擎。目前內部正在研究在輸出的聲音內添加「浮水印」的方式,來達到便是以及追蹤來源的目標。