【觀賽實記】全球最大中文 AI 語音技術擂台賽

手哥 HANDBRO

6 年前

「電腦也會選土豆」是大家對於 AI 人工智慧的第一印象，雖然從現在的角度來看那與 AI 人工智慧沒有太大的關聯。其實人工智慧已經圍繞在大家的生活，例如常見的語音辨識、相機 AI 場景辨識、投資市場預測及風險評估都可以看到 AI 的影子。

而在 AI 領域中，AI 語音技術可說是最貼近大家生活的一門技術，但光是人類就常常會錯意，對於電腦系統來說更是困難。因此科技部舉辦了據說是「史詩級」的競賽「科技大擂台：與 AI 對話」，鼓勵國內 AI 團隊建置多情境的中文語音大數據，加速中文語音對話的核心技術開發，提升我國 AI 團隊技術。

華文史上最大的 AI 語音技術競賽

「科技大擂台：與 AI 對話」這場比賽是由科技部指導，國研院科政中心舉辦，不只是台灣第一場以 AI 語音技術為主題的技術競賽，且根據臺灣大學電機工程學系李宏毅教授的說法，這場比賽無論是比賽規模、題目難度、獎金水準都是史詩級的規模。

除此之外，科技部次長許有進甚至在競賽現場宣布加碼二十萬獎金，鼓勵成績相當接近的團隊，這對官方活動來說實在相當罕見 (畢竟有預算問題)，但也顯示出政府對於培植國內 AI 語音技術產業的支持是相當積極的。

除了科技部的支持以外，為了讓團隊有更完整的語料可以訓練語音辨識引擎，公共電視台、國立教育廣播電臺、均一教育平台、政大之聲等機構提供了將近 2,000 小時的節目內容做為語料資料庫，節目範圍涵蓋各種不同領域，讓參賽團隊可以訓練出更完整的 AI 語音技術系統。

AI 語音不是 Siri 對答那麼簡單，比想像中還困難多了！

相信大部分的人都沒看過 AI 怎麼比賽，雖然好手以前做過小規模的 AI 技術研究，但多半是以 data in、information out 的方式呈現，對於 AI 語音技術的競賽方式也是第一次見識，頗為好奇。

和語言考試一樣，AI 競賽分為選擇題、簡答題兩種題型，但無論哪一種都必須先聽一段短文後才能做答，不同的是簡答題的答案必須由 AI 自己寫出完整的答案或句型，寫錯答案、詞不達意、囫圇吞棗 (?) 都是錯！

你以為很簡單嗎？來試試看閱讀這段短文 (這真的是比賽 AI 聽的題目喔！)

接著請你回答這個問題：

你花了幾秒呢？是不是又回頭重新讀了一次短文呢？在解題的過程中，其實必須經過這幾個環節：

語音辨識閱讀文章或對話
分析並理解文章或對話的內容
以符合自然語言習慣的方式回答問題

這三個環節各有困難之處，大家有用過手機的語音助理 (無論是 Google Assistant 或 Apple SIRI) 應該都知道這些「語音助理」雖然在閱讀能力上有進步，但是仍然只能聽簡短的句子 (或問句) ，能回答的問題也相當有限，除了一些如計算機、交通資訊、天氣/環境資訊、語音操作等以外，沒辦法做更進一步的應用，因為語音助理是透過是先建立好的模式 (Pattern) 做分析，台大電機工程學系李宏毅教授說：「它已經事先知道你可能會問什麼，因為全世界不只你會問這個問題」。

而 AI 語音技術就不是這麼簡單了，它必須要模擬人腦閱讀每個字句的涵義 (NLP 技術)，並且「記憶」起來，在聽到問題後 (再剖析問題) 從記憶裡推斷出最可能的答案。還沒完，最後還要將答案用符合語言習慣的句子寫出簡答題答案，這真的…難！

▲ AI 回答出來的答案，還真的頗有模有樣的

一定也會有人覺得：「現在不是已經有很多聽得懂中文的 AI 智慧音箱了嗎？」其實在 AI 的領域裡面，處處都是「家家有本難念的經」，看似相同但又處處不同，同樣是中文，在不同地方就會有不同的使用方式。例如橡皮擦就有橡擦、擦子、擦布、粉擦等不同的說法，因此 AI 語音技術還是需要非常多在地化的工作，也就是中文自然語言理解（Natural Language Understanding，NLU）技術，這正是台灣技術團隊可以努力精進的地方。

先前小米的智慧音箱剛在台灣推出時，好手也曾經訪問過當時小米台灣總經理 Hanman 相同的問題，Hanman 也表示小米台灣花了非常多的時間在訓練專屬於台灣的語料資料庫，讓一個看似簡單的產品也經過好一段時間才推出。

不過雖然如此，目前的智慧音箱其實還在語音助理的等級，還不能算是真正的智慧。

台灣團隊毫不遜色，AI 選擇題正確率達 53.7%

在「科技大擂台：與 AI 對話」競賽的決賽中，AI 需要回答 1,000 題選擇題 (放心，AI 不會爆肝沒有過勞死的問題XD) 以及 25 題簡答題。在入圍的八個隊伍中，第一名由台大電資學院師生組成的「hungyilee」團隊以 53.7% 的選擇題正確率以及 16% 的簡答正確率獲得總成績第一名。

▲競賽冠軍「hungyilee」團隊

目前「全中文 AI」語音技術在全球仍然是相當前瞻的研究，雖然目前簡答的正確率只有 16%，看似較低，不過如果將 AI 語音當作一個出生正在牙牙學語的幼兒來看卻又似曾相似：聽得懂，但伊伊阿阿講不出來 (好險 AI 不會 7pupu 罷工)，好手也很期待這些頂尖的研究團隊可以早日實現電影《鋼鐵人》中的電腦助理「Jarvis」的無所不能。

▲ 有 PTT「創世神」之稱的 AI Labs 創辦人杜奕瑾也到現場