---
title: 【2020 年度獲獎團隊:CC0 繁體中文句庫】跨社群開放語音字庫國家隊,繁體中文 CC0 句庫,幫台灣蓋基礎建設
tags: edu, jothon
---
# 【2020 年度獲獎團隊:CC0 繁體中文句庫】跨社群開放語音字庫國家隊,繁體中文 CC0 句庫,幫台灣蓋基礎建設
:::warning
📍 **[回首頁](https://g0v.hackmd.io/@jothon/sch001report)**
📍 **[了解零時小學校 2022 專案孵化競賽](https://sch001.g0v.tw/means/)**
:::

:::info
**CC0 繁體中文句庫**
搜集整理無版權限制的繁體中文句子,建立CC0授權、不限定任何用途的資料庫,作為中文相關專案的基礎建設。
:::
:::success
* 提案連結:https://sch001.g0v.tw/dash/prj/3UfZN402G205ov0CO104l+vAs
* 專案網站:https://github.com/irvin/cc0-sentences/
* 專案開源:MIT, CC0 1.0
* 開源資料:https://github.com/irvin/cc0-sentences/
* 團隊成員:Irvin (@irvin)
:::
文/林冠廷
身處一個處處有人工智慧的時代,Google 翻譯、蘋果 Siri 等服務,可以將我們說話的語音與文字互換。要讓機器準確聽懂人話或合成語音,電腦需先熟讀成千上萬「考古題」——即語音與原文的資料庫。可是,資料庫往往只有企業或資金雄厚的實驗室能建置,資源不足的教育單位跟不上,第一線的學生再也無法如同上一代的工程師,在學校開始應用最新技術。

### Mozilla 社群加持,幫臺灣蓋基礎建設
CC0 繁體中文句庫的專案負責人 Irvin 指出,目前國內的開放語音資料庫幾乎付之闕如。有些研究者獲得補助,但他們的成果都要付費取得,因此這個專案的目的是建立基礎建設,提供給語言或語音相關計畫自由使用:「一個國家級的資料庫,夠好、夠泛用、可商用。」
會有本專案,則與 Irvin 另一個身分有關:他是臺灣 Firefox 與 Mozilla 社群的主要貢獻者,社群在 2014 年建立「摩茲工寮」社群空間,從此成為臺北開源活動聖地。2017 年,Mozilla 為了讓電腦擁有真人發音能力,透過 Irvin 的協助,在臺北進行前期發想後,於全球推出「CommonVoice」(公共語音)專案,才促成 CC0 繁體中文句庫的誕生。
「他們網站剛開始要準備的時候,想說要找幾個語言先加進去,……我們工寮就辦了幾次 Common Voice 的 workshop 來收集句子,我記得收集了最基本的 2,500 句,後來中文就開站了。」Irvin 回憶,從此句庫就開始緩慢但穩定地成長。到了 2020 年,CC0 繁體中文句庫已坐擁超過 10,000 個句子、2,900 個不重複文字,以及 70 小時的語音內容。
### 堅持慢工出細活,用人工挑出好句子
要建立真正開放、不限制用途的句庫,社群成員需要從我們的日常對談中找到合適的句子,再讓真人念出來。無論文字或是語音檔,都要以公眾領域的版權宣告「CC0」釋出。

雖然中文有好幾萬個文字,但 Irvin 說,句庫只要涵蓋 1,567 個常用字發音,就滿足資料庫需求。相較中國版句庫使用的是維基百科,會有書面文字饒舌、不夠口語的問題,臺灣土生土長的 CC0 繁體中文句庫則以「簡單、有趣,不會有難句」為優先。他強調,「每一個句子我都有重組、讓它結構變好念。所以整個 CC0 句庫的句子,沒有一句是不好念的。」
人工挑選句子在增加資料庫品質的同時,也成為本專案發展的最大挑戰。相較於錄音容易吸引大家參與,願意花時間整理句子的人不多。「整個專案的問題是沒有句子,而不是錄音。」因此,Irvin 決定錄製影片教學,每雙週更在摩茲工寮舉辦實體聚會,就是要號召更多社群成員一起來做。
### 持續擴充中文句庫,期待加入更多語言
Irvin 說,未來一年 CC0 繁體中文句庫預計擴充到 15,000 至 20,000 句,並增加 600 個發音、700 字,涵蓋所有常用字與常用音。而許多人期待看到的臺語支援,長期關注 g0v 專案的 Irvin 則指出,希望可有更多熟練不同語言的社群成員加入,參照 iTaigi(愛臺語)等服務中的 CC0 授權內容,建立臺語句庫。

本業為前端工程師的 Irvin 回顧過去兩年經驗,他笑說自己並非專精語言的工程師,誤打誤撞啟動了中文句庫專案,卻也在佛系參與的歷程中累積不少成果。過去幾個月間,零時小學校把對教育有興趣的人、工程師、有資源的組織接在一起,更幫助他以開放、沒有限制的方式建立句庫,提供教育與其他社群自由使用。