計畫名稱:語言典藏

計畫主持人︰何大安 Dah-An Ho

主要典藏說明︰

  「語言典藏」計畫是以「語言」為數位化典藏對象,包含「臺灣南島語典藏」及「漢語典藏與典藏架構」兩部份;典藏品型態包含語料文獻、聲音、多媒體語音。

  「漢語典藏與典藏架構」的計畫目標,是針對時間軸上的歷代詞彙進行典藏,包括:

  1. 建立先秦金文簡牘詞彙資料庫,對青銅器銘文和簡牘文字作精確的標誌與分析。  
  2. 建立近代漢語標記語料庫,將近代漢語時期的文獻詞彙進行詞類分析,架構成有系統的知識庫。  
  3. 擴大建立現代漢語平衡語料庫,務求語料能真正呈現時代語言中的多面向內容;並構建現代漢語句結構資料庫,使語料能充份運用於資訊檢索、擷取、自動問答、摘要等典藏處理應用上的附加價值。  
  4. 新世紀語料庫-多媒體的語言呈現與典藏,記錄當代臺灣漢語真正口語使用的情形,再就多元化的主題設計而產生的時間、地點、人物、事物的語言討論內容數位化,並予以後設資料的典藏與保存。  
  5. 建立空間軸上的漢語方言-閩南語典藏,從歷史語言與分佈變遷二個角度,結合文獻與生活語言,進行標誌與分析。目標之一為構建閩南語文獻標記語料庫;目標之二為記錄語言分佈變遷的地理資訊系統,以閩客雜居的新竹縣新豐鄉為對象,調查居民用語變化,分析記錄閩客用語交互之影響。

  「臺灣南島語典藏」目的在保存瀕臨滅絕的臺灣南島語言。臺灣原住民語言屬於一個分佈很廣,語言現象又極為豐富的語族,稱為「南島語族」;南島語族現今分佈遍及整個太平洋及印度洋。臺灣的南島語言呈現極大的變異,其中有很多仍未被探索。大多數的臺灣南島語言仍未有文字記載,幾乎面臨消失的命運,一旦語言或方言的使用者不復存在,這個語言或方言也就跟著消失,毫無記錄可循。因此目前除了以各種方式延續語言的生命外,更實際的作法即是蒐集和保存現有的語料。本計畫建立「臺灣南島語數位典藏」的目的之一為蒐集、彙整、編輯、流通這些語料並利用網際網路(Internet)散播;除了聲音的數位化與記音保存,分析語言結構、標記、中英文翻譯也是重要的執行工作之一。預計典藏的語言有十一種:魯凱語、雅美語、鄒語、賽夏語、泰雅語、排灣語、布農語、阿美語、卑南語、卡那卡那富語、巴宰語。

網路資源︰

語言典藏 http://languagearchives.sinica.edu.tw
漢語典藏與典藏架構-
   近代漢語詞彙庫  http://www.sinica.edu.tw/Early_Mandarin/
   先秦金文簡牘詞彙資料庫  http://inscription.sinica.edu.tw/
   二十世紀漢語語料庫與句法結構資料庫  http://www.sinica.edu.tw/SinicaCorpus/
   中央研究中文句結構樹資料庫  http://treebank.sinica.edu.tw/
   新世紀語料庫-多媒體的語言呈現與典藏  http://mmc.sinica.edu.tw/
   閩南語典藏-歷史語言與分佈變遷資料庫  http://southernmin.sinica.edu.tw/
臺灣南島語典藏-
   臺灣南島語語料庫,詞彙庫,與語法  http://formosan.sinica.edu.tw

語言典藏計畫 資料庫列表
「近代漢語標記語料庫」是為了歷史語言研究而設計的一個語料庫。這個語料庫包含了對近代漢語(從唐代到清代)語法及詞彙研究較為有用的一些近代漢語語料,同時也提供一個具有搜尋、統計、排比等功能的程式以資利用。語料庫中的每個文本都經過斷詞並附加了詞類標記。目前可供線上檢索的語料包括以下十部古典文獻:《紅樓夢》、《金瓶梅》、《平妖傳》、《水滸傳》、《儒林外史》、《醒世姻緣》、《西遊記》、《關漢卿戲曲集》、《元刊雜劇三十種》、《永樂大典戲文三種》。
「臺灣南島語數位典藏」是國科會數位典藏國家型機構計畫下分項主題「語言典藏」的子計畫之一,整體建置作業之規劃暨主持人為齊莉莎女士。此計畫之建置目的在於建立一數位圖書館(digital library),期能蒐集、保存、編輯及透過網路散播語言資源,供使用者存取已錄製及記音的南島語。第一期計畫為:2002-2006,現在已經進入第二期計畫:2007-2011。「臺灣南島語數位典藏」(http://formosan.sinica.edu.tw)的建置已經接近六年了,包括語料庫、語言地理系統及書目資料庫等,最終目標為建立所有臺灣南島語的語音、詞彙、單句和長篇語料,並加以中、英文翻譯。在應用上,所設計的語料庫查詢介面可讓使用者依語言及方言別和類別等參數自訂語料庫的檢索範圍,做統計及比較研究。語言地理資訊系統的應用則是希望讓使用者了解臺灣南島語的分布圖,並觀察同源詞與非同源詞的分布情形。此外,所建立的臺灣南島語書目資料庫可以檢索下列不同的書目資訊:語言學、語言教學、文學及音樂等。
「現代漢語主題對話語音語料庫」所處理及典藏的語言暨語料收集時間為二○○二年一月至三月期間;在情境設計上,主要以熟識者之間的自然對話,兩位發音人選定二○○一年中發生之一特定新聞主題或事件進行對談。發音人總共60位,為14-25歲(14位)、26-35歲(14位)及36-63歲(32位);總共錄製30組對話,共約11小時,每個對話平均長度約22分鐘。標記集的訂定架構為言談標記,言談標記集乃由開頭,主體及結尾三大部份所組成,開頭由一般開場,主題討論或主題引介所組成,主體則是進入對話時針對主題討論時而產生的語用指涉暨現象作標記,結尾的部分則為一般結尾。為完整與日後的後設資料處理作結合,語料庫裡的聲音處理均已全部轉為立體聲wav檔作為數位典藏,音檔大小共為6.8GB;文字處理方面,以自行開發的TransList介面進行轉寫與標記,總字數為20萬字
閩南語和客家話是漢語的主要方言,是重要的語言資產,主要分佈於福建南部、廣東、臺灣與東南亞,但受到學校教育、媒體大量使用國語(普通話)的影響,這二種語言能使用的人口有越來越少的傾向,成為相對的弱勢語言,亟待研究與保存。然而目前學界尚未有詳細標記的閩客語文獻語料庫,致使研究上,往往事倍功半。 臺灣人口流通量大而頻繁,語言接觸日益密切,語言生態丕變,方言中的「地區變體」與「社會變體」之消長分合,變化快速。近年方有學者開始積極調查繪製臺灣地區語言地圖,然電子語言地圖的繪製還在起步階段,展現語言分佈變遷情況的語言地圖更付之闕如。 本計畫為中央研究院「語言典藏」分項計畫「漢語典藏與典藏架構」的五個子計畫之一,擬以大眾文學之劇本、歌仔冊二種文體為範圍,建立閩南語、客家語語料庫。並以閩客雜居的新竹縣新豐鄉為對象,調查居民用語,研究閩客用語交互之影響。從歷史語言與語言分佈兩點切入,結合文獻語言與生活語言,進行語言標誌,建置閩客語語料庫、詞彙庫與語言分布地理資訊系統,為學界提供有力的研究工具。 由於新竹縣新豐鄉是閩客雜居的鄉鎮,所以本計畫以新竹新豐鄉為範圍,進行語言分佈的調查研究,發展語言分佈地理資訊系統。