中研院 AI 模型見中國式回答引爭議　國科會臺版 ChatGPT「TAIDE 計畫」負責人：只用臺灣文本資料／沃草

【沃草】記者廖昱涵報導

中研院日前釋出的 AI 模型竟使用中國資料集，導致出現許多中國式回答，像是「我的國籍是中國」、「我國最高領導人是習近平」，引起爭議遭迅速下架。中研院長廖俊智今（12）日備詢指出，該名研究人員求快心切，將未完成測試的軟體上架，已深切反省，同時規劃 AI 風險研究小組。至於外界擔憂，由國科會集結產官學打造的臺版 ChatGPT「TAIDE 計畫」是否也有統戰風險？計畫負責人、中研院資創中心資通安全專題中心執行長李育杰指出，TAIDE 是以國內的文本資料出發、源頭完全乾淨，也會經由濾除的過程，防止不當結果產生。

TAIDE 計畫負責人、陽明交大應數系教授、中研院資創中心資通安全專題中心執行長李育杰（攝影／廖昱涵）

中央研究院詞庫小組，日前發布的繁體中文大型語言模型 CKIP-LlaMa-2-7b，經測試竟發現使用中國開源資料集，導致詢問最高領導人時，竟回答中國的國家主席習近平等中國式回應。目前測試版雖已下架，適逢立法院教育及文化委員會排程中研院院長廖俊智進行專案報告，語言模型的出包也成朝野立委關注焦點。

中研院資訊所所長廖弘源解釋，該名年輕的研究員在做數位文化中心明清人物的時空地圖計畫，由於缺乏資料及經費建置資料庫，於是直接拿中國的資料集並轉成繁體，但沒想到資料集所隱含的價值觀也被弄進來。

廖弘源表示，研究員較年輕，不知道其中的敏感度。他也澄清，這不是國科會的大型語言資料庫計畫的一部分。

廖俊智也坦言，這是研究人員求快心切，把尚未完成測試的軟體，以開源的精神上網讓大家一起測試，是有待商榷的行為，該人員已深切反省。中研院也從這起事情學到很多正面教訓，體認到繁體中文的語言詞彙非常重要，要大家一起來做，後續也有詳細規劃。

中研院院長廖俊智（攝影／廖昱涵）

廖俊智也指出，目前 AI 風險小組正在規劃當中，會儘快進行。國際上也都在針對 AI 進行控管，學習 AI 這個未知數的衝擊。所謂生成式 AI，基於生成的本質，必須做些沒做過的事情，就容易出現所謂的「幻覺（hallucination）」，意指非基於事實、自行生成的概念，這是生成式 AI 的基本功能與問題，全球都在適應學習中。

臺版 ChatGPT「TAIDE 計畫」有統戰風險？負責人：資料源頭完全乾淨

民進黨立委張廖萬堅指出，目前國科會也有臺版的 ChatGPT「TAIDE （Trustworthy AI Dialog Engine）計畫」，要建立出繁體中文的語言資料庫，因為現在市面上的 AI 都是英文或簡中，所以繁中對於臺灣防止中國偏見的滲入非常重要。他質疑，TAIDE 計畫未來怎麼去管控相關風險？

「其實從資料源頭就要處置！」計畫負責人、中研院資創中心資通安全專題中心執行長李育杰指出，TAIDE 計畫從資料開始，就以國內的文本資料，尤其可以濾除一些不當的言詞，從技術上做得到，這叫 Continuous Pre-Trained（預訓練），是第一階段。還有第二階段的 Fine-tuning（微調）、第三階段的 reinforcement learning with human feedback（人工回饋強化式學習），意即要有人為的標注，以及最近流行的憲政 AI，都是在防止不當結果的產生。