【沃草】記者廖昱涵報導
中研院日前釋出的 AI 模型竟使用中國資料集,導致出現許多中國式回答,像是「我的國籍是中國」、「我國最高領導人是習近平」,引起爭議遭迅速下架。中研院長廖俊智今(12)日備詢指出,該名研究人員求快心切,將未完成測試的軟體上架,已深切反省,同時規劃 AI 風險研究小組。至於外界擔憂,由國科會集結產官學打造的臺版 ChatGPT「TAIDE 計畫」是否也有統戰風險?計畫負責人、中研院資創中心資通安全專題中心執行長李育杰指出,TAIDE 是以國內的文本資料出發、源頭完全乾淨,也會經由濾除的過程,防止不當結果產生。
中央研究院詞庫小組,日前發布的繁體中文大型語言模型 CKIP-LlaMa-2-7b,經測試竟發現使用中國開源資料集,導致詢問最高領導人時,竟回答中國的國家主席習近平等中國式回應。目前測試版雖已下架,適逢立法院教育及文化委員會排程中研院院長廖俊智進行專案報告,語言模型的出包也成朝野立委關注焦點。
中研院資訊所所長廖弘源解釋,該名年輕的研究員在做數位文化中心明清人物的時空地圖計畫,由於缺乏資料及經費建置資料庫,於是直接拿中國的資料集並轉成繁體,但沒想到資料集所隱含的價值觀也被弄進來。
廖弘源表示,研究員較年輕,不知道其中的敏感度。他也澄清,這不是國科會的大型語言資料庫計畫的一部分。
廖俊智也坦言,這是研究人員求快心切,把尚未完成測試的軟體,以開源的精神上網讓大家一起測試,是有待商榷的行為,該人員已深切反省。中研院也從這起事情學到很多正面教訓,體認到繁體中文的語言詞彙非常重要,要大家一起來做,後續也有詳細規劃。
廖俊智也指出,目前 AI 風險小組正在規劃當中,會儘快進行。國際上也都在針對 AI 進行控管,學習 AI 這個未知數的衝擊。所謂生成式 AI,基於生成的本質,必須做些沒做過的事情,就容易出現所謂的「幻覺(hallucination)」,意指非基於事實、自行生成的概念,這是生成式 AI 的基本功能與問題,全球都在適應學習中。
臺版 ChatGPT「TAIDE 計畫」有統戰風險?負責人:資料源頭完全乾淨
民進黨立委張廖萬堅指出,目前國科會也有臺版的 ChatGPT「TAIDE (Trustworthy AI Dialog Engine)計畫」,要建立出繁體中文的語言資料庫,因為現在市面上的 AI 都是英文或簡中,所以繁中對於臺灣防止中國偏見的滲入非常重要。他質疑,TAIDE 計畫未來怎麼去管控相關風險?
「其實從資料源頭就要處置!」計畫負責人、中研院資創中心資通安全專題中心執行長李育杰指出,TAIDE 計畫從資料開始,就以國內的文本資料,尤其可以濾除一些不當的言詞,從技術上做得到,這叫 Continuous Pre-Trained(預訓練),是第一階段。還有第二階段的 Fine-tuning(微調)、第三階段的 reinforcement learning with human feedback(人工回饋強化式學習),意即要有人為的標注,以及最近流行的憲政 AI,都是在防止不當結果的產生。
至於 TAIDE 計畫進度,李育杰表示,在十月底會有 7B(B 指的是參數大小,以 billion 為單位)的小模型出來,率續明年一月會有 13B,明年四月底結案前會有 70B 逐步釋出。
民進黨立委范雲也指出,這次風波反映人文社會科學和自然科學之間缺乏協調,個人無法意識到政治和社會的衝擊,要求中研院未來要加強雙方的對話。
學術就是最強國防 吳思瑤籲中研院:臺灣研究要全面上場
民進黨立委吳思瑤認為,這此的事件也提醒臺灣自身語言資料庫的重要性。她提醒,「資料就是新石油」,全世界都在開發資訊、創造資訊,影響世界的話語權。
吳思瑤指出,中國正在傾國家之力擴大學術影響力,研究臺灣最知名的、最用力的廈門大學,他們的臺灣研究院做了 2 件新事情:第一是成立「兩岸融合發展與國家統一政策模擬實驗室」,大量用人工智慧來進行:國家統一的情境分析、國家統一的政策分析、一國兩制台灣方案的模擬等分析。
而廈門大學的「涉台外交研究中心」,也不斷舉辦學術研討會、送學者出國,在世界各國進行統戰。其 2021 年正式創刊的「台灣歷史研究」,正是由中國社科院主管,用中國的政治方向來導引理論跟學術、為政治服務。
吳思瑤提醒中研院,要清楚看到中國正在做這些事。然而像是中國最大的學術資訊網站「中國知網」,因為要集中管理數據,大幅限縮了國外用戶的權限,這是臺灣的機會。也看到中研院歐美所協助加州大學聖地亞哥分校成立「台灣研究中心」,取代被退場的中共孔子學院。
吳思瑤呼籲中研院,當中國知網限縮、孔子學院退場,臺灣研究可以正式全面上場,目前中研院雖有三年一次的「臺灣研究世界大會」企圖讓臺灣研究成為顯學,或許要再強化,積極讓知識成為國防軟實力。