價值中立的AI語言模型，可能嗎？／沃草

作者／柯甯予

想像一下，如果你發現ChatGPT其實是一個新自由主義者，不時在與你對答間透露全球化有多麽棒；或是一個馬克思主義者，告訴你全球化會造成更嚴重的剝削。你覺得這樣會有什麼問題嗎？

直覺告訴我們，這好像有點怪怪的。因為我們似乎會希望ChatGPT不要有太多個人意見，或至少不要在我們沒有問它的時候表達出來。對大部分人來說，ChatGPT的功能是服務我們，而不是說服我們。

對大型語言模型的設計者而言，似乎更是如此，畢竟一個有明顯立場的AI可能會讓他們流失客群——自由主義的人可能會對保守派AI哈欠連連，仇女人士的人則會想叫女性主義AI閉嘴。

確實，這種「中立派」的直覺某種程度上是對的，語言模型似乎就應該保持價值中立，避免不必要的紛爭。不過接下來我會提出三個層次的問題，來說明中立派可能會遇到什麼問題。

一、好像有些事不應該中立

讓我們考慮以下幾個問題：

語言模型可以歧視少數族群嗎？
語言模型可以鼓勵自殺嗎？
語言模型可以支持大屠殺嗎？

面對這些問題，大部分人應該都會覺得，語言模型應該反對這些立場。也就是說，它應該反對歧視、反對鼓勵自殺及反對大屠殺。但如果語言模型應該反對這些立場，它似乎就等於是做出了價值判斷，跟我們上述說的「中立派」有所抵觸。

對此，中立派可能會認為，語言模型對這些問題不一定要表達反對，它仍然可以「保持中立」，比如：

我只是一個語言模型，歧視有不好的地方，但歧視也有它的價值...
我只是一個語言模型，自殺雖然會讓你死掉，但也不要完全排斥自殺這個選項...
我只是一個語言...

總之，大概就是這樣。

他們認為這樣的回答既沒有鼓勵過於爭議性的價值觀，又可以保持中立。

確實，這些正反立場在學術上可能都有討論空間，比如「歧視這個概念真的有意義嗎？」「自殺真的不好嗎？」等等，但就算是這樣，我們也需要考慮讓語言模型討論這些問題的後果。畢竟除了討論本身的意義以外，言論對他人造成的「效果」也十分重要。

這就像是說，我們當然可以很學術地討論「所有權存不存在」這個問題，但如果父母在小孩偷東西時仍然對這些問題保持開放態度，可能會造成一些麻煩。因此，如果我們發現中立的態度會提高某些壞事發生的風險，那我們可能就要考慮設計一個中立的AI到底明不明智。

二、不中立的中立

到這裡，可能又有人會說，之所以語言模型不能保持中立，只不過是因為那些例子都很極端。在那些充滿爭議、沒那麼極端的問題上——比如馬克思主義跟女性主義是不是對的？——語言模型仍然可以保持中立。

這個區分可能是有道理的，但這裡會遇到的問題是：界線如何劃定？比如說，大家應該會同意，語言模型絕對不應該支持「黑人比白人低等」這一宣稱，甚至連保留模糊空間也不行。但是「動物比人類低等」呢？或是，「人民沒有守法義務」呢？語言模型應該保持中立，還是採取立場？看起來，我們似乎很難為「什麼樣的價值問題算是沒有爭議」找到一個適當的界線。

更進一步來說，什麼算是實然問題，甚麼算是價值問題，也需要我們「不中立地」劃定界線。比如，「俄羅斯是民主國家嗎」是一個實然問題，還是價值問題？「台灣是國家嗎？」又如何呢？

回答這些問題並不容易，但這裡並不是在試圖主張界線並不存在。我想說的只是，AI或許可以對某些事保持中立，但要讓語言模型在哪些事情上抱持立場、在哪些事情上又保持中立，這本身就不是一件中立的決定。

三、不回答就好了嘛！——論不可迴避性

對於上述的問題，有些人認為AI演算法其實不需要陷入劃界線的麻煩，我們只需要讓AI在遇到倫理問題時「拒答」就好，這樣就能避免陷入任何有爭議的問答中，也不必去跟哲學家爭執界線問題。

有人（程世嘉）就曾在臉書說道：「大語言模型在技術上，早就可以限制它拒答某些領域的問題，也可以拒絕吃進人類的垃圾輸入以免胡亂生長，這跟灌輸價值觀給它根本是無關的事情，請不要混為一談。」

我把這個主張稱為「可迴避性命題」。要理解可迴避性命題，我們需要先理解不可迴避性的概念。

舉例來說，自駕車遇到的電車難題情境就時常有不可迴避性。自駕車在路上行駛，難免會遇到一些麻煩，比如，它下一秒可能會撞到小孩，也可能撞到老人，或者如果有辦法的話，車子可以即時煞住，避免撞到任何一個人。在這個情境裡，由於時間一直在流逝，必定會有一個結果即將發生，所以自駕車的選擇與判斷是「不可迴避」的。這意思是說，自駕車必須決定一個方案，來面對眼前的情境，而不論它選擇什麼做法，最終都一定會迎來某個結果。這也是為什麼自駕車必須有價值系統來決定要怎麼做，而不可能保持中立，因為它遇到的困境「不可迴避」。

回到語言模型的問題：那語言模型是否會像自駕車一樣，遇到不可迴避的情境？可迴避性命題似乎就主張，語言模型跟自駕車不一樣，語言模型遇到的問題都是可以迴避的。所謂的可以迴避，意思是語言模型可以拒絕回答人類問題，也不會必然迎來什麼結果。但問題是，這個主張真的正確嗎？

想像一下，當人類問AI「是否該自殺」「我可以霸凌同學嗎」等問題時，這些問題真的是可迴避的嗎？也許比起自駕車遇到的撞人情境，這些問題不一定馬上就會發生一個緊急的道德結果。但這只能說明自駕車情境的不可迴避性更高，不能說明語言模型遇到的情境都是完全可迴避的。

另一方面，即使是在實然陳述裡，語言模型也可能會出現排除性規範（Exclusionary norms），這種規範會將某些族群排除在特定概念或論述類型外，比如如果語言模型將「家庭」概念解釋為「一男一女與他們的孩子」，就排除了同性戀組成家庭的可能。或者，如果將居里夫人解釋為「女科學家」，也暗示著科學家本身並非女性。語言模型若要避免產生排除性規範，就必須在一些價值問題（性向觀或性別觀）上採取立場，這一點是不可迴避的，因為避免排除性規範本身就是一種價值選擇。

因此，比起讓語言模型拒絕回答，我們應該做的是去設想那些不可迴避的問題出現時，語言模型究竟應該怎麼回答。