讓AI不學壞!台大「概念抹除」技術 教AI模型切斷暴力
2025/10/30 05:30 記者吳柏軒/台北報導
國科會補助台大教授王鈺強(右2)團隊,針對生成式AI提出「概念抹除」技術「Receler」,能精準切斷AI連結到暴力、色情乃至侵權內容等風格,有助AI正向發展。(國科會提供)
生成式AI興起改變人類社會,不只自動撰文,更生成深度偽造的圖像,衍生侵權、濫用及倫理挑戰;國科會補助台灣大學電機系教授王鈺強團隊,開發「概念抹除(concept erasing)」技術「Receler」,免重新訓練,讓AI精準切斷高風險概念聯想,避免生成血腥、暴力或色情等內容,使AI「不學壞」。
免重新訓練 精準抹除血腥、色情內容
專長為電腦視覺的王鈺強表示,生成式AI雖方便,如ChatGPT可用來生成吉卜力風格的繪圖,但此舉恐侵犯藝術家版權,以及「Deepfake」深偽技術可以把明星、政治人物換臉,從而產生詐騙或色情影像,或濫用生成血腥暴力內容等,帶來種種問題。
王鈺強說,在不重新蒐集資料跟重新訓練AI模型之下,團隊研發出概念抹除技術「Receler」,是具有交叉注意力機制的概念橡皮擦(Concept Eraser),結合對抗性機器學習(Adversarial Learning)技術,能精準抹除「暴力」、「裸露」或「特定藝術風格」等高風險概念,並保留原始AI模型創作能力;成果在去年九月登上歐洲計算機視覺會議(ECCV)並備受關注。
國科會#生成式AI#王鈺強#台大電機系#概念抹除(concept erasing)#Receler/span〉
台大電機系教授王鈺強團隊針對生成式AI開發出概念抹除技術「Receler」,相比原始模型,AI能避免生成裸露、特定藝術繪畫風格以及特定物品等,有助AI未來正向發展。(王鈺強提供)
