14萬筆新聞未經授權遭開源分享 《中央社》提告
近日傳出有人在網上分享供大型語言模型訓練使用的繁中資料集,裡頭因為有大量未獲授權的中央社新聞內容,中央社近日提告。示意圖。(路透檔案照)
李秋明/核稿編輯
上月「七法案」判決結果出爐,七法公司遭控盜取對手法源資訊公司法學資料庫數十萬筆資料,法官認定侵害著作權,重判七法創辦人。不料最近又爆出侵權事件,臉書社團「Generative AI 技術交流中心」有人近日分享開源的繁體中文資料集,裡頭因有十多萬筆來自《中央社》的新聞,中央社並未授權這些內容因此提告,檢調介入偵辦。中央社今天傍晚證實此事並說明立場。
有「法學版Google」之稱的七法公司,遭控透過「爬蟲程式」抓取競爭對手法源公司的法學資料庫超過50萬筆資料,供檢索查詢方式營利。新北地院上月底審理該案,法官認定七法的行為侵害著作權,分別判處七法共同創辦人郭榮彥與謝復雅4年、2年有期徒刑。當時勝訴的法源公司就表示,本案是國內少見對於資料庫業者權益保護之案件,具有指標性意義。透過法院闡明的見解,未來將可作為資料庫業者遵循之依據,維護市場公平交易的秩序。
沒想到七法案一審判決結果出爐沒多久,又爆出有人早前在臉書社團「Generative AI 技術交流中心」分享允許任何人查看、使用、修改和分發的繁中資料集(即用於訓練和評估自然語言處理模型的數據集,訓練項目包括文本分類、機器翻譯、問答系統等,繁中資料集有助於開發繁中AI應用),當中有十多萬筆來自中央社的新聞內容,由於沒有授權,中央社採取法律行動,分享者近日被檢調約談。
昨天(6日)該社團的管理員就發文抱屈,「有社員在我們社團分享開源的繁中資料集而被檢調約談了。這次跟七法的案例不同,這次完全沒有盈利行為。我認為沒有人想被判刑啊!是不是應該要有個標準或檢查工具來避免人們觸犯著作權法?」引發社友討論。
而中央社今傍晚透過臉書粉專發文,「在2025年3月初,我們注意到在Facebook的『Generative AI技術交流中心』社團中,有人分享了一份供大型語言模型訓練使用的繁體中文資料集(fineweb-zhtw),並提供公開查詢介面及開放給所有人查詢與下載。本社查證後發現,這個資料集中竟包含自2011年起至2021年止、約14萬筆來自中央社的新聞內容,而這些內容從未獲得本社的授權。」
「對於未經本社授權,大量使用本社原始新聞內容之公司、個人,本社始終秉持維護著作權之立場,儘可能與其取得聯繫,請求將本社新聞內容下架,希望在尊重創作的基礎上,共同找到合適的解決方式。本次事件,是因該公開者之身分資訊不詳,基於維護本社權益之目的,乃對其提起刑事告訴。目前案件已進入偵查階段,本社將靜待檢察官偵查結果。」
中央社強調,「本社的新聞報導,均來自第一線記者的採訪、整理,有些是經過授權的外電消息,再由我們用心翻譯撰寫。每一則新聞背後,都是記者與編輯團隊的心血結晶,這些內容同時也是本社與國內外媒體合作、授權的重要資產,著作權也應受到相應之尊重。在數位時代快速演變的今天,許多平台使用新聞內容卻未付出對應代價,壓縮了新聞工作者的生存空間,也讓社會逐漸忽視了新聞存在的價值。」
「本社相信,新聞不該只是被『使用』的資源,而應是被尊重與信任的公共資產。本社也支持《媒體議價法》的推動,盼能與數位平台建立公平的合作模式,為台灣媒體環境注入新的正循環。本社作為台灣的國家通訊社,有責任,也有決心,為新聞產業爭取應有的尊重與保護。」
