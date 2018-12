2018-12-23 23:13

〔即時新聞/綜合報導〕我們其實都只是GOOGLE的打工仔…;相信大家一定都填過那些字形「歪七扭八」的驗證碼,或是選過那些要你挑出圖中所有「含有車輛」的圖形方格;雖然美其名是在「變使用戶是否機器人」,但有沒有懷疑過,自己其實被人利用當「義工」?雖然你不知道,這其實也已不是公開的秘密了,大家習以為常的事的確是在幫忙做公益跟「無酬勞工」。

綜合媒體報導,區分人機的全自動圖靈測試系統(CAPTCHA,Completely Automated Public Turing Test To Tell Computers and Humans Apart,)中,最常見的要數在2007年成立的reCAPTCHA;當時機器面臨無法準確的將人類紙質典籍數位化的困境;原本數位化的做法有兩種,一種是透過手工錄入,但這種做法耗時又費力,還容易錄錯;而第2種方法是先掃瞄文件,再利用「光學文字辨識技術」來錄入文字,但有些文字紀錄礙於歷史久遠,或是本來的紙張品質差,導致有些文件掃出來整個是糊的。

而卡內基美隆大學的教授路易斯‧安(Luis von Ahn)在2007年推出reCAPTCHA的驗證碼系統,最初的構想是想將人類與機器各有的特點結合在一起,透過驗證碼系統來使人類與機器共同解決問題。

reCAPTCHA的驗證碼會由兩部分構成,第一部分的驗證碼和傳統一樣,是透過自動產生並經過變形處理的文字,用來檢驗用戶是不是真人,而第二部分,則是從無法辨識的文件中截取出來的詞;用戶若正確輸入前半部分,那reCAPTCHA就會假設後半部分也是正確的,並將結果錄回reCAPTCHA的主機;而交回結果後,主機還會將這個結果再發給多個用戶交叉驗證,以確保沒有不小心輸錯或故意輸錯的情形。

在reCAPTCHA於2007年推出之時,每天可以幫助錄入3000萬個字符,而如今粗估每天有2億的字符透過reCAPTCHA錄入,相當於人類15萬小時的工作量,等於1個人不吃不喝苦幹2年半的成績;而reCAPTCHA也已成功錄入從1851年至今的所有《紐約時報》,共計1300萬篇文章,並且還數位化了超過2500萬本典籍,相當於世界所有書籍的19%;但如果說前面的偉業是在做公益,那在2009年GOOGLE花了2780萬美金(約新台幣8.5億)收購了reCAPTCHA之後,我們就淪為「無酬勞工」了。

2012年起,正如兩部分驗證法,前面依舊是驗證用戶是否為真人,但是後面就被換成是GOOGLE街景中難以辨識的門牌和路牌,讓用戶免費打工「幫忙標註」;而之後也被改成幫忙資料庫分類,像是「挑出有含公車的圖片」等等的驗證碼,變相免費幫GOOGLE訓練AI人工智慧;雖然有認為認證碼不道德的網友指出「這就像讓幾百萬人都花5秒幫GOOGLE做事,然後事後卻不用花一毛錢,這樣合理嗎」?

不過,GOOGLE也堂而皇之地說明,reCAPTCHA是集眾人之力標註資料、訓練AI的「群眾統包」模式;雖然現今最新的驗證碼系統,已經精簡為透過檢測使用者的客戶端環境,只要在對話框裡點擊「我不是機器人」就可通過驗證,但這種能解決大問題的「眾包模式」是否合理,恐怕仍有待大家商確了。

在reCAPTCHA驗證碼系統裡,一個驗證碼會由兩部分構成;第一部分的驗證碼用來檢驗你是不是真人,而第二部分,就是做功德的部分了,讓用戶幫忙辨識掃描紙本畫面中無法透過機器分辨的字詞。(圖擷取自Google Security Blog)

reCAPTCHA打從2009年被Google收購後,2012年起的兩部分驗證法,前面依舊是驗證用戶是否為真人,但後面就換成是GOOGLE街景中難以辨識的門牌和路牌。(圖擷取自Google Security Blog)

雖然有認為認證碼不道德的網友指出,「這就好比讓幾百萬人都花5秒幫GOOGLE做事,然後事後卻不用花一毛錢,這樣合理嗎?」;但GOOGLE也堂而皇之的說明,這是集眾人之力標註資料、訓練AI的「群眾統包」模式。(路透)

