GPT-4o中文詞庫淪陷色情
【2024年5月20日讯】
GPT-4o中文詞庫遭充斥色情賭博字詞,研究指OpenAI在數據清理上存在疏忽。
根據普林斯頓大學博士生蔡天樂(Tianle Cai)的觀察,OpenAI於本月13日推出的GPT-4o在解析和壓縮中文提示時存在使用不當的分詞問題,導致充斥着垃圾郵件和色情詞彙。
蔡天樂查看GPT-4o公開分詞庫,並列出模型解析中文的100個最長分詞,其中只有三個常用於日常對話,其餘的均與賭博或色情語境相關。最長分詞指的是「免費日本色情影片觀看」。
蔡天樂指出,問題顯然出在訓練分詞器的語料庫上,英文的分詞沒有問題,但中文的分詞存在問題,OpenAI可能未適當清理中文數據。
卡內基梅隆大學博士生耿正陽(Zhengyang Geng)稱,GPT-3.5和舊版的GPT-4的分詞器在中文分詞方面沒有此問題,最長的中文分詞是「生命週期」或「自動生成」等常用詞。
前Google搜索團隊成員、門羅創投的AI投資者Deedy Das指出,垃圾內容普遍存在是已知的問題,修復並不困難。Das認為OpenAI可能在發佈GPT-4o之前未清理中文數據集或分詞。
《麻省理工科技評論》引述專家指出,解決這個問題並不難,但污染的分詞和模型若在未來疊代中被繼承,情況或會轉趨複雜。報道亦提及,目前尚無法測試GPT-4的影片音頻功能是否受這些中文分詞問題影響。
消息來源
- Zeyi Yangarchive page,GPT-4o’s Chinese token-training data is polluted by spam and porn websites,MIT Technology Review,2024年5月17日。