大家怎麼看待百度在線翻譯指鹿為馬的行為? | 知乎問答精選

 

A-A+

大家怎麼看待百度在線翻譯指鹿為馬的行為?

2019年06月26日 百度, 知乎問答精選 暫無評論 閱讀 4 ℃ 次

「日本不是中國的」 翻譯成 「Japan is a part of China」 ,不怕會引起外交事件嗎

【姚旭的回答(9票)】:

現在的機器翻譯技術, 包括百度翻譯, 底層都是依賴於"對齊語料"

對齊語料的最典型的例子就是: 羅塞塔石碑

zh.wikipedia.org/wiki

baike.baidu.com/view同樣的內容, 用不同的語言的表述出來(比如石碑中的希臘文和古埃及文)

這樣機器就可以得到相同意思不同語言的句子, 這些內容平行的句子對, 就是對齊語料. 是機器翻譯技術的數據基礎.

通常的對齊語料來源, 都是比較正式的資源. 比如聯合國文件, 會以多種語言發佈; 新聞翻譯也是高質量的數據來源.

這類語料的特點就是準確, 都經過校對等過程保證對齊語料的質量. 缺點是這類語料都是標準書面語, 覆蓋不到口語表達; 同時語言覆蓋的範圍都很小, 很多日常表達無法覆蓋其中.

百度這次的對齊語料, 來自於搜索引擎覆蓋的互聯網資源. 互聯網的特點是覆蓋範圍廣, 兼顧書面,口語, 習語等. 但缺點也比較明顯, 就是語料的質量很難保證.

chinadaily.com.cn/hqcj從新聞稿裡可以瞭解到百度翻譯團隊, 首要技術難點就是在語料過濾上, 將錯誤的對齊語料識別出來並丟棄掉. 受益於互聯網語料的豐富性, 目前的百度翻譯在網絡流行語等非書面語上, 表現的較好. 但同時也受制於語料的準確性, 在一些中文表達比較多樣的, 尤其是口語表達, 比如種屬關係, 肯定句和否定句, 愛恨等反義表達上, 翻譯效果還需要提高.

【胡桔的回答(3票)】:

目前的機器翻譯都是基於機器學習的模式做的,中譯英的效果從目前來看,各家的質量都還很爛,包括google,離人工翻譯的準確度還差得非常遠。

機器翻譯目前也不是給那些懂一些英語人用的,因為機器翻譯出來的東西有可能比一般人翻譯出來的還不靠譜。當前的機器翻譯是給那些完全不懂英文,或者法文(中譯法)的人用的,它能讓你從完全不懂,變成瞭解一點點,然後大概猜出來是什麼意思,完成從0到1的跨越,從1到100的完善工作,目前還做不了,技術所限。

所以如果按照翻譯準確度來評價現在所有的機器翻譯引擎,可以基本上認為它們都還是一坨屎,完全不能用。但是對於零基礎的外語種類來說,機器翻譯做的這點事情還是有重要的意義的,而這樣的場景的確是存在的,例如國內的中小企業老闆做對外貿易的時候,就能通過它大概瞭解一些行業的狀態和基本情況,當然簽合同靠它就不靠譜了。所以這就是現在的在線翻譯產品存在的價值,至於它不能理解not,不能正確的翻譯出來英文的意思,這也沒辦法,它現在就是這麼弱,暫時也只能做到這個地步。

【SteveRen的回答(2票)】:

試試在百度翻譯「google比百度好多了」,你就明白了。

【悅涵的回答(1票)】:

打開 Google Translation

中翻日:」啪啪啪「。

我也不知道這是為什麼。

【Eagle的回答(1票)】:

1.有些標題黨,這和指鹿為馬扯不上關係,至少和某些監獄的各種離奇死法相比,還差很遠。

2.如LS所說,國外對這些看得比較淡,還記得之前黃健翔的一篇博客裡揭露的,往往是我們自己的相關人員比國外的外交官更加敏感。這從一個角度也說明,我們在這個環境生活久了,很容易養成自我閹割的特點。

3.最後說下百度的在線翻譯,LZ舉的這個例子比較典型,具體原因不太好說,期待專業人士解讀。但是不得不承認的是,百度在一些國內流行語上的翻譯還是做的不錯的,之前微博上也有一些圖片。

【大強的回答(0票)】:

日本的外交部門G點不至於那麼敏感.

不論google還是百度的翻譯,都是機器干的,大眾在網上越是聊得多,它們翻譯出來的結果就越接近大眾聊的.尤其是惡意用戶提交的數據對結果影響很大.

不過如果有足夠長的時間讓機器去學習,翻譯結果最終還是會修正這些問題的.

標籤:-算法 -產品 -姚旭 -翻譯 -百度 -外交 -百度翻譯


相關資源:





給我留言