面對海量信息如何實現(xiàn)內(nèi)容識別

2019-08-13 15:54:33??來源：人民網(wǎng)-傳媒頻道責(zé)任編輯：肖月青　肖月青

互聯(lián)網(wǎng)平臺的出現(xiàn)以及移動傳播體系的形成，改變了人類內(nèi)容生產(chǎn)和分發(fā)的方式。從形態(tài)上，互聯(lián)網(wǎng)平臺代替?zhèn)鹘y(tǒng)媒體成為了信息聚合和分發(fā)的樞紐；從傳播關(guān)系看，社會成員個體的參與愿望及信息需求，形成了當(dāng)代社會信息交互的雙輪驅(qū)動。反映在內(nèi)容生產(chǎn)與分發(fā)過程中，現(xiàn)象之一就是互聯(lián)網(wǎng)用戶個人上傳的各類內(nèi)容成為了網(wǎng)絡(luò)空間里一個海量的存在，以當(dāng)前發(fā)展迅速的短視頻平臺為例，它們每天都有數(shù)以千萬條計的短視頻內(nèi)容上傳；現(xiàn)象之二是，這樣海量的內(nèi)容只有通過移動終端，面向用戶個人的差異化信息需求，通過推送式的精準分發(fā)，才能使人們所生產(chǎn)的信息“各得其所”、“各盡其用”，以充分發(fā)揮不同內(nèi)容的效能。

這一切的前提是內(nèi)容本身是真實的，健康的。而面對每天上傳到互聯(lián)網(wǎng)平臺上數(shù)以十萬篇計的文章、千萬條計的短視頻、十億張計的照片這樣級別的海量信息，想要鑒別它們的“成色”并實現(xiàn)推送式的精準分發(fā)，必須充分運用人工智能技術(shù)。這也就是為什么習(xí)近平同志在2019年1月25日的中央政治局集體學(xué)習(xí)時講話中，要求“探索將人工智能運用在新聞采集、生產(chǎn)、分發(fā)、接收、反饋中” 。通俗地說，就是要“互聯(lián)網(wǎng)技術(shù)產(chǎn)生的問題，用互聯(lián)網(wǎng)技術(shù)來解決”。

維護互聯(lián)網(wǎng)平臺上內(nèi)容的真實性和健康性是一個國際性課題。前不久，在美國參與的“數(shù)字時代的美國新舊媒體”考察活動給了我切身體驗。中國和美國這兩個不同社會制度的國家，都面臨著互聯(lián)網(wǎng)平臺帶來的各種挑戰(zhàn)，其中互聯(lián)網(wǎng)內(nèi)容的真實、健康和安全是最為人們關(guān)注的。在各自國家政府和社會公眾的壓力之下，兩個國家的互聯(lián)網(wǎng)平臺都在做出努力來解決上述問題。這些努力的主要方面，就是積極利用人工智能技術(shù)，開發(fā)對互聯(lián)網(wǎng)內(nèi)容進行審核的應(yīng)用。比較分析的結(jié)果是，中國的互聯(lián)網(wǎng)平臺在這一領(lǐng)域居于領(lǐng)先地位。

以國內(nèi)最大的資訊分發(fā)平臺今日頭條及其系列產(chǎn)品為例，其反低俗的軟件“靈犬”，經(jīng)過三次迭代升級，最新版本包括識別類型和模型能力的重要升級，同時應(yīng)用了“Bert” 和半監(jiān)督技術(shù) ，并在此基礎(chǔ)上使用了專門的中文語料，使對存在色情低俗、暴力謾罵、標題黨類問題內(nèi)容的文本識別準確率提升至91%，還能支持對含有色情低俗、血腥暴力成分的圖片的識別。比較而言，谷歌和臉書等平臺對虛假、低俗類信息識別的技術(shù)路線更多是“重點對用戶特征（包括個人級別特征和組織級別特征）、新聞特征（包括文本特征和傳播特征）和網(wǎng)絡(luò)關(guān)系（包括用戶關(guān)系網(wǎng)、事件關(guān)系網(wǎng)和傳播路徑網(wǎng)）這三個要素進行自動查驗” ，具體而言，更多依靠用戶的反饋和標注，以及對相關(guān)因素的一致性檢驗，在借助人工智能和大數(shù)據(jù)對文本本身進行更加全面的識別方面投入不足，從而導(dǎo)致相應(yīng)的技術(shù)能力無法應(yīng)對以“深偽（Deepfake）”為代表的偽造信息技術(shù)的發(fā)展。有研究者指出，“瑞士科學(xué)家在一篇論文中就首次對人臉識別方法檢測Deepfake的效果進行了較為全面的測評，嘗試用最前沿的人臉識別系統(tǒng)去識別假視頻，結(jié)果錯誤率高達95%。所以當(dāng)前如果要求平臺對深度偽造等合成媒體內(nèi)容進行識別和標注，在技術(shù)上幾乎是不可能實現(xiàn)的” 。這一事實告訴我們，在網(wǎng)絡(luò)傳播中反虛假、反低俗，還是要更多依靠更加先進的人工智能應(yīng)用，通過大數(shù)據(jù)與算法的結(jié)合，提升對各類內(nèi)容（文字、圖片、視頻等）的識別能力。

當(dāng)前的人工智能，實質(zhì)上是基于對人類處理各種事務(wù)規(guī)則的算法化，并基于大數(shù)據(jù)提供的深度學(xué)習(xí)資源而實現(xiàn)的。具體地說，就是人們根據(jù)對于客觀事物的認識，制定處理相關(guān)事務(wù)的規(guī)則和標準，然后找到一組數(shù)學(xué)公式來模擬這個過程，也就是形成算法，再把算法開發(fā)成為軟件，就可以用大數(shù)據(jù)來訓(xùn)練這個軟件學(xué)會識別不同狀態(tài)和情況，達到比較成熟的水平就可以上線運營，代替人類來工作了?？陀^上，在這個過程中，關(guān)鍵性的難點在各個環(huán)節(jié)都存在。如人們制定的標準和規(guī)則是否科學(xué)，取決于人們對相關(guān)事物本身發(fā)展規(guī)律的認識水平。按照馬克思的論斷，“一種科學(xué)只有在成功地運用數(shù)學(xué)時，才算達到了真正完善的地步”。這需要人們對客觀規(guī)律有深刻的認識，目前在社會科學(xué)領(lǐng)域這顯然是研究的短板。以筆者本人近年來對主流價值觀如何體現(xiàn)為算法的研究為例，旨在面向個人推送信息以提高傳播效率的算法，如何在社會成員個人對事件重要性的判斷與社會主體對事件重要性的判斷之間建立一致性就是一個難題。在內(nèi)容審核方面，也存在標準和規(guī)則隨具體場景而變化的情況，如越南戰(zhàn)爭期間著名的反戰(zhàn)新聞?wù)掌?，照片主體是一位越南小女孩衣服被汽油彈引燃而渾身赤裸奔跑，就曾經(jīng)因為“裸露”，被Facebook誤刪。實踐中，即使實現(xiàn)了規(guī)則和標準清晰且正確，還要能夠找到可行的算法，建立較大規(guī)模的數(shù)據(jù)庫，還要有算力的支持。如靈犬3.0，就投入了更大的算力。從上述過程看，利用人工智能的深度學(xué)習(xí)來解決虛假、低俗內(nèi)容充斥網(wǎng)絡(luò)空間的問題，是一個具有相當(dāng)技術(shù)難度的系統(tǒng)工程，需要假以時日，需要付出更大的努力。

用技術(shù)識別內(nèi)容如此之難，是不是我們就不要走這條路，靠人工去完成這個工作呢？很顯然，在互聯(lián)網(wǎng)傳播環(huán)境下，這是不現(xiàn)實的。當(dāng)前，互聯(lián)網(wǎng)技術(shù)的應(yīng)用，已經(jīng)實現(xiàn)了在傳播的技術(shù)條件方面對用戶的普遍賦權(quán)，在中國，每天都有數(shù)以億計的互聯(lián)網(wǎng)用戶活躍在各個網(wǎng)絡(luò)平臺上，以短視頻為例，抖音等平臺，每天都有千萬條級別的內(nèi)容上傳，今日頭條平臺每天經(jīng)審核后發(fā)布的內(nèi)容就超過60萬條。這是無法完全用人工去處理的。與人工審核相比，機器審核的優(yōu)勢在于，機器一是計算快，一秒鐘能執(zhí)行百億次計算；二是存儲大，可以輕松存儲千億以上漢字；三是運行穩(wěn)定，不會因心情、狀態(tài)、對標準的理解等因素影響處理結(jié)果。據(jù)了解，由于強化內(nèi)容標注和審核的需要，今日頭條的母公司“字節(jié)跳動”已經(jīng)建立了近萬人的審核團隊。在“機器+人工”審核模式下，我國主要的互聯(lián)網(wǎng)信息分發(fā)平臺的內(nèi)容安全得到了較大程度的提升，未來隨著研究的深入、技術(shù)的進步，內(nèi)容審核的水平還會持續(xù)提升。

相關(guān)閱讀: