欧美亚洲中文,在线国自产视频,欧洲一区在线观看视频,亚洲综合中文字幕在线观看

      1. <dfn id="rfwes"></dfn>
          <object id="rfwes"></object>
        1. 站長(zhǎng)資訊網(wǎng)
          最全最豐富的資訊網(wǎng)站

          內(nèi)容審核基礎(chǔ):審核方式、流程與審核維度


          對(duì)于資訊類產(chǎn)品和內(nèi)容內(nèi)產(chǎn)品來(lái)說(shuō),內(nèi)容審核是必不可少的環(huán)節(jié)之一。借助人工智能的發(fā)展,可以讓機(jī)器替代一部分審核工作,但由于內(nèi)容的復(fù)雜性,人工審核必不可少,而且還有其他需要考慮的點(diǎn)。這篇文章,作者為我們講解內(nèi)容審核的方式與流程,希望能對(duì)你有所幫助。

          內(nèi)容審核基礎(chǔ):審核方式、流程與審核維度

          何為內(nèi)容審核?

          簡(jiǎn)單來(lái)說(shuō)就是:對(duì)用戶在社交平臺(tái)上上傳、發(fā)布或共享的內(nèi)容(文字,圖片,音頻,視頻)進(jìn)行審查。

          其主要目的是對(duì)低質(zhì)庸俗的內(nèi)容進(jìn)行過(guò)濾篩選,從而生產(chǎn)高質(zhì)量的內(nèi)容、防止降低用戶體驗(yàn)、保持良好的內(nèi)容調(diào)性。

          而在這個(gè)過(guò)程中,平臺(tái)會(huì)對(duì)于內(nèi)容有一個(gè)專業(yè)的標(biāo)準(zhǔn)作為參考,這個(gè)時(shí)候有一個(gè)很大的問(wèn)題就是人工篩選效率低,而且成本大。

          所以很多內(nèi)容平臺(tái)采用了算法進(jìn)行過(guò)濾,通過(guò)人工和算法的有效結(jié)合來(lái)提升效率。

          經(jīng)過(guò)過(guò)濾后的內(nèi)容基本上能保證無(wú)害,即使質(zhì)量不高,但也不存在風(fēng)險(xiǎn)問(wèn)題。這時(shí)企業(yè)就會(huì)面對(duì)選擇是先發(fā)后審還是先審后發(fā):

          • “先發(fā)后審”:即用戶先發(fā)表UGC內(nèi)容,再經(jīng)過(guò)審核;
          • “先審后發(fā)”:即用戶提交UGC內(nèi)容后,先經(jīng)過(guò)審核,審核通過(guò)后才能發(fā)表上線。

          “先發(fā)后審”和“先審后發(fā)”的適用場(chǎng)景:

          • “先發(fā)后審”:適用于對(duì)發(fā)表內(nèi)容時(shí)效性要求較高的場(chǎng)景,如閱讀、聽(tīng)歌等場(chǎng)景下的用戶評(píng)論,此時(shí)用戶發(fā)表評(píng)論更多出于即興,因此從用戶的角度考慮,希望自己發(fā)表的評(píng)論能夠馬上看到成功、有效。比如:網(wǎng)易云音樂(lè)評(píng)論。
          • “先審后發(fā)”:適用于在社區(qū)、論壇、新聞平臺(tái)等場(chǎng)景下發(fā)表文章、觀點(diǎn)、討論等,此時(shí)對(duì)于平臺(tái)方來(lái)說(shuō)需要對(duì)內(nèi)容負(fù)責(zé)、并構(gòu)建權(quán)威性,因此通常要審核后才能發(fā)表。比如:抖音、人人都是產(chǎn)品經(jīng)理。

          一、審核方式

          不管是什么內(nèi)容的審核,都應(yīng)該包含以下四個(gè)基礎(chǔ)模塊:機(jī)器審核、人工審核、用戶投訴審核、結(jié)果復(fù)審。

          1. 機(jī)器審核

          是按照制定好的規(guī)則或機(jī)器學(xué)習(xí)算法對(duì)內(nèi)容進(jìn)行審核.

          通常,成熟的審核系統(tǒng)能將95%甚至99%以上的內(nèi)容都自動(dòng)審核并做出處理。確定有問(wèn)題的會(huì)被自動(dòng)刪除,難以判斷是否有問(wèn)題的會(huì)被標(biāo)注,進(jìn)入人工審核程序。

          2. 人工審核

          雖然用戶投訴審核和結(jié)果復(fù)審大多時(shí)候也是人工審核,但這里所說(shuō)的人工審核,特指審核機(jī)器無(wú)法判別的內(nèi)容,通常占平臺(tái)內(nèi)容數(shù)量的比例不超過(guò)5%.

          但對(duì)于一些大型的內(nèi)容平臺(tái),絕對(duì)數(shù)量已經(jīng)很多了。在內(nèi)容爆炸的時(shí)代,我們看到許多平臺(tái)在全國(guó)都有多個(gè)審核中心,每個(gè)審核中心的員工數(shù)量都成千甚至上萬(wàn)。

          3. 用戶投訴審核

          是前兩者的彌補(bǔ),有很多違規(guī)內(nèi)容以前沒(méi)有出現(xiàn)過(guò);所以不在規(guī)則可以過(guò)濾的范圍內(nèi),或者非常隱蔽,規(guī)則難以嚴(yán)格過(guò)濾。

          用戶的投訴是發(fā)現(xiàn)新問(wèn)題的重要渠道。通過(guò)知乎的危機(jī)事件,我們更應(yīng)該重視對(duì)投訴的審核,并及時(shí)據(jù)此對(duì)機(jī)器審核做出補(bǔ)充。

          4. 結(jié)果復(fù)審

          通常采取抽查方式,比如通過(guò)復(fù)審機(jī)器刪除的內(nèi)容,看規(guī)則或算法是否過(guò)于嚴(yán)格;比如通過(guò)查看人工刪除和通過(guò)的內(nèi)容,看員工的工作是否按要求執(zhí)行;比如通過(guò)內(nèi)容的整體巡查,看是否存在新的問(wèn)題未被注意到。

          二、審核流程

          具體流程,以下圖為例:

          1. 先過(guò)機(jī)器審核,機(jī)器審核 通過(guò) 或 不通過(guò);
          2. 對(duì)機(jī)器審核不通過(guò)的,再進(jìn)行人工復(fù)審;
          3. 對(duì)機(jī)器審核通過(guò)的,再進(jìn)行人工抽樣審核。

          內(nèi)容審核基礎(chǔ):審核方式、流程與審核維度

          三、審核的四個(gè)維度

          這里一般都是對(duì)四個(gè)維度進(jìn)行審核,關(guān)鍵字審核,用戶發(fā)布次數(shù)限制,重復(fù)內(nèi)容過(guò)濾和白/黑名單用戶。

          1. 關(guān)鍵詞審核

          詞語(yǔ)過(guò)濾的環(huán)節(jié),關(guān)鍵詞主要分為三類:

          1)禁止關(guān)鍵詞

          只要匹配到這個(gè)詞,內(nèi)容就被自動(dòng)刪除或禁止提交。通常只有極少數(shù)詞會(huì)被納入禁止關(guān)鍵詞,比如明確的色情、邪教以及廣告的專屬關(guān)鍵詞。

          2)審核關(guān)鍵詞

          這是最常見(jiàn)的關(guān)鍵詞種類,只要匹配到就會(huì)自動(dòng)進(jìn)入后臺(tái)進(jìn)行審核,文章中的關(guān)鍵詞會(huì)被高亮并羅列出來(lái),有助于審核人員快速判斷。審核關(guān)鍵詞也應(yīng)該盡量是專屬關(guān)鍵詞,以防止太多內(nèi)容被攔截到后臺(tái)。

          3)替換關(guān)鍵詞

          在許多平臺(tái),我們會(huì)在文中看到莫名的號(hào)或字母縮寫(xiě)*,這可能不是文章作者寫(xiě)的,而是這個(gè)詞被系統(tǒng)自動(dòng)替換。平臺(tái)不希望出現(xiàn)這個(gè)關(guān)鍵詞,但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語(yǔ)類詞語(yǔ),都有可能被自動(dòng)替換。

          當(dāng)然,管理員在添加關(guān)鍵詞時(shí),很多時(shí)候并不是直接把關(guān)鍵詞添加到后臺(tái)。否則用戶用很簡(jiǎn)單的方式就可以避過(guò)關(guān)鍵詞過(guò)濾,比如在關(guān)鍵詞內(nèi)加一個(gè)空格,系統(tǒng)就難以匹配到。

          所以,一般后臺(tái)都會(huì)支持限定符{x} 以限定相鄰兩字符間可忽略的文字,x 是忽略的字節(jié)數(shù)。在Discuz!網(wǎng)站后臺(tái)有明確說(shuō)明,如 “a{1}s{2}s”(不含引號(hào)) 可以過(guò)濾 “ass” 也可過(guò)濾 “axsxs” 和 “axsxxs” 等等。

          對(duì)于中文字符,若使用 GBK、Big-5 版本,每個(gè)中文字符相當(dāng)于 2 個(gè)字節(jié);若使用 UTF-8 版本,每個(gè)中文字符相當(dāng)于 3 個(gè)字節(jié)。

          另外,關(guān)鍵詞還可以支持正則表達(dá)式,來(lái)匹配具有一定模式的關(guān)鍵詞。比如”/1d{10}([^d]+|$)/”(不包括引號(hào))用來(lái)匹配手機(jī)號(hào)碼。正則表達(dá)式的內(nèi)容過(guò)多,大家有興趣可以搜索學(xué)習(xí)一下。

          2. 用戶發(fā)布次數(shù)限制

          主要限制一名用戶無(wú)限制地發(fā)送評(píng)論。

          對(duì)這種情況可以設(shè)置同一用戶一分鐘內(nèi)最多發(fā)送一條評(píng)論;一小時(shí)內(nèi)最多發(fā)送10條評(píng)論,一天最多發(fā)送三十條評(píng)論,評(píng)論次數(shù)如果超出時(shí)則彈出toast“發(fā)言太多累了吧,請(qǐng)休息下”的提示。

          其實(shí)這個(gè)限制上線后,發(fā)現(xiàn)發(fā)廣告的人會(huì)不斷注冊(cè)新號(hào)來(lái)規(guī)避這個(gè)問(wèn)題,后續(xù)可以考慮再加上。新用戶需注冊(cè)多長(zhǎng)時(shí)間才可發(fā)布評(píng)論,或需綁定手機(jī)號(hào)才可以發(fā)布評(píng)論這些嚴(yán)格的條件。

          3. 重復(fù)內(nèi)容過(guò)濾

          這種一般都是對(duì)于發(fā)廣告的。

          對(duì)比時(shí)去掉除漢字外的任何符號(hào),如“抖丶音”、“快aabb手”,對(duì)比時(shí)用“抖音”“快手”;將評(píng)論與同一用戶上條評(píng)論作對(duì)比,10個(gè)漢字以上的若與其中一條重復(fù)率達(dá)70%(20,60%;30,50%)則彈出toast“請(qǐng)不要發(fā)布重復(fù)內(nèi)容”;同時(shí)將評(píng)論僅與評(píng)論庫(kù)最近發(fā)布50條的評(píng)論作對(duì)比,20個(gè)漢字以上的若與其中一條重復(fù)率達(dá)80%則機(jī)審失?。?0,70%;50,60%);

          在對(duì)比重復(fù)內(nèi)容時(shí)一定要去掉一些無(wú)關(guān)的符號(hào)。因?yàn)楹芏嘈V告喜歡加空格,逗號(hào)這些。他們也通常備用好幾條文案,可以將評(píng)論庫(kù)的拿出來(lái)對(duì)比;這樣也可以規(guī)避他們換號(hào),換文案的問(wèn)題。

          4. 白名單用戶,黑名單用戶

          白名單用戶、黑名單用戶需要有個(gè)可編輯的后臺(tái),可隨時(shí)增減;若同一用戶一天內(nèi)機(jī)審失敗的評(píng)論超過(guò)10,則自動(dòng)列入黑名單。

          白名單的用戶不受發(fā)布次數(shù)限制,但內(nèi)容需要檢查廣告詞、敏感詞、屏蔽詞,如果一天內(nèi)發(fā)布的評(píng)論超過(guò)10條機(jī)審失敗,也自動(dòng)列入黑名單。列在黑名單的用戶發(fā)布評(píng)論時(shí),彈出toast“您暫時(shí)無(wú)法發(fā)布評(píng)論”或機(jī)審直接失敗。

          最后補(bǔ)充下,其實(shí)沒(méi)有對(duì)IP進(jìn)行限制是因?yàn)樵诠矃^(qū)域的wifi好像IP是一樣的,盡管非常希望處理掉垃圾評(píng)論這一問(wèn)題,但我還是希望在不影響到普通用戶的前提下。

          以上基本是一個(gè)內(nèi)容審核都需要了解的點(diǎn)了。

           

          贊(0)
          分享到: 更多 (0)
          網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)