欧美亚洲中文,在线国自产视频,欧洲一区在线观看视频,亚洲综合中文字幕在线观看

      1. <dfn id="rfwes"></dfn>
          <object id="rfwes"></object>
        1. 站長資訊網(wǎng)
          最全最豐富的資訊網(wǎng)站

          內(nèi)容審核基礎(chǔ):審核方式、流程與審核維度


          對于資訊類產(chǎn)品和內(nèi)容內(nèi)產(chǎn)品來說,內(nèi)容審核是必不可少的環(huán)節(jié)之一。借助人工智能的發(fā)展,可以讓機(jī)器替代一部分審核工作,但由于內(nèi)容的復(fù)雜性,人工審核必不可少,而且還有其他需要考慮的點(diǎn)。這篇文章,作者為我們講解內(nèi)容審核的方式與流程,希望能對你有所幫助。

          內(nèi)容審核基礎(chǔ):審核方式、流程與審核維度

          何為內(nèi)容審核?

          簡單來說就是:對用戶在社交平臺上上傳、發(fā)布或共享的內(nèi)容(文字,圖片,音頻,視頻)進(jìn)行審查。

          其主要目的是對低質(zhì)庸俗的內(nèi)容進(jìn)行過濾篩選,從而生產(chǎn)高質(zhì)量的內(nèi)容、防止降低用戶體驗(yàn)、保持良好的內(nèi)容調(diào)性。

          而在這個過程中,平臺會對于內(nèi)容有一個專業(yè)的標(biāo)準(zhǔn)作為參考,這個時候有一個很大的問題就是人工篩選效率低,而且成本大。

          所以很多內(nèi)容平臺采用了算法進(jìn)行過濾,通過人工和算法的有效結(jié)合來提升效率。

          經(jīng)過過濾后的內(nèi)容基本上能保證無害,即使質(zhì)量不高,但也不存在風(fēng)險問題。這時企業(yè)就會面對選擇是先發(fā)后審還是先審后發(fā):

          • “先發(fā)后審”:即用戶先發(fā)表UGC內(nèi)容,再經(jīng)過審核;
          • “先審后發(fā)”:即用戶提交UGC內(nèi)容后,先經(jīng)過審核,審核通過后才能發(fā)表上線。

          “先發(fā)后審”和“先審后發(fā)”的適用場景:

          • “先發(fā)后審”:適用于對發(fā)表內(nèi)容時效性要求較高的場景,如閱讀、聽歌等場景下的用戶評論,此時用戶發(fā)表評論更多出于即興,因此從用戶的角度考慮,希望自己發(fā)表的評論能夠馬上看到成功、有效。比如:網(wǎng)易云音樂評論。
          • “先審后發(fā)”:適用于在社區(qū)、論壇、新聞平臺等場景下發(fā)表文章、觀點(diǎn)、討論等,此時對于平臺方來說需要對內(nèi)容負(fù)責(zé)、并構(gòu)建權(quán)威性,因此通常要審核后才能發(fā)表。比如:抖音、人人都是產(chǎn)品經(jīng)理。

          一、審核方式

          不管是什么內(nèi)容的審核,都應(yīng)該包含以下四個基礎(chǔ)模塊:機(jī)器審核、人工審核、用戶投訴審核、結(jié)果復(fù)審。

          1. 機(jī)器審核

          是按照制定好的規(guī)則或機(jī)器學(xué)習(xí)算法對內(nèi)容進(jìn)行審核.

          通常,成熟的審核系統(tǒng)能將95%甚至99%以上的內(nèi)容都自動審核并做出處理。確定有問題的會被自動刪除,難以判斷是否有問題的會被標(biāo)注,進(jìn)入人工審核程序。

          2. 人工審核

          雖然用戶投訴審核和結(jié)果復(fù)審大多時候也是人工審核,但這里所說的人工審核,特指審核機(jī)器無法判別的內(nèi)容,通常占平臺內(nèi)容數(shù)量的比例不超過5%.

          但對于一些大型的內(nèi)容平臺,絕對數(shù)量已經(jīng)很多了。在內(nèi)容爆炸的時代,我們看到許多平臺在全國都有多個審核中心,每個審核中心的員工數(shù)量都成千甚至上萬。

          3. 用戶投訴審核

          是前兩者的彌補(bǔ),有很多違規(guī)內(nèi)容以前沒有出現(xiàn)過;所以不在規(guī)則可以過濾的范圍內(nèi),或者非常隱蔽,規(guī)則難以嚴(yán)格過濾。

          用戶的投訴是發(fā)現(xiàn)新問題的重要渠道。通過知乎的危機(jī)事件,我們更應(yīng)該重視對投訴的審核,并及時據(jù)此對機(jī)器審核做出補(bǔ)充。

          4. 結(jié)果復(fù)審

          通常采取抽查方式,比如通過復(fù)審機(jī)器刪除的內(nèi)容,看規(guī)則或算法是否過于嚴(yán)格;比如通過查看人工刪除和通過的內(nèi)容,看員工的工作是否按要求執(zhí)行;比如通過內(nèi)容的整體巡查,看是否存在新的問題未被注意到。

          二、審核流程

          具體流程,以下圖為例:

          1. 先過機(jī)器審核,機(jī)器審核 通過 或 不通過;
          2. 對機(jī)器審核不通過的,再進(jìn)行人工復(fù)審;
          3. 對機(jī)器審核通過的,再進(jìn)行人工抽樣審核。

          內(nèi)容審核基礎(chǔ):審核方式、流程與審核維度

          三、審核的四個維度

          這里一般都是對四個維度進(jìn)行審核,關(guān)鍵字審核,用戶發(fā)布次數(shù)限制,重復(fù)內(nèi)容過濾和白/黑名單用戶。

          1. 關(guān)鍵詞審核

          詞語過濾的環(huán)節(jié),關(guān)鍵詞主要分為三類:

          1)禁止關(guān)鍵詞

          只要匹配到這個詞,內(nèi)容就被自動刪除或禁止提交。通常只有極少數(shù)詞會被納入禁止關(guān)鍵詞,比如明確的色情、邪教以及廣告的專屬關(guān)鍵詞。

          2)審核關(guān)鍵詞

          這是最常見的關(guān)鍵詞種類,只要匹配到就會自動進(jìn)入后臺進(jìn)行審核,文章中的關(guān)鍵詞會被高亮并羅列出來,有助于審核人員快速判斷。審核關(guān)鍵詞也應(yīng)該盡量是專屬關(guān)鍵詞,以防止太多內(nèi)容被攔截到后臺。

          3)替換關(guān)鍵詞

          在許多平臺,我們會在文中看到莫名的號或字母縮寫*,這可能不是文章作者寫的,而是這個詞被系統(tǒng)自動替換。平臺不希望出現(xiàn)這個關(guān)鍵詞,但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語類詞語,都有可能被自動替換。

          當(dāng)然,管理員在添加關(guān)鍵詞時,很多時候并不是直接把關(guān)鍵詞添加到后臺。否則用戶用很簡單的方式就可以避過關(guān)鍵詞過濾,比如在關(guān)鍵詞內(nèi)加一個空格,系統(tǒng)就難以匹配到。

          所以,一般后臺都會支持限定符{x} 以限定相鄰兩字符間可忽略的文字,x 是忽略的字節(jié)數(shù)。在Discuz!網(wǎng)站后臺有明確說明,如 “a{1}s{2}s”(不含引號) 可以過濾 “ass” 也可過濾 “axsxs” 和 “axsxxs” 等等。

          對于中文字符,若使用 GBK、Big-5 版本,每個中文字符相當(dāng)于 2 個字節(jié);若使用 UTF-8 版本,每個中文字符相當(dāng)于 3 個字節(jié)。

          另外,關(guān)鍵詞還可以支持正則表達(dá)式,來匹配具有一定模式的關(guān)鍵詞。比如”/1d{10}([^d]+|$)/”(不包括引號)用來匹配手機(jī)號碼。正則表達(dá)式的內(nèi)容過多,大家有興趣可以搜索學(xué)習(xí)一下。

          2. 用戶發(fā)布次數(shù)限制

          主要限制一名用戶無限制地發(fā)送評論。

          對這種情況可以設(shè)置同一用戶一分鐘內(nèi)最多發(fā)送一條評論;一小時內(nèi)最多發(fā)送10條評論,一天最多發(fā)送三十條評論,評論次數(shù)如果超出時則彈出toast“發(fā)言太多累了吧,請休息下”的提示。

          其實(shí)這個限制上線后,發(fā)現(xiàn)發(fā)廣告的人會不斷注冊新號來規(guī)避這個問題,后續(xù)可以考慮再加上。新用戶需注冊多長時間才可發(fā)布評論,或需綁定手機(jī)號才可以發(fā)布評論這些嚴(yán)格的條件。

          3. 重復(fù)內(nèi)容過濾

          這種一般都是對于發(fā)廣告的。

          對比時去掉除漢字外的任何符號,如“抖丶音”、“快aabb手”,對比時用“抖音”“快手”;將評論與同一用戶上條評論作對比,10個漢字以上的若與其中一條重復(fù)率達(dá)70%(20,60%;30,50%)則彈出toast“請不要發(fā)布重復(fù)內(nèi)容”;同時將評論僅與評論庫最近發(fā)布50條的評論作對比,20個漢字以上的若與其中一條重復(fù)率達(dá)80%則機(jī)審失?。?0,70%;50,60%);

          在對比重復(fù)內(nèi)容時一定要去掉一些無關(guān)的符號。因?yàn)楹芏嘈V告喜歡加空格,逗號這些。他們也通常備用好幾條文案,可以將評論庫的拿出來對比;這樣也可以規(guī)避他們換號,換文案的問題。

          4. 白名單用戶,黑名單用戶

          白名單用戶、黑名單用戶需要有個可編輯的后臺,可隨時增減;若同一用戶一天內(nèi)機(jī)審失敗的評論超過10,則自動列入黑名單。

          白名單的用戶不受發(fā)布次數(shù)限制,但內(nèi)容需要檢查廣告詞、敏感詞、屏蔽詞,如果一天內(nèi)發(fā)布的評論超過10條機(jī)審失敗,也自動列入黑名單。列在黑名單的用戶發(fā)布評論時,彈出toast“您暫時無法發(fā)布評論”或機(jī)審直接失敗。

          最后補(bǔ)充下,其實(shí)沒有對IP進(jìn)行限制是因?yàn)樵诠矃^(qū)域的wifi好像IP是一樣的,盡管非常希望處理掉垃圾評論這一問題,但我還是希望在不影響到普通用戶的前提下。

          以上基本是一個內(nèi)容審核都需要了解的點(diǎn)了。

           

          贊(0)
          分享到: 更多 (0)
          網(wǎng)站地圖   滬ICP備18035694號-2    滬公網(wǎng)安備31011702889846號