5月21日,知乎聯(lián)合清華大學對外開放基于知乎的大規(guī)模富文本查詢和推薦數據集“ZhihuRec”。該數據集包含了知乎上的1億個行為數據,是目前為止,國內用于個性化推薦的最大的實際交互數據集。

作為一個大型數據集,ZhihuRec具有社交化問答場景中的詳細信息,覆蓋了知乎10天內、79.8萬用戶、16.5萬個問題、55.4萬個回答、24萬個作者、7萬話題以及50.1萬用戶搜索行為日志,保留了完整的用戶交互(例如點擊、跳過、搜索等)、時機和內容信息,且所有數據均經過脫敏處理。
該數據集可用于評估常規(guī)top-N推薦、順序推薦和上下文感知推薦中的算法應用,還可用于集成搜索和推薦以及帶有負反饋的推薦。 此外,該數據集不僅可以用于推薦研究,還可以應用于用戶建模(例如,性別預測,用戶興趣預測),搜索和推薦系統(tǒng)的組合以及其他有趣的主題。
個性化推薦技術已經廣泛應用于購物、視頻、閱讀、社交等互聯(lián)網場景。但開放式大規(guī)模真實場景數據集十分罕有。ZhihuRec數據集的開放,不僅豐富了開放式大規(guī)模真實場景數據集的研究樣本,更填補了推薦系統(tǒng)中用戶交互日志的空白。
知乎成立十年來,聚集了超過3 .53億條內容,每天會新增超過2000萬條創(chuàng)作和互動,為中文互聯(lián)網貢獻了寶貴的文本財富。
2018年,知乎曾聯(lián)合中國信息檢索學術會議(CCIR)、清華大學計算機系信息檢索課題組(THUIR)共同舉辦了“移動環(huán)境下知識分享平臺上的內容推薦”大賽,首次在比賽中開放ZhihuRec數據集,吸引了眾多高校和企業(yè)技術團隊參賽和關注。此次知乎聯(lián)合清華大學將該數據集進一步豐富并全面開放,旨在通過更大范圍的數據開源,為行業(yè)算法技術突破與演進提供更多數據和場景支持。
特別提醒:本網信息來自于互聯(lián)網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯(lián)系我們,本站將會在24小時內處理完畢。