-
蜜度以大數據大模型推動內容勘誤的智能化與實用性
2023/1/3 18:43:00 來源:中國產業發展研究網 【字體:大 中 小】【收藏本頁】【打印】【關閉】
核心提示:伴隨著數字內容產生方式的變化和數量的增長,以傳統人工方式對數字內容進行快速審校的難度越來越大,亟需將人工智能相關技術手段引入到內容勘誤過程中,對政府網站、官方媒體等內容生產部門發布的數字內容進行智能化審核把關,提前發現潛在的內容風險并加以規避。伴隨著數字內容產生方式的變化和數量的增長,以傳統人工方式對數字內容進行快速審校的難度越來越大,亟需將人工智能相關技術手段引入到內容勘誤過程中,對政府網站、官方媒體等內容生產部門發布的數字內容進行智能化審核把關,提前發現潛在的內容風險并加以規避。基于行業發展狀況,2022年11月,中國通信標準化協會網絡數據技術與標準推進委員會發布了《內容審核 第4部分:內容勘誤服務系統指標要求和評估方法》,用于規定內容勘誤服務系統的基本技術和服務指標要求,以期規范功能需求并推動內容勘誤技術的發展。如何滿足標準的功能和技術要求,實現內容勘誤技術的智能化和實用性,上海蜜度信息技術有限公司基于多年自主研發經驗,形成了“大數據+大模型”疊加知識圖譜的整體技術解決方案,并經過真實場景下的嚴格驗證和持續應用,保障了一流的內容自動勘誤效果。
所謂大數據是指構建形成大規模高質量的機器可學習訓練集,通過讓機器大量閱讀問題句子和正確句子,學習到語言規律和語義背景。訓練集構造和標注需要充分考慮語言特點和用戶使用習慣,如:漢語的字形信息,發音信息,同義、對義、反義等語義信息,實詞虛詞等詞元信息。同時,“蜜度校對通”提供了用戶反饋機制,持續對典型的內容錯誤進行人工標記,通過自動和人工標注相結合的方式,目前形成了百億規模的高質量可機器讀取的有效訓練數據。
大模型則是指學習網絡的深度和寬度有一定規模,網絡有足夠的參數量,從而可以擁有將大規模數據進行理解和泛化的能力。“蜜度校對通”網絡基礎模型的總參數規模超過十億,融合了錯誤序列標記和翻譯生成邏輯,從而讓勘誤系統具有更好的智能體驗。
此外,為清晰表達現實世界中的語義知識,實現對常識的自動勘誤處理,“蜜度校對通”構建了專有的知識圖譜,將人物、機構、地域、作品、法律法規等知識進行碎片化處理和語義化組織,并具備開放數據中的知識自動獲取和融合的持續更新能力,進而結合實體關系識別和圖譜關系推理,實現對常識的一致性檢測和勘誤處理。
在內容勘誤應用能力上,“蜜度校對通”基于大數據大模型的技術路線形成了文字標點差錯、知識性差錯和內容導向風險識別三大校對方向26個細分小類的錯誤校對,能夠滿足新聞出版、網絡媒體、政府公文等日常稿件的文字、圖片和視頻等多模態信息的檢測和糾錯需要,提升各行業文稿校對的效率和質量。
(“蜜度校對通”產品截圖)
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如有侵權行為,請第一時間聯系我們修改或刪除,郵箱:cidr@chinaidr.com。 -
- 熱點資訊
- 24小時
- 周排行
- 月排行