采用基于深度學習的鏈接自動分類技術、基于網頁節點間互信息的頁面內容智能抽取技術、動態網頁自動解析渲染技術、海量鏈接實時消重和分發技術、動態分治分布式數據采集集群技術等,構建了大規模高速度多形態數據采集平臺技術體系??梢杂行нm應數量巨大、形態多樣、更新頻繁的網站及新媒體采集場景,解決其中的異構動態數據源采集的技術復雜性、大規模網頁高頻采集的實時性和大規模分布式采集調度的擴展性等問題。
綜合運用知識規則模型、統計語言模型與深度學習模型,構建全方位的智能化錯敏文本分析體系。利用AC自動機等技術進行多模式文本匹配,以適應特定的監管規則。利用fasttext等技術進行快速文本篇章段落級分類,實現異常內容檢測。采用n-gram統計語言模型結合知識圖譜進行詞語提取,實現領域高頻詞與新詞持續發現。利用大規模預訓練深度語言模型及字音字形混淆集生成策略,結合政務、法律、金融等領域真實數據進行微調,實現高精度實體識別、錯別字定位糾正。
基于深度卷積神經網絡與Transformer等先進的圖像、視頻、音頻內容提取與理解技術,形成了圖像分類、目標檢測、圖像分割、目標識別、視頻分類、行為識別、語音識別、情感識別等核心技術模塊。依托豐富的政務業務場景,構建了持續更新的政務領域音視頻數據庫,保障了算法的不斷進步和應用的實戰效果。典型應用包括圖像文本識別、人物形象識別、違規圖像與音視頻監測等內容安全服務。
基于計算語言學及認知語言學等學科理論,利用機器學習技術將詞匯、句子、段落、篇章等不同語言單位進行多層次解析,形成適合計算處理的語義結構。在具體的語義檢索場景中,通過語義索引構建和查詢語義分析技術,讓計算機從語義層面理解用戶的檢索意圖,并利用概念間的關系和推理規則進行輔助檢索,從根本上解決了傳統基于文本匹配的檢索中經常出現的查不全、找不準、排不前等問題。在專利審查、文件比對等垂直應用領域,相對于傳統布爾檢索,語義分析與檢索技術可極大提高檢索覆蓋度和精準性。
混合模態檢索可適應文本、圖像、語音、視頻等多種不同模態交叉混合的索引與查詢方式,充分利用多種模態之間的相關性和互補性,從而學習到更加精確和魯棒的特征表示。在混合模態檢索推理過程中,借助訓練得到的特征表達模型對各模態非結構化數據進行抽象,形成多維結構化向量,基于高效的索引結構和乘積量化技術,實現快速準確的召回,賦能圖文搜索、智能問答等多種業務場景。
基于人臉圖像、視頻數據,通過人臉檢測、人臉關鍵點檢測、人臉分割等技術,結合通用的人臉三維模型,實現特定對象的虛擬數字人人臉三維模型重建生成?;谧匀徽Z音或合成語音驅動,結合三維人臉網格,通過深度神經網絡擬合語音特征與融合變形參數關系,實現高同步、高寫實的三維虛擬數字人人臉序列動畫。利用基于政務、能源、金融等領域知識圖譜,并結合語音識別、數字人驅動、圖形渲染等技術,實現虛擬數字人在特定領域的交互問答與業務處理。
對結構化及非結構化數字資源進行重定義,通過元數據鏈接、知識圖譜等基礎技術,重新定義、盤點和規劃數據,形成數據資產。提供全局統一的數字內容資產管理門戶,將富含業務知識的分析模型、內容報表、內容主題、內容集合等邏輯資源封裝為數據產品。以高效、安全的內容數據服務方式,構建主題明確、服務完善、流程清晰的數字內容生命周期管理體系。在創建、存儲、分發、運營和檢索富媒體以及管理數字權利和權限的業務流程中,通過優質的內容體驗賦能客戶數字化和智能化業務場景。
全面集成各種異構數據源,實現各類數據的實時匯聚、處理與分析。采用先進的實時數據分析處理技術,將實時數據處理與實時數據分析融合,實現數據處理與分析一體化;將批量數據分析與流式數據分析融合,實現流批分析一體化。構建新一代實時數據分析處理引擎,利用復雜事件處理與機器學習能力,在實時異構數據匯聚、清洗和轉換,實時數據入庫和實時數據分析與統計,復雜事件檢測和提取等方面為各類客戶的大數據業務提供全業務場景支撐。