基于A(yíng)I大模型的數據治理
在大模型時(shí)代,數據治理變得尤為重要。隨著(zhù)大數據技術(shù)的不斷發(fā)展,數據規模呈爆炸式增長(cháng),數據來(lái)源也日趨多樣化。如何有效地管理和利用這些數據,成為了企業(yè)和社會(huì )關(guān)注的焦點(diǎn)。本文將探討在大模型下如何進(jìn)行數據治理。
什么是大模型?
大模型是指具有數千萬(wàn)甚至數億參數的深度學(xué)習模型。近年來(lái),隨著(zhù)計算機技術(shù)和大數據的快速發(fā)展,深度學(xué)習在各個(gè)領(lǐng)域取得了顯著(zhù)的成果,如自然語(yǔ)言處理,圖片生成,工業(yè)數字化等。為了提高模型的性能,研究者們不斷嘗試增加模型的參數數量,從而誕生了大模型這一概念。本文討論的大模型將以平時(shí)指向比較多的大語(yǔ)言模型為例來(lái)進(jìn)行相關(guān)介紹。
大模型的原理是基于深度學(xué)習,它利用大量的數據和計算資源來(lái)訓練具有大量參數的神經(jīng)網(wǎng)絡(luò )模型。通過(guò)不斷地調整模型參數,使得模型能夠在各種任務(wù)中取得卓越表現。通常說(shuō)的大模型的“大”的特點(diǎn)體現在:參數數量龐大、訓練數據量大、計算資源需求高等。很多先進(jìn)的模型由于擁有很“大”的特點(diǎn),使得模型參數越來(lái)越多,泛化性能越來(lái)越好,在各種專(zhuān)門(mén)的領(lǐng)域輸出結果也越來(lái)越準確。
一個(gè)基本架構,三種形式:
當前流行的大模型的網(wǎng)絡(luò )架構其實(shí)并沒(méi)有很多新的技術(shù),還是一直沿用當前NLP領(lǐng)域最熱門(mén)最有效的架構——Transformer結構。相比于傳統的循環(huán)神經(jīng)網(wǎng)絡(luò )(RNN)和長(cháng)短時(shí)記憶網(wǎng)絡(luò )(LSTM),Transformer具有獨特的注意力機制(Attention),這相當于給模型加強理解力,對更重要的詞能給予更多關(guān)注,同時(shí)該機制具有更好的并行性和擴展性,能夠處理更長(cháng)的序列,立馬成為NLP領(lǐng)域具有奠基性能力的模型,在各類(lèi)文本相關(guān)的序列任務(wù)中取得不錯的效果。
根據這種網(wǎng)絡(luò )架構的變形,主流的框架可以分為Encoder-Decoder, Encoder-Only和Decoder-Only,其中:
1)Encoder-Only,僅包含編碼器部分,主要適用于不需要生成序列的任務(wù),只需要對輸入進(jìn)行編碼和處理的單向任務(wù)場(chǎng)景,如文本分類(lèi)、情感分析等,這類(lèi)代表是BERT相關(guān)的模型,例如BERT,RoBERT,ALBERT等
2)Encoder-Decoder,既包含編碼器也包含解碼器,通常用于序列到序列(Seq2Seq)任務(wù),如機器翻譯、對話(huà)生成等,這類(lèi)代表是以Google訓出來(lái)T5為代表相關(guān)大模型。
3)Decoder-Only,僅包含解碼器部分,通常用于序列生成任務(wù),如文本生成、機器翻譯等。這類(lèi)結構的模型適用于需要生成序列的任務(wù),可以從輸入的編碼中生成相應的序列。同時(shí)還有一個(gè)重要特點(diǎn)是可以進(jìn)行無(wú)監督預訓練。在預訓練階段,模型通過(guò)大量的無(wú)標注數據學(xué)習語(yǔ)言的統計模式和語(yǔ)義信息。這種方法可以使得模型具備廣泛的語(yǔ)言知識和理解能力。在預訓練之后,模型可以進(jìn)行有監督微調,用于特定的下游任務(wù)(如機器翻譯、文本生成等)。這類(lèi)結構的代表也就是我們平時(shí)非常熟悉的GPT模型的結構,所有該家族的網(wǎng)絡(luò )結構都是基于Decoder-Only的形式來(lái)逐步演化。
可以看到,很多NLP任務(wù)可能可以通過(guò)多種網(wǎng)絡(luò )結果來(lái)解決,這也主要是因為NLP領(lǐng)域的任務(wù)和數據的多樣性和復雜性,以及現代深度學(xué)習模型的靈活性和泛化能力,具體哪種結構有效,一般需要根據具體場(chǎng)景和數據,通過(guò)實(shí)驗效果進(jìn)行選擇。
大模型面臨的挑戰
大模型要發(fā)揮價(jià)值,需要構建從數據產(chǎn)生、數據整理、模型訓練、模型適配到實(shí)際部署的完整生態(tài)系統。大模型的應用也面臨著(zhù)一些挑戰和限制。一方面,大模型的訓練和使用需要大量的計算資源和存儲資源,成本較高。另一方面,大模型的訓練需要大量的標注數據,但標注數據的獲取和整理成本也較高。
此外,大模型的可解釋性和泛化能力也需要進(jìn)一步研究和改進(jìn)。如果不對大模型進(jìn)行數據治理,可能會(huì )導致數據質(zhì)量低下、數據難以利用、資源浪費、成本增加、數據安全和隱私泄露風(fēng)險增加等一系列問(wèn)題。因此,為了確保大模型的有效應用和可持續發(fā)展,必須進(jìn)行數據治理。
數據治理的框架和核心內容
不同的利益相關(guān)者群體對數據治理的關(guān)注點(diǎn)不一樣,因此各自的視圖也不一樣。其中管理者視圖可以概括為“五域模型”,分別是“管控域”、“過(guò)程域”、“治理域”、“技術(shù)域”、“價(jià)值域”。
管理者視角-數據治理五域模型
管控域:在數據治理戰略指導下制訂企業(yè)數據治理組織,明確組織的責、權、利,崗位編制及技能要求。
治理域:是數據治理的主體,明確數據治理的對象和目標。
技術(shù)域:數據治理的支撐手段,指的工具平臺。
過(guò)程域:是數據治理的方法論。
價(jià)值域:通過(guò)對數據資產(chǎn)的管控挖掘數據資產(chǎn)的價(jià)值,并通過(guò)數據的流動(dòng)、共享、交易變現數據資產(chǎn)。
技術(shù)視角:企業(yè)大數據治理實(shí)踐指南框架
數據治理體系,包括數據戰略、數據治理管控體系(數據治理組織、制度、流程、管控機制、績(jì)效體系及標準體系)、數據架構、主數據、元數據、指標數據、時(shí)序數據、數據質(zhì)量、數據安全、數據集成與交換、數據開(kāi)放和共享、數據資產(chǎn)管理能力成熟度評估以及數據價(jià)值、數據共享、數據變現等多方面。
數據治理車(chē)輪圖
從數據戰略、數據管控(組織管理、制度體系、流程管理及績(jì)效)、三個(gè)核心體系(數據標準體系、數據質(zhì)量體系、數據安全體系)和工具等分別進(jìn)行介紹數據治理體系。
企業(yè)數據管控和三個(gè)核心體系
AI大模型在數據治理中的應用
目前,企業(yè)的數據治理工作以人工實(shí)施為主,其中一些重復性較強的工作,如:數據標準制定和映射、元數據信息完善、數據目錄掛載等,需要消耗大量的人力和時(shí)間成本,這給本來(lái)就難以量化業(yè)務(wù)價(jià)值的治理工作的順利推進(jìn)帶來(lái)了更多的困難。AI大模型的引入,可以有效地解決這一難題。相比傳統的人工為主的數據治理,基于A(yíng)I大模型的數據治理具有以下優(yōu)勢:
自動(dòng)化:AI大模型可以通過(guò)學(xué)習和分析數據治理各項工作的特征和規則,自動(dòng)化批量進(jìn)行大規模數據的數據標準、元數據、數據質(zhì)量管理、數據安全管理等數據治理任務(wù),減少了人工處理的工作量,提升治理工作效率。
實(shí)時(shí)性:AI大模型可以實(shí)時(shí)監控和分析數據的變化,并及時(shí)進(jìn)行預警或直接處理,提升數據治理的響應速度。
擴展性:AI大模型可以通過(guò)學(xué)習和迭代,持續提升自己的能力,以適應高度變化的業(yè)務(wù)和技術(shù)環(huán)境對數據治理的需求。
基于上述考量,在數據治理領(lǐng)域,基于A(yíng)I大模型的能力,可以從如下主要場(chǎng)景實(shí)現從人工治理到智能治理的進(jìn)化。
(一) 數據標準管理
無(wú)論是以人工為主的數據標準管理,還是基于A(yíng)I大模型的智能化數據標準管理,首先都需要我們對企業(yè)的數據標準現狀進(jìn)行詳盡的調研工作。調研的內容包括:企業(yè)當前的數據業(yè)務(wù)含義、數據標準分類(lèi)、數據標準內容,業(yè)務(wù)和技術(shù)團隊對當前數據標準的改進(jìn)需求(以下簡(jiǎn)稱(chēng)“改進(jìn)需求”),相關(guān)的國際標準、國家標準、地方標準和行業(yè)標準(以下統一簡(jiǎn)稱(chēng)為“外部標準”)等。
在此基礎之上,利用AI大模型,可以從以下幾個(gè)方面提升數據標準管理的智能化程度:
1.標準智能制定
基于企業(yè)現有標準、改進(jìn)需求和外部標準,自動(dòng)制定適合企業(yè)的數據標準。和人工制定的標準一樣,自動(dòng)制定的標準,也需要經(jīng)過(guò)企業(yè)的業(yè)務(wù)和技術(shù)專(zhuān)家的審定后,才能正式發(fā)布使用。
2.標準智能落標
前向落標:按企業(yè)的數據標準實(shí)施策略,逐步賦能周邊系統,在建表時(shí),自動(dòng)為字段推薦/匹配合適的數據標準。
后向落標:按企業(yè)的數據標準實(shí)施策略,逐步治理存量數據,批量自動(dòng)化為其推薦/匹配合適的數據標準。
3.標準智能維護
隨著(zhù)業(yè)務(wù)需求和環(huán)境的變化,數據標準需要不斷更新和維護。我們可以通過(guò)AI大模型,自動(dòng)監測和分析業(yè)務(wù)數據的變化,提供標準的新增、變更、下線(xiàn)建議,幫助企業(yè)及時(shí)進(jìn)行數據標準維護。
(二) 元數據管理
Gartner在其“數據編織”的架構中提出了Metadata Activation(國內一般翻譯為“主動(dòng)元數據”或“元數據激活”)的概念,隨后又在其“元數據管理成熟度”中(見(jiàn)圖3-2)對主動(dòng)元數據進(jìn)行了解釋?zhuān)?概括來(lái)說(shuō)就是:主動(dòng)元數據指的是一種數據管理方式,即,發(fā)現、獲取盡可能多的元數據,并以豐富的元數據為基礎,利用各種AI技術(shù)手段(ML、NGL、知識圖譜等),主動(dòng)改進(jìn)數據管理的工具和活動(dòng),提升數據管理的效率,降低管理成本。
圖3:Gartner數據編織架構
圖4:Gartner元數據管理技術(shù)成熟度
Gartner在提出數據編織概念時(shí),AI大模型還沒(méi)出圈,但我們可以想象,如果Gartner更新其對數據編織的闡述,肯定會(huì )毫不猶豫地把AI大模型加入其架構中。
在元數據管理中,利用AI大模型,可以從以下幾個(gè)方面提升智能化程度:
1.元數據智能挖掘
企業(yè)在做元數據采集時(shí),由于源系統設計和管理的不規范,大多數情況下只能采集到最基礎的技術(shù)元數據信息(如:數據庫、Schema、表名、字段名等),需要花費大量人力和時(shí)間完善其他的核心元數據信息(如:表的中文名、業(yè)務(wù)口徑、描述、標簽,字段的中文名、描述、取值說(shuō)明、敏感等級等)。通過(guò)AI大模型的推理能力,可以基于最基礎的技術(shù)元數據信息和業(yè)務(wù)樣例數據,自動(dòng)填充其他的核心元數據信息。
2.數據血緣智能挖掘
業(yè)務(wù)和技術(shù)的發(fā)展,以及隨之而來(lái)的日益復雜的加工邏輯、多源異構的數據庫和多種類(lèi)型的加工腳本,這些都給數據血緣解析(尤其是字段級血緣解析)帶來(lái)了極大的挑戰。通過(guò)AI大模型的代碼解讀能力,可以提升復雜代碼、異構數據庫和多類(lèi)型的加工腳本場(chǎng)景下,血緣解析的成功率和準確率。再進(jìn)一步,如果能利用AI大治理模型總結并生成表級和字段級的業(yè)務(wù)口徑或者數據處理邏輯,將極大地提升人們理解數據、數據溯源和數據影響分析的效率。
3.數據智能分類(lèi)
基于數據對象的元數據、業(yè)務(wù)樣例數據,自動(dòng)推薦數據對象所屬的數據分類(lèi)或掛載的數據目錄。
4.數據推薦
基于企業(yè)中數據使用者的個(gè)人信息(部門(mén)、崗位、參與的業(yè)務(wù)等)、在大數據體系平臺(數據開(kāi)發(fā)平臺、數據治理平臺、BI報表平臺等)中的操作行為(搜索、查看、收藏、訂閱等)和數據對象的元數據、業(yè)務(wù)樣例數據,向數據使用者推薦他們需要的數據對象。
(三) 數據質(zhì)量管理
在數據質(zhì)量管理中,利用AI大模型,可以從以下幾個(gè)方面提升管理的智能化程度:
1.質(zhì)量規則推薦
基于數據對象的元數據和業(yè)務(wù)樣例數據,自動(dòng)為數據對象推薦/匹配表級和字段級的數據質(zhì)量規則。
2.質(zhì)量閾值推薦
通過(guò)持續分析歷史的質(zhì)量校驗結果數據,向用戶(hù)提供建議的質(zhì)量異常閾值,并能持續調整建議的結果。
3.質(zhì)量異常自動(dòng)定位
基于數據血緣鏈路和數據質(zhì)量校驗結果,自動(dòng)定位數據質(zhì)量異常的源頭。
4.質(zhì)量異常智能修復
針對部分數據質(zhì)量異常(如重復數據、缺失數據、不一致數據等),基于數據對象的元數據和質(zhì)量正常的業(yè)務(wù)樣例數據,自動(dòng)修復數據中的異常。
(四) 數據安全管理
在數據安全管理中,利用AI大模型,可以從以下幾個(gè)方面提升管理的智能化程度:
1.敏感數據智能識別
基于數據對象的元數據、業(yè)務(wù)樣例數據和企業(yè)的數據分級策略,自動(dòng)識別數據對象的敏感等級。
2.脫敏/加密規則推薦
基于數據對象的元數據、業(yè)務(wù)樣例數據、敏感等級和企業(yè)的數據安全策略,自動(dòng)為數據對象推薦/匹配脫敏或加密規則。
3.數據風(fēng)險智能識別
基于數據對象的元數據、血緣、敏感等級,企業(yè)的數據安全策略和已有的數據權限策略,自動(dòng)識別數據風(fēng)險并提供異常處理策略,應用場(chǎng)景主要包括:
大模型下數據治理的未來(lái)展望
隨著(zhù)大模型的不斷發(fā)展,數據治理將面臨更多的挑戰和機遇。未來(lái),數據治理將更加注重智能化技術(shù)的應用。利用人工智能和機器學(xué)習技術(shù)對數據進(jìn)行自動(dòng)化的分類(lèi)、標簽化和質(zhì)量檢測等操作,提高數據治理的效率和準確性。同時(shí),隨著(zhù)區塊鏈技術(shù)的不斷發(fā)展,數據安全和隱私保護將更加得到重視。區塊鏈的去中心化特性和加密技術(shù)可以為數據提供更加安全可靠的存儲和傳輸方式。此外,隨著(zhù)邊緣計算的不斷發(fā)展,數據的處理和分析將更加接近數據源本身,進(jìn)一步加速數據處理速度和提高實(shí)時(shí)性。
總結
大模型下的數據治理是一項復雜而重要的任務(wù)。通過(guò)建立完善的數據質(zhì)量管理體系、數據安全與隱私保護體系、數據流程管理體系和數據生命周期管理體系等策略,可以有效地實(shí)現數據的合規、安全和高效利用。同時(shí),需要不斷優(yōu)化和完善數據治理體系,以適應不斷變化的大模型技術(shù)和業(yè)務(wù)需求。只有這樣,才能更好地發(fā)揮大模型的優(yōu)勢,推動(dòng)各行業(yè)的快速發(fā)展和創(chuàng )新進(jìn)步。