SQL Server平臺上數(shù)據(jù)倉庫管理員的關(guān)鍵任務
數(shù)據(jù)倉庫管理員(Data Warehouse Administrator),如果取首英文字母簡寫為DWA,很多人會以為講的是數(shù)據(jù)倉庫架構(gòu)師(Data Warehouse Architect),不過本文的主角是數(shù)據(jù)倉庫管理員,而且主要講述的是活躍在SQL Server平臺上的數(shù)據(jù)倉庫管理員。
數(shù)據(jù)倉庫管理員主要負責維護企業(yè)數(shù)據(jù)倉庫的完整性和可用性,包括數(shù)據(jù)的質(zhì)量問題,確保數(shù)據(jù)倉庫的正常持續(xù)運行。數(shù)據(jù)倉庫管理員要管理的也許是容量上到5TB級的高可用性SQL Server 2005數(shù)據(jù)倉庫,而且有遍布全球的有幾十家分公司好幾百名用戶將其應用于商業(yè)智能和客戶關(guān)系管理;也許只是被某公司總部十幾個用戶用作銷售、客戶和產(chǎn)品分析的300GB單服務器數(shù)據(jù)倉庫。不管數(shù)據(jù)倉庫管理員需要管理的是哪一種數(shù)據(jù)庫,其最重要工作就是維護。
數(shù)據(jù)倉庫系統(tǒng)每天都要進行大量的ETL操作,按照特定的時間間隔把數(shù)據(jù)抽取整合到數(shù)據(jù)倉庫里。這個時間間隔也許是每隔一天、每隔一個星期或每隔幾個小時。DWA的其中一個主要任務就是監(jiān)測這些ETL處理進程,確保其正常運作。監(jiān)測ETL處理進程的任務非常重要,因為這個進程在不斷地為數(shù)據(jù)倉庫供給數(shù)據(jù)原料。如果ETL處理進程運行不當,數(shù)據(jù)倉庫里的數(shù)據(jù)就會過時;如果ETL處理進程運行到一半就卡殼了,那么數(shù)據(jù)倉庫里的數(shù)據(jù)就會不完整;如果ETL處理進程運行出錯,那么存入的數(shù)據(jù)也會不正確;而如果數(shù)據(jù)不正確不完整,那么根據(jù)這些數(shù)據(jù)而制定的所有決策都會受到影響。這就是為什么確保ETL進程由始至終正常運作的重要原因。
數(shù)據(jù)倉庫管理員最好是向數(shù)據(jù)倉庫主管匯報工作,不過有時候他們會向數(shù)據(jù)倉庫架構(gòu)師匯報。數(shù)據(jù)倉庫管理員的關(guān)鍵任務包括以下幾個方面(假設在SQL Server平臺上運行):
· 監(jiān)測每天(每星期)的ETL進程、數(shù)據(jù)轉(zhuǎn)化服務工具包和SQL Server集成服務任務的運行
· 管理數(shù)據(jù)倉庫的數(shù)據(jù)庫,維護所有數(shù)據(jù)庫服務器
· 管理分析服務立方體和服務器
· 管理報表服務和服務器(很可能是一個網(wǎng)絡場)
· 管理數(shù)據(jù)挖掘模型和預測分析
· 管理數(shù)據(jù)倉庫安全
· 制作數(shù)據(jù)倉庫工作負荷和活動情況報表
· 向數(shù)據(jù)倉庫批量上載新數(shù)據(jù)
· 安裝補丁程序并執(zhí)行更新升級
· 管理數(shù)據(jù)倉庫端口
· 備份和檢測還原所有數(shù)據(jù)倉庫對象
· 與開發(fā)團隊保持合作以部署代碼
· 與業(yè)務團隊保持聯(lián)系以解決關(guān)于數(shù)據(jù)請求的問題
· 為終端用戶組織培訓班
· 幫助用戶解決查詢問題
