數據倉庫是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數據集合,它用于支持企業或組織的決策分析處理。企業數據倉庫的建設,是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業務經營的決策,信息才能發揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業界的角度看,數據倉庫建設是一個工程,是一個過程。我公司在儀化公司數據倉庫規劃、設計、實施、管理與運維支持中積累了豐富的經驗,可以根據客戶需求規劃建設各種規模的數據倉庫。
數據倉庫特點:
¨面向主題:操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。
¨集成的:數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業的一致的全局信息。
¨相對穩定的:數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
¨反映歷史變化:數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
數據倉庫系統是一個信息提供平臺,他從業務處理系統獲得數據,主要以星型模型和雪花模型進行數據組織,并為用戶提供各種手段從數據中獲取信息和知識。
從功能結構化分,數據倉庫系統至少包含數據獲取、數據存儲、數據訪問三個關鍵部分。
數據倉庫體系結構:
¨數據源:是數據倉庫系統的基礎,是整個系統的數據源泉。通常包括企業內部信息和外部信息。
¨數據的存儲與管理:是整個數據倉庫系統的核心。數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決定了它有別于傳統數據庫,同時也決定了其對外部數據的表現形式。要決定采用什么產品和技術來建立數據倉庫的核心,則需要從數據倉庫的技術特點著手分析。針對現有各業務系統的數據,進行抽取、清理,并有效集成,按照主題進行組織。數據倉庫按照數據的覆蓋范圍可以分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市)。
¨OLAP(聯機分析處理)服務器:對分析需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發現趨勢。
¨前端工具:主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具以數據挖掘及各種基于數據倉庫或數據集市的應用開發工具。其中數據分析工具主要針對OLAP服務器,報表工具、數據挖掘工具主要針對數據倉庫。
數據倉庫管理:安全和特權管理;跟蹤數據的更新;數據質量檢查;管理和更新元數據;審計和報告數據倉庫的使用和狀態;刪除數據;復制、分割和分發數據;備份和恢復;存儲管理。
信息發布系統:把數據倉庫中的數據或其他相關的數據發送給不同的地點或用戶。基于Web的信息發布系統是對付多用戶訪問的最有效方法。
技術實現
¨硬件平臺:數據倉庫的硬盤容量通常要是操作數據庫硬盤容量的2-3倍。通常大型機具有更可靠的性能和和穩定性,也容易與歷史遺留的系統結合在一起;而PC服務器或UNIX服務器更加靈活,容易操作和提供動態生成查詢請求進行查詢的能力。選擇硬件平臺時要考慮的問題:是否提供并行的I/O吞吐?對多CPU的支持能力如何?
¨網絡結構:數據倉庫的實施在那部分網絡段上會產生大量的數據通信,需不需要對網絡結構進行改進。
建立數據倉庫的步驟
1)收集和分析業務需求
2)建立數據模型和數據倉庫的物理設計
3)定義數據源
4)選擇數據倉庫技術和平臺
5)從操作型數據庫中抽取、凈化、和轉換數據到數據倉庫
6)選擇訪問和報表工具
7)選擇數據庫連接軟件
8)選擇數據分析和數據展示軟件
9)更新數據倉庫
數據抽取、清理、轉換、和移植
1)數據轉換工具要能從各種不同的數據源中讀取數據
2)支持平面文件、索引文件
3)能以不同類型數據源為輸入整合數據
4)具有規范的數據訪問接口
5)最好具有從數據字典中讀取數據的能力
6)工具生成的代碼必須是在開發環境中可維護的
7)能只抽取滿足指定條件的數據,和源數據的指定部分
8)能在抽取中進行數據類型轉換和字符集轉換
9)能在抽取的過程中計算生成衍生字段
10)能讓數據倉庫管理系統自動調用以定期進行數據抽取工作,或能將結果生成平面文件
11)必須對軟件供應商的生命力和產品支持能力進行仔細評估