數(shù)據(jù)倉庫分層的原因
1通過數(shù)據(jù)預(yù)處理提高效率,因為預(yù)處理,所以會存在冗余數(shù)據(jù)
2如果不分層而業(yè)務(wù)系統(tǒng)的業(yè)務(wù)規(guī)則發(fā)生變化,就會影響整個數(shù)據(jù)清洗過程,工作量巨大
3通過分層管理來實現(xiàn)分步完成工作,這樣每一層的處理邏輯就簡單了
標(biāo)準(zhǔn)的數(shù)據(jù)倉庫分層:ods(臨時存儲層),pdw(數(shù)據(jù)倉庫層),mid(數(shù)據(jù)集市層),app(應(yīng)用層)
ods:歷史存儲層,它和源系統(tǒng)數(shù)據(jù)是同構(gòu)的,而且這一層數(shù)據(jù)粒度是最細(xì)的,這層的表分為兩種,一種是存儲當(dāng)前需要加載的數(shù)據(jù),一種是用于存儲處理完后的數(shù)據(jù)。
pdw:數(shù)據(jù)倉庫層,它的數(shù)據(jù)是干凈的數(shù)據(jù),是一致的準(zhǔn)確的,也就是清洗后的數(shù)據(jù),它的數(shù)據(jù)一般都遵循數(shù)據(jù)庫第三范式,數(shù)據(jù)粒度和ods的粒度相同,它會保存bi系統(tǒng)中所有歷史數(shù)據(jù)
mid:數(shù)據(jù)集市層,它是面向主題組織數(shù)據(jù)的,通常是星狀和雪花狀數(shù)據(jù),從數(shù)據(jù)粒度將,它是輕度匯總級別的數(shù)據(jù),已經(jīng)不存在明細(xì)的數(shù)據(jù)了,從廣度來說,它包含了所有業(yè)務(wù)數(shù)量。從分析角度講,大概就是近幾年
app:應(yīng)用層,數(shù)據(jù)粒度高度匯總,倒不一定涵蓋所有業(yè)務(wù)數(shù)據(jù),只是mid層數(shù)據(jù)的一個子集。
數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持。數(shù)據(jù)倉庫的context也可以理解為:數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)應(yīng)用
數(shù)據(jù)倉庫可以理解為中間集成化數(shù)據(jù)管理的一個平臺
etl(抽取extra,轉(zhuǎn)化transfer,裝載load)是數(shù)據(jù)倉庫的流水線,也可以認(rèn)為是數(shù)據(jù)倉庫的血液。
數(shù)據(jù)倉庫的存儲并不需要存儲所有原始數(shù)據(jù),因為比如你存儲冗長的文本數(shù)據(jù)完全沒必要,但需要存儲細(xì)節(jié)數(shù)據(jù),因為需求是多變的,而且數(shù)據(jù)倉庫是導(dǎo)入數(shù)據(jù)必須經(jīng)過整理和轉(zhuǎn)換使它面向主題,因為前臺數(shù)據(jù)庫的數(shù)據(jù)是基于oltp操作組織優(yōu)化的,這些可能不適合做分析,面向主題的組織形式才有利于分析。
多維數(shù)據(jù)模型就是說可以多維度交叉查詢和細(xì)分,應(yīng)用一般都是基于聯(lián)機分析處理(online analytical process OLAP),面向特定需求群體的數(shù)據(jù)集市會基于多位數(shù)據(jù)模型構(gòu)建
而報表展示就是將聚合數(shù)據(jù)和多維分析數(shù)據(jù)展示到報表,提供簡單和直觀的數(shù)據(jù)。
元數(shù)據(jù),也叫解釋性數(shù)據(jù),或者數(shù)據(jù)字典,會記錄數(shù)據(jù)倉庫中模型的定義,各層級之間的映射關(guān)系,監(jiān)控數(shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)和etl的任務(wù)運行狀態(tài)。一般通過元數(shù)據(jù)資料庫來統(tǒng)一存儲和管理元數(shù)據(jù)。
數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù)的集合,用于支持經(jīng)營管理中的決策制定過程。
基于主題而組織的數(shù)據(jù)便于面向主題分析決策,它所有的集成性、穩(wěn)定性及時間特征使其成為了分析型數(shù)據(jù),為決策層提供決策支持。數(shù)據(jù)倉庫系統(tǒng)也是一個管理系統(tǒng),它由三部分組成:數(shù)據(jù)倉庫,數(shù)據(jù)倉庫管理系統(tǒng),數(shù)據(jù)倉庫工具。
倉儲物流配送供應(yīng)鏈服務(wù)商自主研發(fā)的物流倉儲配送全網(wǎng)系統(tǒng)就成為了電子商務(wù)的新寵,不僅可以綁定天貓、淘寶、京東、一號店等電商后臺物流平臺,幫助企業(yè)賣家直接后臺下單發(fā)貨,而且更為重要的是能夠為不同的企業(yè)賣家提供不同的倉儲物流配送解決方案,智工廠可以提供低成本的物流配送模式,也可以提供最快速的物流配送方案。
? (一)數(shù)據(jù)源 是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。
通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于 RDBMS 中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。
外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等; (二)數(shù)據(jù)的存儲與管理 是整個數(shù)據(jù)倉庫系統(tǒng)的核心。 數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。
數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。
針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進行抽取、清理,并有效集成,按照主題進行組織。 數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。
(三)OLAP(聯(lián)機分析處理)服務(wù)器 對分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。其具體實現(xiàn)可以分為:ROLAP(關(guān)系型在線分析處理)、MOLAP(多維在線分析處理)和 HOLAP(混合型線上分析處理)。
ROLAP 基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在 RDBMS 之中;MOLAP 基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP 基本數(shù)據(jù)存放于RDBMS 之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。 (四)前端工具 主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以數(shù)據(jù)挖掘及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。
其中數(shù)據(jù)分析工具主要針對 OLAP 服務(wù)器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。 ----------------------------- 由安信公司歷經(jīng) 4 年研發(fā)的監(jiān)測數(shù)據(jù)管理平臺,采用獨創(chuàng)的技術(shù)架構(gòu),在 B/S 架構(gòu)上融入 C/S 模式,囊括了實驗室管理系統(tǒng)、監(jiān)測站辦公自動化、監(jiān)測站綜合業(yè)務(wù)管理系統(tǒng)、監(jiān)測數(shù)據(jù)上報系統(tǒng)等諸多系統(tǒng),把各個系統(tǒng)有機融合在一起,不同的業(yè)務(wù)科室展現(xiàn)不同工作頁面,內(nèi)部卻又實現(xiàn)了數(shù)據(jù)共享。
系統(tǒng)頁面簡單大方,操作輕松方便,在不增加實驗室工作量的情況下,能夠讓監(jiān)測數(shù)據(jù)進入系統(tǒng)中,原始記錄單等諸多實驗室報表可協(xié)助生成(不完全生成,需人工簽字),隨后科室比如質(zhì)控、綜合、主管領(lǐng)導(dǎo)即可對數(shù)據(jù)進行多層次利用查詢,并自動生成各類監(jiān)測報表。 系統(tǒng)采用流程化工作模式,對不同監(jiān)測任務(wù)實施不同工作流,保證工作的科學(xué)和嚴(yán)謹(jǐn),對于單位內(nèi)部職工每天待辦事宜清晰顯示,讓內(nèi)部職工對每天工作都一目了然。
系統(tǒng)工作流程可自由配置,工作單可根據(jù)按照配置流轉(zhuǎn)相應(yīng)單位,并且可以對工作流程進行追蹤查詢,作為領(lǐng)導(dǎo)可以查看到每一項安排工作的流轉(zhuǎn)情況、完成情況和監(jiān)測結(jié)果。 系統(tǒng)支持短信功能,對于領(lǐng)導(dǎo)等科室一些緊急任務(wù)可在系統(tǒng)下達后,立刻用短信通知相應(yīng)工作人員,對于單位緊急通知等也可以進行短信通知,讓監(jiān)測站的工作更加快捷高效。
系統(tǒng)提供深層次數(shù)據(jù)挖掘功能,能夠根據(jù)監(jiān)測數(shù)據(jù),快速提供某監(jiān)測點的多方位數(shù)據(jù),比如歷年來某月COD 的監(jiān)測數(shù)據(jù)變化,幾年來某項監(jiān)測數(shù)據(jù)的月平均值變化等等,為監(jiān)測站領(lǐng)導(dǎo)決策提供科學(xué)依據(jù)。 系統(tǒng)生成報表功能強大,除自身已包含眾多報表外,可迅速生成 WORD 下各種客戶要求的監(jiān)測報表,并且查閱維護方便。
系統(tǒng)作為平臺拓展性強,可以融合其他系統(tǒng)與平臺上,并且后期功能升級方便不影響前期功能。 目前系統(tǒng)已經(jīng)在多個地 方監(jiān)測站運行,從使用效果來看是比較實用的。
數(shù)據(jù)倉庫在中國人民財產(chǎn)保險公司的應(yīng)用案例 事情要從一封信講起,去年年底,中國人民財產(chǎn)保險公司信息技術(shù)部總經(jīng)理趙軍接到了2003年國際計算機chp(computer-world honors program)大賽主席委員會執(zhí)行董事daniel morrow先生的親筆信,告之“人保財險新一代綜合業(yè)務(wù)處理系統(tǒng)”從50多個國家和地區(qū)的500多家參賽企業(yè)中脫穎而出,榮獲美國“計算機世界榮譽獎”提名,順利進入決賽。
不要小看了這個榮譽,國內(nèi)金融機構(gòu)只有招商銀行曾經(jīng)入圍過。 “獲獎是對企業(yè)過去一年中信息化建設(shè)的肯定,但是按照慣例,獲獎企業(yè)都會接下來的一年忙得不亦樂乎”,daniel的信尾贈言又把趙軍從喜悅拉回了現(xiàn)實…… 令人緊張的預(yù)言 事實上,趙軍已經(jīng)忙的不亦樂乎了,做完核心系統(tǒng)之后,緊接著新型數(shù)據(jù)倉庫構(gòu)建就上馬了。
無獨有偶,招商銀行自從2002年獲chp大獎之后,也是馬不停蹄地投入了后臺數(shù)據(jù)庫的改造項目。 為什么把精力放到數(shù)據(jù)倉庫上呢?原因是業(yè)務(wù)系統(tǒng)的發(fā)展很大程度上受制于后臺數(shù)據(jù)結(jié)構(gòu),對金融機構(gòu)來講,在加入wto之初就嚷嚷的很兇的“銀行客戶分級服務(wù)”、“保險費率細(xì)分”、“風(fēng)險定價”等一系列服務(wù)都受牽制。
比如在2003年初,保監(jiān)會放開了車險費率,一時間各家保險公司紛紛公布了自己的收費明細(xì),可是細(xì)看下來,大家的費率又幾乎趨同,比如在個性保費上,各家公司都有一條,就是女性駕駛 員比男性保費下浮20%,但據(jù)業(yè)內(nèi)人士介紹,這僅僅是各家公司憑經(jīng)驗作出的判斷,對于女性的年齡、教育及家庭背景的差異并沒有區(qū)別對待。 而美國的保險公司則是,一位女性,30歲,大學(xué)文化,有一個小孩,沒有賠償記錄,可以享受最多50%的保費優(yōu)惠。
人家的邏輯就是,受過高等教育的客戶要比沒有受過高等教育的客戶風(fēng)險低,有孩子的女性責(zé)任心要比一般人高,歲數(shù)大的人開快車的可能性要小,沒有賠償記錄說明駕駛行為規(guī)范。 不要以為這只是簡單推論,它可是基于成千上萬件保單分析的結(jié)果。
目前國內(nèi)各家保險公司顯然還不能提供如此精細(xì)的費率評估,因為他們現(xiàn)階段還不能對客戶的數(shù)據(jù)進行有效的分析利用,換句話說技術(shù)水平達不到。 “芭蕾”的領(lǐng)舞者 面對金融機構(gòu)wto保護期即將過時,各家公司都非常著急,希望能夠在最短的時間內(nèi)把數(shù)據(jù)倉庫項目做好。
在這方面,人保成了第一個吃螃蟹的公司。 趙軍形象地描繪到,要想讓公司能夠靈活地應(yīng)對市場變化,方法只有一個,就是對應(yīng)用系統(tǒng)和后臺數(shù)據(jù)庫重新設(shè)計,反映到市場上來,就是采取非常靈活的價格手段,讓人保這頭“大象”跳“芭蕾”。
當(dāng)然,系統(tǒng)重做對于一家保險公司來說無異于大換血,而且就人保現(xiàn)在的經(jīng)驗來看,單獨完成這項任務(wù)也是很困難的。 為此,人保選擇了與ibm公司開展合作,希望借用ibm的經(jīng)驗來完成前后臺系統(tǒng)的改造。
指揮人保這個大公司跳芭蕾并不容易,除了機構(gòu)、人員的因素外,信息系統(tǒng)本身也有很多限制。因為過去人保一直采用的是以保單為中心的業(yè)務(wù)系統(tǒng)和數(shù)據(jù)庫,這雖然在操作上占了一些便宜(主要是效率較高),但是在數(shù)據(jù)存儲上并不科學(xué)。
直接的反應(yīng)就是,如果被保險人買了多張保單,那么在數(shù)據(jù)庫中這個人就會多次出現(xiàn),在日后數(shù)據(jù)抽取分析的時候,就會遇到困難。另外,由于應(yīng)用系統(tǒng)能夠收集的數(shù)據(jù)項目較少,因此開展分析往往意義不大。
為此,ibm向人保推薦了iaa(保險應(yīng)用架構(gòu),insurance application architecture)和iiw(保險信息倉庫,insurance information warehouse)兩個數(shù)據(jù)模型,前者是保險公司的核心業(yè)務(wù)系統(tǒng)架構(gòu),后者是數(shù)據(jù)庫架構(gòu)。 iaa與iiw是ibm從90年開始,和全球40多個發(fā)起公司合作開發(fā)的,包括了財產(chǎn)險、壽險、再保險等保險應(yīng)用模型,現(xiàn)今全球有近140個用戶在基于這個模型開發(fā)產(chǎn)品。
當(dāng)然,即便有ibm的幫助,要把整個企業(yè)數(shù)據(jù)庫和應(yīng)用系統(tǒng)替換掉也是不可取的,系統(tǒng)遷移的風(fēng)險不談,僅僅是數(shù)據(jù)的導(dǎo)入也已經(jīng)十分復(fù)雜。 為此,人保決定,先對數(shù)據(jù)分析的關(guān)鍵——iiw進行試點。
人保的想法是,選擇一個技術(shù)和條件比較好的省會城市做試點,這個城市既要業(yè)務(wù)多樣,又要保單量中等,這樣對于試驗是比較客觀的。經(jīng)過一個月的仔細(xì)比較,最終這個艱巨的任務(wù)就落到了人間天堂——浙江杭州。
杭州城下游臨安 雷鋒塔中尋白娘 西湖水邊曉月照 梅家塢中龍井香 杭州確實是一個美不勝收的地方,但 是作為本次iiw項目的參與人,張平(化名)此刻并沒有心情游山玩水,因為在他面前,還有太多太多的挑戰(zhàn)要克服。 500萬的壓力 張平來到中保浙江分公司后,主要的任務(wù)就是先協(xié)助員工把iiw建立起來,此后再把中保浙江分公司的所有的數(shù)據(jù)取出來,然后按照iiw的數(shù)據(jù)結(jié)構(gòu)進行轉(zhuǎn)換存儲,建立一個標(biāo)準(zhǔn)的信息倉庫,最后在此基礎(chǔ)上建立兩個小的數(shù)據(jù)集市,進行數(shù)據(jù)分析試驗。
整個試點項目耗資500萬元人民幣。 在此有必要給不熟悉的讀者對數(shù)據(jù)倉庫的概念作一個簡要介紹。
顧名思義,數(shù)據(jù)倉庫(data warehouse)就是一個倉庫,里面分門別類存放了一個公司所有的數(shù)據(jù)。光有倉庫是不能進行數(shù)據(jù)分析的,因為倉庫中的數(shù)據(jù)是海量的,如果要對某種信息進行分析,比如客戶信息,就要從倉庫中抽取所有與客戶有。
分層管理器 1、分層管理器架構(gòu) 分層管理器是實現(xiàn)大范圍數(shù)據(jù)的快速瀏覽的關(guān)鍵部分,它控制了逐層細(xì)化表的結(jié)構(gòu)和元數(shù)據(jù)的定義和賦值,定義了組件表中的關(guān)鍵信息,給出了空間數(shù)據(jù)的來源、數(shù)據(jù)挖掘規(guī)則、圖層加載范圍和圖形編輯、輸出和保存。
分層管理器有兩部分組成,分別為: a) 一組存儲于Oracle數(shù)據(jù)倉庫中的空間數(shù)據(jù)表,用于逐層細(xì)化圖層中的每個詳細(xì)信息層,這些表稱為組件表; b) 一個空表,包含該表的結(jié)構(gòu)定義和描述組件表的特殊元數(shù)據(jù),該表稱為逐層細(xì)化表。 任何逐層細(xì)化應(yīng)用程序均需要逐層細(xì)化表,從中可以了解逐層細(xì)化圖層中各層的層次關(guān)鍵字描述,以及它們之間的層次關(guān)聯(lián)方式。
進行分層時,分層管理器作為程序的一部分,確定需要添加的子圖元所在的圖層及其關(guān)鍵字,以便確定在逐層細(xì)化圖層中需要添加和刪除的圖元信息。 逐層細(xì)化圖層是一種特殊的地圖圖層,它是有自己表結(jié)構(gòu)的空白圖層,并用元數(shù)據(jù)規(guī)定了所有加載圖層的一些規(guī)則和限制,所顯示出來的地圖信息是按照元數(shù)據(jù)規(guī)定的規(guī)則從其它表或數(shù)據(jù)庫中提取出來的。
在地圖中顯示逐層細(xì)化圖層時,分層管理器會創(chuàng)建一個臨時表,然后將組件表中的圖元復(fù)制到該臨時表中。 逐層細(xì)化圖層中顯示的圖元實際上是組件表中圖元的副本。
這樣就可以靈活的在圖層上面加載需要的信息。在應(yīng)用程序終止時,將丟棄該臨時表,為了保存有用的專題圖信息,可以對提取出來的圖層進行保存。
此時,如果用戶查看圖層信息時,逐層細(xì)化圖層仍將是單個圖層。 逐層細(xì)化表的要求作為分層管理器的組織核心部分,它定義了元數(shù)據(jù)關(guān)鍵字和三個標(biāo)準(zhǔn)列:關(guān)鍵字、層和標(biāo)簽。
并有著自己的一套語法: (1) 關(guān)鍵字 begin_metadata 標(biāo)記逐層細(xì)化表中元數(shù)據(jù)部分的開頭。 (2) 每行元數(shù)據(jù)包含兩個元素:關(guān)鍵字和值。
所有關(guān)鍵字和值均使用雙引號引起來。 (3) 逐層細(xì)化表必須包含 \IsDrilldown 關(guān)鍵字,該關(guān)鍵字的值必須為 True。
(4) 每個關(guān)鍵字以“\”(反斜線)開頭。 (5) 元數(shù)據(jù)關(guān)鍵字可以在層次結(jié)構(gòu)中嵌套。
層次結(jié)構(gòu)中的每一層以反斜線 (\) 標(biāo)記。 (6) 元數(shù)據(jù)包括 \DDMap\ComponentMaps\ 關(guān)鍵字層次結(jié)構(gòu)。
在該層次結(jié)構(gòu)中為每個組件表指定四個元數(shù)據(jù)關(guān)鍵字。 分層管理器的分層原理圖如圖1所示,從圖中可以看出,分層管理器有兩部分組成:組件表和逐層細(xì)化表組成,分層管理器根據(jù)系統(tǒng)的要求以數(shù)據(jù)挖掘的方式從Oracle數(shù)據(jù)倉庫中提取數(shù)據(jù),形成組件表中的某個圖層,然后確定需要加載圖層的名稱和圖層中的部分,并加載到逐層細(xì)化表中。
如果是第一次加載,此時的逐層細(xì)化表是空白圖層,在加載過程中,逐層細(xì)化表不斷的進行圖元信息的增加和刪除,這樣會出現(xiàn)每個組件表中的部分信息顯示在逐層細(xì)化表所示的圖層中。這樣輸出所需要的圖層,并對它進行編輯,由于逐層細(xì)化表中數(shù)據(jù)是個組件表中的副本,需要對編輯后的圖層進行另存,形成專題圖。
分層管理器首先形成空白圖層,通過分層管理器用數(shù)據(jù)挖掘工具從Oracle數(shù)據(jù)倉庫中提取數(shù)據(jù),根據(jù)分層管理器的元數(shù)據(jù)規(guī)則形成一級的圖層,在該圖層中,通過響應(yīng)事件,以確定加載二級圖層的圖層名稱和該圖層中的加載部分,相應(yīng)的加載三級、四級圖層數(shù)據(jù),在加載的同時,就形成了各種專題圖。 當(dāng)然,分層管理器功能的實現(xiàn)是通過GIS組件(MapX、MO、AO等)和編程語言(VB、VC、Delphi等)來實現(xiàn)的。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請在一個月內(nèi)通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時間:2.847秒