在過(guò)去幾十年來(lái),數(shù)據(jù)管理和商業(yè)智能已然成為了企業(yè)價(jià)值創(chuàng)造的核心。那么,就不妨來(lái)閱讀一下本文所介紹的Computer Weekly是如何跟蹤數(shù)據(jù)管理所為企業(yè)組織帶來(lái)的相關(guān)承諾和磨難吧。
在過(guò)去的半個(gè)世紀(jì)中,數(shù)據(jù)管理已經(jīng)成為大部分IT商業(yè)價(jià)值的助產(chǎn)師。
在大約二十年前的1996年11月7日,當(dāng)Nicholas Enticknap撰文以紀(jì)念 Computer Weekly創(chuàng)刊30周年時(shí),他寫(xiě)道:“20世紀(jì)90年代以來(lái),IT為企業(yè)所提供的競(jìng)爭(zhēng)優(yōu)勢(shì)越來(lái)越明顯,而這也導(dǎo)致了數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用程序的興起。
“這同時(shí)還導(dǎo)致了能夠使得您企業(yè)組織所擁有的數(shù)據(jù)和應(yīng)用程序方面的優(yōu)勢(shì)能夠?yàn)閯e人所用的一大升值,包括為客戶、供應(yīng)商和中介機(jī)構(gòu)(如經(jīng)紀(jì)公司)所用。”
二十年后,還是在這一IT大背景下,數(shù)據(jù)管理、商業(yè)智能和數(shù)據(jù)分析仍然有著特殊使命。Enticknap繼續(xù)評(píng)論其是“自20世紀(jì)90年代以來(lái),所推動(dòng)的第二次重大革命:基于互聯(lián)網(wǎng)計(jì)算的興起。”
而在更早十年的1986年7月3日所發(fā)行的Computer Weekly報(bào)刊上,同一作者也曾談到了類似的主題,在一系列關(guān)于當(dāng)時(shí)所謂的“第五次革命”的計(jì)算相關(guān)的介紹文章中,涉及到人工智能(AI):“我們即將看到新的應(yīng)用程序被陸續(xù)推出,旨在將數(shù)據(jù)轉(zhuǎn)化為信息,如提供決策支持和專家系統(tǒng)。”
從第一代到第四代的計(jì)算,無(wú)論它們之間具體區(qū)別的細(xì)節(jié)是怎樣的,都“遵循了由約翰·馮諾依曼(John vonNeumann)和他的同事們?cè)?944年所首次提出的同樣的基本計(jì)算機(jī)體系結(jié)構(gòu)”,Enticknap寫(xiě)道,彼時(shí)一臺(tái)計(jì)算機(jī)還是“一臺(tái)超級(jí)強(qiáng)大的計(jì)算器時(shí),而電子仍處于其起步階段。”
而一大方面的新的典范,其中還包括了用戶友好的計(jì)算機(jī),則很好的解決了“如何充分利用在數(shù)據(jù)領(lǐng)域的大規(guī)模投資的問(wèn)題。”
關(guān)系數(shù)據(jù)庫(kù)模型和語(yǔ)言
Enticknap于1996年寫(xiě)道,到了20世紀(jì)70年代,我們已經(jīng)看到,事務(wù)處理數(shù)據(jù)庫(kù)的建立、而微型計(jì)算機(jī)也已經(jīng)作為一種商業(yè)工具。同時(shí),我們還看到數(shù)據(jù)庫(kù)管理系統(tǒng)和跨多臺(tái)微型計(jì)算機(jī)的分布式處理的推出,而不再是集中于單一一臺(tái)大型主機(jī)。
到那個(gè)時(shí)候,關(guān)系數(shù)據(jù)庫(kù)模型打破了數(shù)據(jù)存儲(chǔ)和應(yīng)用程序之間的依賴關(guān)系,已成為了眾所周知的事情。其已經(jīng)由供職于IBM、牛津大學(xué)畢業(yè)的數(shù)學(xué)家英國(guó)人Tedd Codd在1970發(fā)表了一篇論文《A Relational Model of Data for Large Shared Data Banks(大型共享數(shù)據(jù)庫(kù)的關(guān)系數(shù)據(jù)模型)》從理論上證明成立了。
智能業(yè)務(wù)策略分析師兼顧問(wèn)邁克·弗格森為T(mén)ed Codd及其合作者和同事們工作,而劍橋數(shù)學(xué)家Chris Date則在上世紀(jì)80年代末期則為他們工作。
弗格森很驚訝的發(fā)現(xiàn),IBM花了如此長(zhǎng)的時(shí)間——大約11年的時(shí)間——才將Codd發(fā)明的關(guān)系模型轉(zhuǎn)變?yōu)閿?shù)據(jù)庫(kù)產(chǎn)品。到了1978年,拉里·埃里森和他的Oracle數(shù)據(jù)庫(kù)團(tuán)隊(duì)彌補(bǔ)了這一差距。而Oracle目前仍然是企業(yè)數(shù)據(jù)庫(kù)領(lǐng)域的巨頭。
IBM也是結(jié)構(gòu)化查詢語(yǔ)言(SQL)的滋生地,其是由 Donald Chamberlin和Raymond Boyce在上世紀(jì)70年代中期所發(fā)明的,而且該語(yǔ)言目前仍然是最被廣泛使用的數(shù)據(jù)庫(kù)語(yǔ)言。
SQL是一種實(shí)現(xiàn)關(guān)系模型的語(yǔ)言。弗格森回憶了Codd和Date在涉及距離原始概念的偏差時(shí)的不滿。盡管如此,借助SQL,關(guān)系數(shù)據(jù)庫(kù)——如Oracle的數(shù)據(jù)庫(kù)、以及IBM的DB2、微軟的SQL Server、現(xiàn)在由SAP所擁有的Sybase DB,已經(jīng)發(fā)展壯大。
事實(shí)上,SQL在數(shù)據(jù)庫(kù)領(lǐng)域的持久存在已十分顯著。盡管在過(guò)去的10年里,有Hadoop堆棧、NoSQL數(shù)據(jù)庫(kù)、Apache Spark框架這樣的所謂的大數(shù)據(jù)技術(shù)的興起,但SQL已多次作為數(shù)據(jù)查詢的超級(jí)語(yǔ)言回歸了。
數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能
在紀(jì)念Computer Weekly創(chuàng)刊三十周年的??希幸粋€(gè)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)如何在1996年嚴(yán)重辜負(fù)了關(guān)于其炒作的故事。
“彼時(shí),盡管?chē)@著這一概念有著各種各樣的炒作,但在英國(guó)排名前1000名的企業(yè)組織中,僅僅只有不到10%的企業(yè)組織正在部署實(shí)施數(shù)據(jù)倉(cāng)庫(kù)。”據(jù)Computer Weekly的報(bào)道。而在今天,我們又
在基于大數(shù)據(jù)Hadoop的“數(shù)據(jù)湖”的領(lǐng)域,看到發(fā)生了類似的故事。
數(shù)據(jù)倉(cāng)庫(kù)體現(xiàn)了以分析為目的的數(shù)據(jù)庫(kù)技術(shù)的演變,并主張為一家企業(yè)組織所有的業(yè)務(wù)系統(tǒng)數(shù)據(jù)建立集中的存儲(chǔ)庫(kù)。
這個(gè)想法主要是獲取事務(wù)性數(shù)據(jù)庫(kù)的數(shù)據(jù),并將其加載到數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行分析。這樣一個(gè)對(duì)于生成數(shù)據(jù)的提取、轉(zhuǎn)換和加載(ETL)的技術(shù),遷移數(shù)據(jù),然后利用商業(yè)智能(BI)軟件將編寫(xiě)SQL查詢的痛苦移除,來(lái)寫(xiě)報(bào)告和分析。
這套技術(shù)現(xiàn)在經(jīng)常被用于處理過(guò)于緩慢和過(guò)時(shí)的任務(wù),以及過(guò)于依賴于企業(yè)內(nèi)部IT的任務(wù)。其在今天經(jīng)常被用來(lái)與新一波的現(xiàn)代數(shù)據(jù)發(fā)現(xiàn)和可視化軟件進(jìn)行對(duì)比,包括諸如Qlik、Tableau和similar ilk,以避免IT作為一種功能。
然而,在上世紀(jì)90年代中后期和2000年代早期,弗格森非常希望重申以數(shù)據(jù)倉(cāng)庫(kù)、ETL和商業(yè)智能軟件這三種技術(shù)為代表的生產(chǎn)力的基本的階躍變化。
“彼時(shí),數(shù)據(jù)倉(cāng)庫(kù)絕對(duì)需要瞄準(zhǔn)BI市場(chǎng)。截至那時(shí),我們所有的都是那些綠色和白色打印的紙張,吐出事務(wù)型數(shù)據(jù)庫(kù)系統(tǒng),以進(jìn)行報(bào)告。”他說(shuō)。
弗格森說(shuō),他曾在那個(gè)時(shí)候供職于Teradata公司,而該公司在彼時(shí)在其大規(guī)模并行處理數(shù)據(jù)庫(kù)“非常具有先鋒性”,并為以報(bào)告為目的進(jìn)行了優(yōu)化。
再加上當(dāng)時(shí)興起的ETL技術(shù)(特別是興起于現(xiàn)在的Informatica公司)和BI工具——包括Business Objects公司、Cognos公司以及MicroStrategy公司,等等——數(shù)據(jù)倉(cāng)庫(kù)/商業(yè)智能,標(biāo)志著“生產(chǎn)力的分水嶺”,弗格森說(shuō)。
他說(shuō):“早期實(shí)施了這些技術(shù)的10%的企業(yè)組織,都是由那些已經(jīng)看到了洞察力的價(jià)值的管理者們所領(lǐng)導(dǎo)的”。
這種洞察力也是從SAS和(現(xiàn)在的IBM的SPSS預(yù)測(cè))等數(shù)據(jù)分析技術(shù)的使用而產(chǎn)生的,其較少的是關(guān)于BI報(bào)告,而更多的則是關(guān)于用于預(yù)測(cè)的統(tǒng)計(jì)模型的建立。
數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)與來(lái)自SAP公司、Siebel的大企業(yè)資源規(guī)劃(ERP)和客戶關(guān)系管理(CRM)軟件包的興起并行發(fā)展。
近年來(lái),SAP公司已經(jīng)開(kāi)始專攻內(nèi)存、列式數(shù)據(jù)庫(kù)(columnar database)平臺(tái)Hana,據(jù)說(shuō)這是要把分析和事務(wù)數(shù)據(jù)庫(kù)模型整合在一起。
正如我們已經(jīng)在Computer Weekly的報(bào)道中看到,商業(yè)軟件的歷史將是這一個(gè)主題的姊妹篇。
在弗格森看來(lái),我們?cè)谶@里可以說(shuō),ETL供應(yīng)商們正面臨“從他們的業(yè)務(wù)應(yīng)用程序中獲取數(shù)據(jù),而數(shù)據(jù)模型并未得到很好的理解的壓力”,以及從上世紀(jì)90年代及之后的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)獲取數(shù)據(jù)的壓力。
網(wǎng)絡(luò)的到來(lái)
正是由于這些技術(shù)對(duì)于數(shù)據(jù)庫(kù)制造商和數(shù)據(jù)庫(kù)管理員并不復(fù)雜,另一個(gè)英國(guó)人蒂姆·伯納斯·李在1994年發(fā)明了萬(wàn)維網(wǎng)。而Computer Weekly也從90年代中期開(kāi)始建立其網(wǎng)站。
在線事務(wù)處理(OLTP)數(shù)據(jù)庫(kù)的特殊點(diǎn)在于,他們從來(lái)都不是為了服務(wù)于在網(wǎng)絡(luò)上的大量并發(fā)用戶而建立的,更不用說(shuō)那些來(lái)自手機(jī)等移動(dòng)設(shè)備的網(wǎng)絡(luò)訪問(wèn)了,尤其是隨著現(xiàn)如今的智能手機(jī)的興起。
在1996年3月28日出版的Computer Weekly上,Julia Vowler報(bào)道了關(guān)系數(shù)據(jù)庫(kù)供應(yīng)商和對(duì)象數(shù)據(jù)庫(kù)供應(yīng)商公司(如Informix公司)之間的網(wǎng)絡(luò)戰(zhàn)爭(zhēng)。彼時(shí),Informix公司的技術(shù)被公認(rèn)為更適合于支持文本、音頻、視頻、HTML和Java;以及連接數(shù)據(jù)庫(kù)到Web服務(wù)器。
據(jù)報(bào)道,Informix公司的客戶包括摩根斯坦利、雷曼兄弟和美國(guó)宇航局。
而到了今天,誰(shuí)記得面向?qū)ο蟮臄?shù)據(jù)庫(kù)管理系統(tǒng)公司呢?當(dāng)然,這方面的技術(shù)仍然在不斷發(fā)展,面向?qū)ο蟮木幊陶Z(yǔ)言包括諸如C#、Python和Perl、Ruby仍在繼續(xù)蓬勃發(fā)展。
但是,那些試圖取代甲骨文和其它關(guān)系數(shù)據(jù)庫(kù)供應(yīng)廠商的企業(yè)基本上都被業(yè)內(nèi)其他企業(yè)所取代了——Informix公司在2001年由IBM收購(gòu)。
大數(shù)據(jù)的興起
然而,關(guān)系模型的霸權(quán)最近遭到了來(lái)自NoSQL(不僅僅是SQL,NotOnlySQL)公司熱潮高漲的質(zhì)疑和挑戰(zhàn),其往往是基于開(kāi)源技術(shù)的,但也并不全是基于開(kāi)源技術(shù)的。MarkLogic便是一款非開(kāi)源的NoSQL技術(shù)。但是,我們現(xiàn)在已經(jīng)有了Basho( Rick技術(shù))、Couchbase、DataStax公司(Cassandra數(shù)據(jù)庫(kù))和MongoDB。
弗格森將這個(gè)群體總結(jié)為提供了非常具體的使用案例,通常與電子商務(wù)或其他網(wǎng)站操作運(yùn)營(yíng)事務(wù)相關(guān)。
在2014年,Teradata公司的首席技術(shù)官Stephen Brobst在接受Computer Weeky 的采訪時(shí)表示,NoSQL的供應(yīng)商們最終會(huì)走上對(duì)象數(shù)據(jù)庫(kù)供應(yīng)商們的老路。
“在硅谷,SQL和NoSQL的偏執(zhí)狂之間將會(huì)有一場(chǎng)宗教似的戰(zhàn)爭(zhēng)。而最終,理性會(huì)贏得勝利。在SQL中執(zhí)行一切的工作任務(wù)絕不是一個(gè)好主意,而所有工作任務(wù)都不在SQL中執(zhí)行也不是一個(gè)好主意。”Brobst說(shuō)。
“而關(guān)于NoSQL,Mongo在為Java程序員們?cè)鰪?qiáng)易用性方面確實(shí)做得相當(dāng)不錯(cuò)。而Cassandra則是很好的網(wǎng)絡(luò)日志。但我相信,未來(lái)所將會(huì)發(fā)生的事情很可能是20世紀(jì)90年代對(duì)象數(shù)據(jù)庫(kù)所發(fā)生事情的重演。”他說(shuō)。
“當(dāng)時(shí)的呼聲是’關(guān)系模型已死',其已經(jīng)統(tǒng)治有20年了”。但是,從本質(zhì)上講,關(guān)系數(shù)據(jù)庫(kù)工程師們挖走了所有的好點(diǎn)子,并帶給了對(duì)象數(shù)據(jù)庫(kù),扼殺了那些純粹的對(duì)象數(shù)據(jù)庫(kù)的工程師們。”他說(shuō)。
諸如此類的任何事情都可以證明這種預(yù)測(cè)的準(zhǔn)確性,而較新的數(shù)據(jù)庫(kù)供應(yīng)商所興起的基礎(chǔ)與已經(jīng)興起的Hadoop系列技術(shù)的基礎(chǔ)則是一樣的——大數(shù)據(jù)。
大數(shù)據(jù)是我們現(xiàn)如今所經(jīng)常到處流傳的一大術(shù)語(yǔ),但可以說(shuō)包括了從社交媒體數(shù)據(jù)、機(jī)器生成的數(shù)據(jù)和其他不符合行和列的關(guān)系數(shù)據(jù)庫(kù)技術(shù)的各種數(shù)據(jù)類型。
自從戰(zhàn)略公司麥肯錫在其于2011年5月發(fā)布的報(bào)告中將大數(shù)據(jù)這一術(shù)語(yǔ)描述為:“創(chuàng)新、市場(chǎng)競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域,企業(yè)CXO級(jí)別的企業(yè)領(lǐng)導(dǎo)人將因此而被自己的IT部門(mén)卡住咽喉”以來(lái),“我們的大數(shù)據(jù)在哪里?我們?cè)鯓硬拍軓闹匈嶅X(qián)呢?”一直是企業(yè)高層執(zhí)行人員所魂?duì)繅?mèng)繞的問(wèn)題。有些人甚至可能問(wèn):“Hadoop是什么?”
Hadoop技術(shù),或者,更準(zhǔn)確地說(shuō),Hadoop分布式文件系統(tǒng)——是一款開(kāi)源版本的并行編程框架,稱為MapReduce,最初是由谷歌開(kāi)發(fā)的。
其簡(jiǎn)化了分布在商品硬件上的跨大型數(shù)據(jù)集的數(shù)據(jù)處理,是由Doug Cutting和Mike Cafarella十年前在雅虎公司開(kāi)發(fā)的。Cutting現(xiàn)在是Cloudera的高管,該公司是Hadoop的分銷(xiāo)商公司之一,還包括Hortonworks和MapR。
MapReduce本身即將被由DataBricks公司商品化的Apache Spark所取代(或補(bǔ)充)。Spark是另一種并行處理架構(gòu),但它并不局限于Hadoop技術(shù),并且可以在關(guān)系數(shù)據(jù)存儲(chǔ)以及NoSQL數(shù)據(jù)庫(kù)運(yùn)行。其也不是batchy,而MapReduce則是的。
數(shù)據(jù)管理的未來(lái)
今天,數(shù)據(jù)管理是一個(gè)令人興奮的、快速發(fā)展的領(lǐng)域。而根據(jù)Computer Weekly的報(bào)道,在過(guò)去的50年——尤其是在過(guò)去20年間,隨著網(wǎng)絡(luò)和大數(shù)據(jù)的興起,我們對(duì)此已經(jīng)討論了太多。
我們還討論過(guò)太多關(guān)于主數(shù)據(jù)管理(MDM)、共享數(shù)據(jù)的安全管理等議題,這些通常是關(guān)于真實(shí)的單一版本;而MDM的基礎(chǔ)——數(shù)據(jù)管理,總是會(huì)回來(lái)困擾數(shù)據(jù)專業(yè)人士和數(shù)據(jù)庫(kù)供應(yīng)商。
而弗格森的觀點(diǎn)則是,“企業(yè)IT現(xiàn)在比任何時(shí)候都需要更多的工具,以便降低復(fù)雜性,而CIO們也不再需要花大錢(qián)來(lái)支付數(shù)據(jù)科學(xué)與數(shù)據(jù)工程方面的技能了。在某種程度上,這是回到了Codd的時(shí)代。我們需要數(shù)據(jù)的獨(dú)立性。那么,數(shù)據(jù)存儲(chǔ)被在哪里有什么關(guān)系?工具和應(yīng)用程序不應(yīng)該知道這一點(diǎn)。”
無(wú)論技術(shù)將如何打造未來(lái)的數(shù)據(jù)管理架構(gòu)的形態(tài),該領(lǐng)域只能發(fā)展成為商業(yè)價(jià)值的主要承擔(dān)者之一。其來(lái)自IT,并為了企業(yè)組織的發(fā)展及其未來(lái)。而更重要的是,我們這些為此而記錄和撰寫(xiě)文章的人將有大量的工作要做。
文章來(lái)源:機(jī)房專用空調(diào) http://www.umvbook.com
ot articles