然而到了今天,存儲(chǔ)行業(yè)的現(xiàn)實(shí)狀況并不樂(lè)觀。
一方面,大數(shù)據(jù)發(fā)展的潮流不斷地全速前進(jìn)。盡管企業(yè)對(duì)于大數(shù)據(jù)的Volume(大批量)、Velocity(高速傳遞)、Variety(多樣性)等特征一直保持著高度的興致,但企業(yè)對(duì)于大數(shù)據(jù)技術(shù)的采用率仍然很低,主要仍集中在實(shí)驗(yàn)階段。同時(shí),一些大數(shù)據(jù)初創(chuàng)企業(yè)繼續(xù)吸引著大量的資金,并認(rèn)為這些大數(shù)據(jù)的賭博會(huì)讓他們完好無(wú)損。
大數(shù)據(jù)存儲(chǔ)沒(méi)什么大不了的
而另一方面,盡管市場(chǎng)似乎已經(jīng)為廣大的存儲(chǔ)企業(yè)帶來(lái)了明顯的理想優(yōu)勢(shì),但存儲(chǔ)企業(yè)并沒(méi)有充分融入到大數(shù)據(jù)發(fā)展的潮流中,盡管其中也不乏一些企業(yè)在朝著這方面努力。在過(guò)去的幾年中,我們已經(jīng)看到許多存儲(chǔ)企業(yè)投資于該領(lǐng)域——包括技術(shù)方面以及純營(yíng)銷(xiāo)方面,以便隨著大數(shù)據(jù)發(fā)展的趨勢(shì)而進(jìn)行自身的調(diào)整。
在技術(shù)方面,大部分都傾向于相信大多數(shù)存儲(chǔ)企業(yè)均擅長(zhǎng)于高效地存儲(chǔ)和保護(hù)大量數(shù)據(jù)——能夠十拿九穩(wěn)的戰(zhàn)勝那些部署Hadoop的企業(yè)。
當(dāng)您企業(yè)的數(shù)據(jù)中心可能已經(jīng)有了價(jià)值數(shù)百萬(wàn)美元的專(zhuān)用存儲(chǔ)設(shè)備,也具備相關(guān)的專(zhuān)業(yè)知識(shí)時(shí),為什么要在Hadoop中依靠相當(dāng)有限的數(shù)據(jù)存儲(chǔ)模型呢?因此,存儲(chǔ)行業(yè)的巨頭如EMC、賽門(mén)鐵克和IBM,以及一些較小存儲(chǔ)供應(yīng)商如Cleversafe,曾將他們的軟件技術(shù)與Hadoop進(jìn)行整合。
但是,這些方面的努力對(duì)于促進(jìn)企業(yè)用戶采用大數(shù)據(jù)技術(shù)方面的收效甚微。當(dāng)然,我們也可以看到某些極個(gè)別采用了大數(shù)據(jù)技術(shù)的案例,但到目前為止,存儲(chǔ)行業(yè)并未能找到一種能夠很好的融入大數(shù)據(jù)的方式。在我們與長(zhǎng)期運(yùn)行Hadoop社區(qū)的廣泛對(duì)話中,我們被告知無(wú)論是分銷(xiāo)商和終端用戶都從未提及過(guò)關(guān)于存儲(chǔ)的話題。其根本就不被視為一個(gè)問(wèn)題。
這種與大數(shù)據(jù)相關(guān)的明顯的矛盾,也明顯存在于我們對(duì)于最終用戶調(diào)研中。
當(dāng)我們?cè)诓稍L一些大中型企業(yè)的存儲(chǔ)專(zhuān)業(yè)人士關(guān)于其所在企業(yè)就大數(shù)據(jù)解決方案方面的投資計(jì)劃時(shí),四分之一的受訪者表示說(shuō)他們已經(jīng)在這方面有了投資,而有40%的受訪者則表示他們沒(méi)有這方面的計(jì)劃。其余的14%的受訪者表示他們已經(jīng)制定了在大數(shù)據(jù)方面的投資計(jì)劃,有13%的受訪者說(shuō)他們未來(lái)可能會(huì)制定大數(shù)據(jù)投資計(jì)劃。
許多企業(yè)受訪者告訴我們,他們處理大數(shù)據(jù)存儲(chǔ)的方式是通過(guò)利用現(xiàn)有的SAN。而這些企業(yè)表示,連續(xù)兩年的大數(shù)據(jù)運(yùn)行僅占其總存儲(chǔ)的3%。
大數(shù)據(jù)并不在數(shù)據(jù)中心
顯然,這有一些混亂。但這對(duì)于一個(gè)在短期內(nèi)被以驚人的程度大量使用,甚至是濫用的術(shù)語(yǔ)而言并不奇怪。詢問(wèn)一名存儲(chǔ)專(zhuān)業(yè)人士關(guān)于如何看待大數(shù)據(jù),他們腦海中所思考的大數(shù)據(jù)可能與數(shù)據(jù)科學(xué)家們的想象有很大的不同。
但是,讓我們來(lái)分析一些最為真實(shí)的大數(shù)據(jù)倡議吧(最典型的是基于Hadoop的項(xiàng)目),其并不在數(shù)據(jù)中心的核心運(yùn)行。其運(yùn)行在一個(gè)特設(shè)的個(gè)別部門(mén)的基礎(chǔ)實(shí)驗(yàn),如工程,產(chǎn)品開(kāi)發(fā)和市場(chǎng)營(yíng)銷(xiāo)。
核心的IT部門(mén)可能甚至都不知道有這樣的項(xiàng)目正在進(jìn)行中。在這樣的情況下,很容易了解到為什么存儲(chǔ)不受重視;重要的是,存儲(chǔ)的成本是很便宜的而且也易于使用。成本昂貴且難以管理的外部系統(tǒng),如SAN和NAS被視為矯枉過(guò)正的DAS規(guī)則。
雖然我們并不指望能夠在短時(shí)間內(nèi)會(huì)發(fā)生大的變化,但圍繞Hadoop項(xiàng)目長(zhǎng)期存在的一個(gè)問(wèn)題是,當(dāng)其達(dá)到一定的規(guī)模,成熟度和重要性時(shí),有必要把他們交付給IT部門(mén)來(lái)管理。
大數(shù)據(jù)存儲(chǔ)的前景
是否已經(jīng)有關(guān)于大數(shù)據(jù)存儲(chǔ)發(fā)展的一些跡象了呢?是的,但其仍然處于早期。當(dāng)我們?cè)诓稍L存儲(chǔ)專(zhuān)業(yè)人士關(guān)于驅(qū)動(dòng)數(shù)據(jù)增長(zhǎng)的因素的話題時(shí),14%的受訪者說(shuō):“雖然我們已經(jīng)注意到大數(shù)據(jù)(先進(jìn)的分析技術(shù))正受到許多數(shù)據(jù)類(lèi)型/應(yīng)用程序快速增長(zhǎng)的影響。但其優(yōu)先級(jí)仍然被排在了許多更為緊迫的問(wèn)題之后,如服務(wù)器虛擬化和滿足新的和現(xiàn)有的業(yè)務(wù)應(yīng)用程序的需要。
與此同時(shí),一些供應(yīng)商也開(kāi)始了一些獨(dú)辟蹊徑的思路思考如何增加價(jià)值。如希捷公司的Kinetic開(kāi)放存儲(chǔ)平臺(tái),通過(guò)一個(gè)鍵值存儲(chǔ)實(shí)現(xiàn)以太網(wǎng)功能的硬盤(pán),開(kāi)辟了非常簡(jiǎn)單的大規(guī)模存儲(chǔ)系統(tǒng),可以作為大數(shù)據(jù)和基于對(duì)象的應(yīng)用程序具有成本效益的后端。
EMC采取了稍微不同的策略,將其VIPR產(chǎn)品作為一款平臺(tái),可以從一個(gè)單一的界面管理多款應(yīng)用程序和存儲(chǔ)環(huán)境。雖然其最初是將重點(diǎn)放在傳統(tǒng)的存儲(chǔ)協(xié)議如文件和存儲(chǔ)塊等,現(xiàn)在也支持對(duì)象存儲(chǔ),并也能夠管理Hadoop環(huán)境。
其他的一些存儲(chǔ)企業(yè)也采取了一些類(lèi)似的舉措,例如Scality和Inktank將文件和對(duì)象存儲(chǔ)功能集成到一個(gè)平臺(tái),部分原因是由于大量非結(jié)構(gòu)化數(shù)據(jù)駐留在一個(gè)共同的存儲(chǔ)庫(kù)是奏效的,而不管實(shí)際的數(shù)據(jù)訪問(wèn)方法。
事實(shí)上,這些廠商認(rèn)為集中管理最終將有助于IT經(jīng)理。大數(shù)據(jù),無(wú)論是Hadoop或其他技術(shù)的變形,畢竟都只是另一種數(shù)據(jù)類(lèi)型,都應(yīng)該以同樣的方式對(duì)待。
很多IT部門(mén)所面臨的一大挑戰(zhàn)是,存儲(chǔ)已經(jīng)分散到太多的筒倉(cāng)領(lǐng)域,而大數(shù)據(jù)的風(fēng)險(xiǎn)在于,其正成為另一個(gè)獨(dú)立于一切的數(shù)據(jù)孤島,并進(jìn)一步加劇了整體管理成本。
在這種情況下,我們給存儲(chǔ)廠商的建議是提出了一些創(chuàng)新的技術(shù)解決方案。不幸的是,到目前為止的現(xiàn)實(shí)狀況是,這些方法是遠(yuǎn)遠(yuǎn)領(lǐng)先于市場(chǎng)的,并在很大程度上已經(jīng)成為一個(gè)尋找問(wèn)題的解決方案。
盡管如此,我們?nèi)匀粯?lè)觀的認(rèn)為存儲(chǔ)最終將在整個(gè)大數(shù)據(jù)領(lǐng)域發(fā)揮更突出的作用,但其確切的性質(zhì)和時(shí)間表仍有待確定。