數(shù)據(jù)的未來:規(guī)模更大 速度更快 無(wú)處不在
發(fā)布時(shí)間:2017-08-14時(shí)至今日,企業(yè)要處理的數(shù)據(jù)與日俱增。由于他們既要快速地處理數(shù)據(jù)又要傳遞更多具體可用的信息,處理過程還要接近實(shí)時(shí),這都是不小的挑戰(zhàn)。
具備創(chuàng)新頭腦的企業(yè)總是對(duì)數(shù)據(jù)沉迷,渴望能理清它們,并從中獲取有用的信息。這是持續(xù)的挑戰(zhàn)。當(dāng)人類掌控?cái)?shù)據(jù)的能力變強(qiáng),探索并分析數(shù)據(jù)的欲望也會(huì)越來越濃。
大規(guī)模數(shù)據(jù)分析正邁入越來越多的新商業(yè)領(lǐng)域。不論是高管、銷售、市場(chǎng)營(yíng)銷、客戶關(guān)系、財(cái)務(wù)、運(yùn)營(yíng)乃至物流,幾乎所有現(xiàn)代企業(yè)的商業(yè)范疇都可以從越來越多的數(shù)據(jù)中獲得競(jìng)爭(zhēng)優(yōu)勢(shì),改善現(xiàn)有的業(yè)務(wù)流程,建立新的應(yīng)用。數(shù)據(jù)分析也不再是數(shù)據(jù)學(xué)家的專利。它成了現(xiàn)今一般的日常商業(yè)工具,且無(wú)處不在。數(shù)據(jù)分析工具和軟件的開發(fā)工作也構(gòu)成了新挑戰(zhàn),當(dāng)數(shù)據(jù)技術(shù)普及后,開發(fā)者的一大任務(wù)就是將高度復(fù)雜的技術(shù)變得簡(jiǎn)單直接,從而讓與日俱增的新用戶能容易上手。所以,衡量的指標(biāo)不僅在于規(guī)模,“可用性”也益發(fā)重要。
數(shù)據(jù)分析不管“大不大”都?xì)w結(jié)于搜索的能力。人們總希望從數(shù)據(jù)中獲得新洞察和知識(shí)。十年前,向一般用戶提起搜索二字,沒幾個(gè)人能立刻體會(huì)其帶來的可能性。但是利用像Elasticsearch這樣的開源技術(shù),一切新問題都能透過搜索找出,要跨越先前的心理障礙可說十分簡(jiǎn)單。我們看過很多用戶利用數(shù)據(jù)技術(shù),應(yīng)用于各種場(chǎng)景而不僅僅是常規(guī)的搜索。從另一角度看,這也標(biāo)志著開源能帶來的好處。用戶甚至也沒能想象到自己的創(chuàng)新力能到達(dá)新的高度。
按照定義,“大”數(shù)據(jù)普遍是混合多樣的。名為“Elasticsearch”的搜索功能結(jié)合了數(shù)據(jù)分析、文本及結(jié)構(gòu)搜索,是一種靈活的組合。而數(shù)據(jù)的形式并不重要,不論是典型的網(wǎng)頁(yè)、文檔,還是銀行的交易、網(wǎng)站服務(wù)器的日志、各式各樣的度量指標(biāo),都可以加以有效利用。數(shù)據(jù)的形式和數(shù)量已經(jīng)沒有太大關(guān)系,無(wú)論是結(jié)構(gòu)化還是非結(jié)構(gòu)化的數(shù)據(jù),人們想要探索就可搜索。更進(jìn)一步地說,即使數(shù)據(jù)本身的內(nèi)容很復(fù)雜只要搜索可行也會(huì)變得無(wú)關(guān)緊要。
如果我們回頭看看過去幾十年來企業(yè)數(shù)據(jù)分析的發(fā)展,這些趨勢(shì)在很大程度上都取決于搜索技術(shù)的進(jìn)步,從而實(shí)現(xiàn)新的、更強(qiáng)大的搜索用途。要有能力搜索數(shù)據(jù)的不同維度和不同方面的相關(guān)性、搜索非結(jié)構(gòu)化數(shù)據(jù),或者僅是搜索更多的新數(shù)據(jù),存儲(chǔ)和索引技術(shù)在其中肯定起了重要作用。然而,這大多是為了制造出新的、更強(qiáng)大的搜索方式。例如,圖分析和機(jī)器學(xué)習(xí)等最新的數(shù)據(jù)技術(shù)就是更成熟的搜索應(yīng)用。圖分析允許用戶在無(wú)需基礎(chǔ)數(shù)據(jù)的情況下尋找新關(guān)聯(lián)?,F(xiàn)今世界,搜索技術(shù)幾乎壓倒性地?fù)碛幸磺锌赡苄?。這提供了一種更快速、更強(qiáng)大的方式探索數(shù)據(jù),進(jìn)而了解重要趨勢(shì)和關(guān)系。圖分析也提供了一套綜合功能,方便決定哪些趨勢(shì)值得深入分析并持續(xù)監(jiān)測(cè)。即使是機(jī)器學(xué)習(xí),核心也需要有搜索技術(shù)的支持。搜索技術(shù)一直以來都是用來查看隨時(shí)間發(fā)展的數(shù)據(jù)行為,并以此辨識(shí)重要事件的關(guān)鍵指標(biāo)。IT運(yùn)維就是典型的例子,其中的歷史應(yīng)用程序、服務(wù)器和網(wǎng)絡(luò)日志上的分析,這些數(shù)據(jù)都可以用于識(shí)別可能會(huì)發(fā)生的系統(tǒng)故障。
過去,企業(yè)會(huì)要求熟練的數(shù)據(jù)科學(xué)家建立統(tǒng)計(jì)模型,并為每個(gè)指標(biāo)確定極限。這是一個(gè)復(fù)雜而艱巨的任務(wù)。盡管如此,在使用模型來監(jiān)控實(shí)時(shí)數(shù)據(jù)時(shí),仍可能產(chǎn)生較高的誤報(bào)。結(jié)果是行為分析僅限于大型關(guān)鍵任務(wù)、數(shù)據(jù)中心和金融交易等高回報(bào)的領(lǐng)域。但是機(jī)器學(xué)習(xí)技術(shù)出現(xiàn)后,行為分析工具開始迅速普及,能夠以更高的準(zhǔn)確度自動(dòng)生成機(jī)器學(xué)習(xí)模型。三四年前,一個(gè)完整的研究數(shù)據(jù)的科學(xué)團(tuán)隊(duì)才能做到的事,現(xiàn)在各種現(xiàn)成的軟件工具就可以實(shí)現(xiàn)并為各機(jī)構(gòu)所用。這同時(shí)為不同業(yè)務(wù)的領(lǐng)域開辟了新的以搜索為主的應(yīng)用方向。
在所有的業(yè)務(wù)當(dāng)中,需要分析的數(shù)據(jù)量未來都不會(huì)減少。但大小只是一個(gè)維度。“大”可以是一場(chǎng)變化,這意味著更大、更快、更實(shí)時(shí)甚至具備預(yù)測(cè)性。而數(shù)據(jù)分析也在自我進(jìn)化,懂得從數(shù)據(jù)中了解并學(xué)習(xí)。在可以預(yù)見的將來,這些技術(shù)都會(huì)被具備創(chuàng)新思維的企業(yè)所應(yīng)用。(來源:中國(guó)信息產(chǎn)業(yè)網(wǎng))