是否有可能把處在不同企業(yè)、不同服務(wù)上的“孤島”數(shù)據(jù)進(jìn)行整合,建立一個(gè)數(shù)據(jù)交換平臺(tái),同時(shí)做好個(gè)人信息的保護(hù),使數(shù)據(jù)實(shí)現(xiàn)正?;?
這對(duì)公司、個(gè)人,甚至對(duì)于整個(gè)社會(huì)來(lái)說(shuō),都是有益的。但對(duì)于商業(yè)的實(shí)體來(lái)說(shuō),大數(shù)據(jù)現(xiàn)在已經(jīng)成為其資產(chǎn)的一部分,分享數(shù)據(jù)可能意味著會(huì)喪失其競(jìng)爭(zhēng)優(yōu)勢(shì).拿出一支筆,在我國(guó)版圖上以黑龍江省的黑河、云南省的騰沖為兩點(diǎn)畫(huà)一條線(xiàn),線(xiàn)的右側(cè)只占國(guó)土面積的36%,卻居住著占96%的人口—這就是我國(guó)著名人口地理學(xué)家胡煥庸在1935年發(fā)現(xiàn)的“黑河—騰沖線(xiàn)”,也叫胡煥庸線(xiàn),在我國(guó)地理學(xué)以及人口學(xué)上,具有重大意義。
“這就是80年前的大數(shù)據(jù)。”7月25日,在由騰訊互聯(lián)網(wǎng)與社會(huì)研究院舉辦的“大數(shù)據(jù)連接的未來(lái)”高峰論壇上,騰訊公司即通產(chǎn)品部副總經(jīng)理冼業(yè)成展示了一張我國(guó)QQ同時(shí)在線(xiàn)人數(shù)活躍度圖,與“黑河—騰沖線(xiàn)”圖作對(duì)比,結(jié)果顯示,兩張圖驚人相似。
冼業(yè)成由此進(jìn)一步表示,通過(guò)對(duì)大數(shù)據(jù)的采集與挖掘,可以滿(mǎn)足政府、企業(yè)與個(gè)人的多方面需求,如通過(guò)大數(shù)據(jù)的預(yù)測(cè)功能為其決策提供一定參考等。
規(guī)模并非唯一判斷依據(jù)
在維基百科中,大數(shù)據(jù)被定義為:所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類(lèi)所能解讀的信息;百度百科的詞條則表述為:大數(shù)據(jù),或稱(chēng)巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。
中國(guó)人民大學(xué)信息學(xué)院副院長(zhǎng)文繼榮教授表示,維基和百度百科里對(duì)大數(shù)據(jù)的定義基本集中在“大”的概念,但并沒(méi)有揭示更深刻的問(wèn)題。
“大數(shù)據(jù)首先是一種進(jìn)行判斷和預(yù)測(cè)的能力。”文繼榮解釋?zhuān)淝疤嵩谡莆者@種海量數(shù)據(jù)收集存儲(chǔ)和處理的技術(shù)基礎(chǔ)上,隨之產(chǎn)生了能判斷或預(yù)測(cè)的新能力。
“其實(shí)所謂大數(shù)據(jù)并沒(méi)有一個(gè)絕對(duì)的數(shù)量,不能說(shuō)100個(gè)T的數(shù)量是不是大數(shù)據(jù)。大數(shù)據(jù)主要跟它所應(yīng)用的問(wèn)題規(guī)模大小有關(guān)系。”文繼榮解釋?zhuān)?ldquo;也就是說(shuō)要把數(shù)據(jù)用在某一個(gè)問(wèn)題上,這個(gè)問(wèn)題的規(guī)模尤其是樣本空間大小,會(huì)決定這些數(shù)據(jù)足不足夠大。”
文繼榮表示:“如果某一數(shù)據(jù)能充分覆蓋問(wèn)題的樣本空間,它對(duì)于這個(gè)問(wèn)題就是大數(shù)據(jù)。因?yàn)楦鞣N可能出現(xiàn)的情況都有相應(yīng)數(shù)據(jù)進(jìn)行覆蓋,這樣的數(shù)據(jù)就足夠大了。”
既要講規(guī)模 又要講質(zhì)量
與會(huì)專(zhuān)家提醒,如今在研究大數(shù)據(jù)過(guò)程中出現(xiàn)了一種現(xiàn)象:很多人往往認(rèn)為數(shù)據(jù)大了即可,可是卻忽略了一個(gè)問(wèn)題,即數(shù)據(jù)的質(zhì)量。如果拿著一堆質(zhì)量不可靠的數(shù)據(jù)就去做一些所謂的統(tǒng)計(jì)分析,結(jié)果是很危險(xiǎn)的。
“傳統(tǒng)上要做很多統(tǒng)計(jì)分析的時(shí)候,我們特別強(qiáng)調(diào)數(shù)據(jù)抽樣的無(wú)偏性、隨機(jī)性??墒墙裉齑蠹矣么髷?shù)據(jù)的時(shí)候好像就忘記了這點(diǎn),覺(jué)得只要我收集了很多數(shù)據(jù)簡(jiǎn)單統(tǒng)計(jì)一下,因?yàn)槲沂谴髷?shù)據(jù),我是全樣本,就不用去管數(shù)據(jù)的質(zhì)量,這無(wú)疑是非常危險(xiǎn)的一個(gè)趨勢(shì)。”文繼榮認(rèn)為。
牛津大學(xué)互聯(lián)網(wǎng)研究院研究員王寧就在論壇上提醒,要考慮大數(shù)據(jù)可能帶來(lái)的兩大風(fēng)險(xiǎn):一是對(duì)數(shù)據(jù)的誤讀,二是數(shù)據(jù)所存在的偏差問(wèn)題。
普元數(shù)據(jù)產(chǎn)品總監(jiān)王軒此前也在接受媒體采訪(fǎng)時(shí)表示,有的企業(yè)是基于數(shù)據(jù)分析作出了一些營(yíng)銷(xiāo)的趨勢(shì)性結(jié)論,但如果數(shù)據(jù)本身是錯(cuò)的,分析出來(lái)的結(jié)論未必有用。
在業(yè)內(nèi)更是曾有過(guò)這樣一種說(shuō)法:如果數(shù)據(jù)準(zhǔn)確度在60%,作出來(lái)的事一定會(huì)被用戶(hù)罵;如果數(shù)據(jù)準(zhǔn)確度在80%左右,用戶(hù)會(huì)說(shuō)“還不錯(cuò)”;只有數(shù)據(jù)準(zhǔn)確度達(dá)到90%,用戶(hù)才會(huì)覺(jué)得真牛。
“信息孤島”亟待打破
騰訊公司社交網(wǎng)絡(luò)事業(yè)群總裁、騰訊公司高級(jí)執(zhí)行副總裁湯道生還在論壇上提出了“信息孤島”的問(wèn)題。
湯道生認(rèn)為,如今大家使用到的數(shù)據(jù),大多是由不同的企業(yè)、不同的服務(wù)搜集到的,也就是說(shuō)都是在孤島上捕捉的,而與此相悖的是大數(shù)據(jù)一個(gè)很重要的性質(zhì)—可擴(kuò)展性,而當(dāng)下大數(shù)據(jù)的發(fā)展,也使得可擴(kuò)展性顯得愈發(fā)重要。
“處在信息的孤島上,每一家公司可能都有自己的云,而要把這些處在不同孤島上的數(shù)據(jù)進(jìn)行整合,去創(chuàng)建一個(gè)更加綜合的情景來(lái)從中受益,這里還有很多的挑戰(zhàn)。”湯道生表示。
湯道生說(shuō),自己一直在思考的問(wèn)題是:是否有可能把這些處在不同孤島上的數(shù)據(jù)進(jìn)行整合,建立一個(gè)數(shù)據(jù)交換平臺(tái),同時(shí)做好個(gè)人信息的保護(hù),使數(shù)據(jù)實(shí)現(xiàn)正?;?/p>
“這對(duì)公司、個(gè)人,甚至對(duì)于整個(gè)社會(huì)來(lái)說(shuō),都是有益的。但我深知其中的困難,因?yàn)閷?duì)于商業(yè)的實(shí)體來(lái)說(shuō),大數(shù)據(jù)現(xiàn)在已經(jīng)成為其資產(chǎn)的一部分,分享數(shù)據(jù)可能意味著會(huì)喪失其競(jìng)爭(zhēng)優(yōu)勢(shì)。”湯道生說(shuō)。
“大數(shù)據(jù)發(fā)展的一大瓶頸就是產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)的競(jìng)合平衡,比如物聯(lián)網(wǎng)和智慧城市,這些概念想要落地完全離不開(kāi)大數(shù)據(jù),但要實(shí)現(xiàn)這樣的宏觀概念,其實(shí)并不取決于某一個(gè)企業(yè)甚至任何一個(gè)行業(yè),而需要整個(gè)社會(huì)資源跨行業(yè)的整合以及平衡。”騰訊互聯(lián)網(wǎng)與社會(huì)研究院產(chǎn)業(yè)經(jīng)濟(jì)中心主任孟昭莉博士認(rèn)為。
孟昭莉建議,需要有一個(gè)跨行業(yè)的數(shù)據(jù)共享池,這樣的池子最好是能夠由政府這樣非常中立的第三方來(lái)作為引領(lǐng)者,同時(shí)也有各個(gè)行業(yè)的領(lǐng)軍企業(yè)來(lái)參與。
“這必然會(huì)導(dǎo)致一些既有競(jìng)爭(zhēng)又有合作伙伴關(guān)系的企業(yè)會(huì)共同卷入這個(gè)生態(tài)圈,此時(shí)最為關(guān)鍵的就是合理管理機(jī)制的設(shè)置,讓貢獻(xiàn)較多的企業(yè)能夠拿到一定回饋,而貢獻(xiàn)較少的企業(yè)則可以考慮提供一些有償服務(wù)。”孟昭莉表示。
數(shù)據(jù)安全問(wèn)題 不容忽視
在大數(shù)據(jù)爆炸的時(shí)代,企業(yè)可以通過(guò)大數(shù)據(jù)業(yè)務(wù)的開(kāi)展為自身商業(yè)決策提供依據(jù),但也伴隨著數(shù)據(jù)安全性的考驗(yàn),即如何保證自身以及用戶(hù)數(shù)據(jù)的安全隱私,已經(jīng)成了大數(shù)據(jù)發(fā)展的首要議題。
騰訊公司云平臺(tái)部總經(jīng)理陳磊表示,騰訊曾經(jīng)對(duì)90個(gè)要求用戶(hù)用信用卡或銀行卡去做支付的電商網(wǎng)站和微信公共賬號(hào)做過(guò)安全掃描分析檢查,發(fā)現(xiàn)超過(guò)60個(gè)都或多或少存在安全問(wèn)題,其中20多個(gè)的問(wèn)題甚至非常嚴(yán)重,存在包括盜取用戶(hù)的身份、惡意去替用戶(hù)消費(fèi)等行為。
陳磊還半開(kāi)玩笑地講:“所以今天我住酒店的時(shí)候,如果酒店的工作人員讓我把信用卡留下,我是非常焦慮的,因?yàn)榻裉煳覀兠媾R的互聯(lián)網(wǎng)產(chǎn)品里的安全問(wèn)題非常多。”
“要做好大數(shù)據(jù)的服務(wù),我們首先要解決的就是信息安全的問(wèn)題。特別是對(duì)騰訊而言,首先發(fā)生的挑戰(zhàn)就是安全的挑戰(zhàn)。”陳磊表示。
據(jù)冼業(yè)成介紹,如今騰訊QQ用戶(hù)每天都在產(chǎn)生著大量的數(shù)據(jù),如用戶(hù)每天產(chǎn)生的QQ消息有155億條,騰訊公司每天為了處理這些數(shù)據(jù)就要新增存儲(chǔ)200T。
那么,面對(duì)海量的數(shù)據(jù)信息,騰訊又是如何承擔(dān)數(shù)據(jù)“保安”角色的呢?
據(jù)陳磊透露,騰訊有一整套完備的安全防護(hù)措施,從運(yùn)營(yíng)商的網(wǎng)絡(luò)出發(fā)就有一個(gè)很強(qiáng)的防護(hù),后面還通過(guò)技術(shù)手段去加固用戶(hù)服務(wù)器,包括外部應(yīng)用的防火墻等,幫助用戶(hù)解決安全問(wèn)題。
然而,不泄露用戶(hù)數(shù)據(jù)是一方面,另一方面,像QQ、微信這樣的聊天工具,每天都會(huì)產(chǎn)生大量涉及用戶(hù)隱私的信息,騰訊是否會(huì)將其也列入大數(shù)據(jù)開(kāi)發(fā)的范疇,并給用戶(hù)隱私帶來(lái)侵害呢?
陳磊在接受記者專(zhuān)訪(fǎng)時(shí)表示:“騰訊不會(huì)用聊天記錄、不會(huì)用微云里面儲(chǔ)存的內(nèi)容,只會(huì)對(duì)用戶(hù)主動(dòng)分享出來(lái)的內(nèi)容進(jìn)行分析。”
“但即使是對(duì)這種分享內(nèi)容也會(huì)進(jìn)行分級(jí),比如用戶(hù)在私密圈子里分享的信息,騰訊會(huì)在不能追溯到用戶(hù)本人的方式下、去除敏感信息部分然后再來(lái)使用。”陳磊強(qiáng)調(diào)。