企業(yè)要想保持競爭力,就必須比大數(shù)據(jù)分析做的更多。如果不去評估企業(yè)手中的數(shù)據(jù)質(zhì)量,期望的結(jié)果,以及預計從這種數(shù)據(jù)分析中獲得多少利潤,這將很難正確地找出哪些數(shù)據(jù)科學項目能夠盈利,哪些不能。
商業(yè)領(lǐng)域的數(shù)據(jù)科學家和偵探類似,去探索未知的事物。不過,當他們在這個旅程中冒險的時候,他們很容易落入陷阱。所以要明白,這些錯誤是如何造成的,以及如何避免。
相關(guān)關(guān)系和因果關(guān)系之間的混亂
大部分的數(shù)據(jù)科學家在處理大數(shù)據(jù)時假設(shè)相關(guān)關(guān)系直接影響因果關(guān)系。使用大數(shù)據(jù)來理解兩個變量之間的相關(guān)性通常是一個很好的實踐方法,但是,總是使用 “因果”類比可能導致虛假的預測和無效的決定。要想實現(xiàn)利用大數(shù)據(jù)的最好效果,數(shù)據(jù)科學家必須理解相關(guān)關(guān)系和根源的區(qū)別。關(guān)聯(lián)往往是指同時觀察X和Y的變化,而因果關(guān)系意味著X導致Y。在數(shù)據(jù)科學,這是兩個完全不同的事情,但是許多數(shù)據(jù)科學家往往忽視了它們的區(qū)別。
基于相關(guān)性的決定可能足以采取行動,我們不需要知道原因,但這還是完全依賴于數(shù)據(jù)的類型和要解決的問題。每位數(shù)據(jù)科學家都必須懂得——“數(shù)據(jù)科學中相關(guān)關(guān)系不是因果關(guān)系”。如果兩個關(guān)系出現(xiàn)彼此相關(guān)的情況,也不意味著是一個導致了另一個的產(chǎn)生。
沒有選擇合適的可視化工具
大部分的數(shù)據(jù)科學家專心學習于分析的技術(shù)方面。他們不能通過使用不同的可視化技術(shù)理解數(shù)據(jù),即那些可以令他們更快獲得洞察力的技術(shù)。如果數(shù)據(jù)科學家不能選擇合適的可視化發(fā)展模型,監(jiān)控探索性數(shù)據(jù)分析和表示結(jié)果,那么即使是最好的機器學習模型,它的價值也會被稀釋。事實上,許多數(shù)據(jù)科學家根據(jù)他們的審美選擇圖表類型,而不是考慮數(shù)據(jù)集的特征。這個可以通過定義可視化的目標避免。
無問題/計劃的分析
數(shù)據(jù)科學是一個結(jié)構(gòu)化的過程,以明確的目標開始,隨后出現(xiàn)一些假設(shè)的問題,最終實現(xiàn)我們的目標。數(shù)據(jù)科學家往往站在數(shù)據(jù)之上而不考慮那些需要分析回答的問題。數(shù)據(jù)科學項目必須要有項目目標和完美的建模目標。數(shù)據(jù)科學家們?nèi)绻恢浪麄兿胍裁?,最終的結(jié)果也會差強人意。
為了避免這種情況,數(shù)據(jù)科學家應該集中精力獲得正確的分析結(jié)果,這可以通過明確實驗,變量和數(shù)據(jù)準確性和清晰明白他們想要從數(shù)據(jù)中獲得什么實現(xiàn)。這將簡化以往通過滿足假設(shè)的統(tǒng)計方法來回答商業(yè)問題的過程。先確定明確的問題是及其重要的,能夠?qū)崿F(xiàn)任何企業(yè)的數(shù)據(jù)科學目標。
僅關(guān)心數(shù)據(jù)
數(shù)據(jù)科學家常常因為得到來自多個數(shù)據(jù)源的數(shù)據(jù)而興奮,并開始創(chuàng)建圖表和可視化來做分析報告,忽視發(fā)展所需的商業(yè)智慧。這對任何組織來說都是危險的事情。數(shù)據(jù)科學家經(jīng)常給與數(shù)據(jù)太多決策制定的權(quán)力。他們不夠重視發(fā)展自身商業(yè)智慧,不明白分析如何令企業(yè)獲益。數(shù)據(jù)科學家應該不僅僅讓數(shù)據(jù)說話,而且善于運用自身的智慧。數(shù)據(jù)應該是影響決策的因素而不是數(shù)據(jù)科學項目決策制定的最終聲音。企業(yè)雇傭的數(shù)據(jù)科學家應該是可以將領(lǐng)域知識和技術(shù)特長結(jié)合起來的,這是避免錯誤的理想情況。
忽視可能性
數(shù)據(jù)科學家經(jīng)常傾向性忘記方案的可能性,這將導致作出更多的錯誤決策。數(shù)據(jù)科學家經(jīng)常犯錯,因為他們經(jīng)常說,如果企業(yè)采取了X操作一定會實現(xiàn)Y目標。對于特定的問題這沒有唯一的答案,因此要確認數(shù)據(jù)科學家從不同可能性中所做的選擇。對指定問題存在不止一個可能性,它們在某種程度是不確定的。情景規(guī)劃和可能性理論是數(shù)據(jù)科學的兩個基本核心,不應該被忽視,應該用以確認決策制定的準確性頻率。