183.17.229.* 2020-07-13 13:23:34 |
大數據產生的背景是整個社會走向數字化,特別是社交網絡和各種傳感設備的發展。云計算和搜索引擎的發展,使得對大數據分析成為可能,核心問題是如何在種類繁多、數量龐大的數據中快速獲取有價值信息。通過數據分析來實現企業戰略運營已經成為常態,那么數據分析過程中都有哪些常見錯誤問題?
數據分析過程中常見的錯誤問題:
1、分析目標不明確
“海量的數據其實并不能產生海量的財富”,許多數據分析人員由于沒有制定清晰的分析目標,常常在海量數據中混亂,要么是收集了錯誤的數據,要么收集的數據不夠完整,這會導致數據分析的結果不夠準確。
但如果一開始就鎖定了目標,你究竟要分析什么?再以結果為導向去思考,你就會知道需要用什么樣的數據去支撐你的分析?從而確定數據的來源、收集方式以及分析指標。
2、收集數據時產生誤差
當我們捕獲數據的軟件或硬件出錯時,就會出現一定的誤差。例如,使用日志與服務器不同步,則可能丟失移動應用程序上的用戶行為信息。同樣,如果我們使用像麥克風這樣的硬件傳感器,我們的錄音可能會捕捉到背景噪音或其他電信號的干擾。
3、樣本缺乏代表性
在進行數據分析時,一定要有可信的數據樣本,這是確保數據分析結果靠不關鍵,如果數據樣本不具代表性,終分析的結果也就沒有價值。因此,對于數據樣本,也要求完整和,用單一的、不具代表性的數據來代替全部數據進行分析,這種片面的數據得到的分析結果有可能完全是錯誤的。
例如,Twitter的用戶可能受到更高教育且收入更高,其年齡也會偏大一些。如果用這種有偏的樣本來預測目標觀眾是年輕人的電影票房,其分析結論可能就不會合理了。所以確保你得到的樣本數據代表了研究總體。否則,你的分析結論就缺乏堅實的基礎。
4、相關關系和因果關系混亂
大部分的數據分析人員在處理大數據時假設相關關系直接影響因果關系。使用大數據來理解兩個變量之間的相關性通常是一個很好的實踐方法,但是,總是使用“因果”類比可能導致虛假的預測和無效的決定。要想實現數據分析的好效果,必須理解相關關系和因果關系兩者的根本區別。相關關系往往是指同時觀察X和Y的變化,而因果關系意味著X導致Y。在數據分析中,這是兩個完全不同的事情,但是許多數據分析人員往往忽視了它們的區別。
“數據科學中相關關系不是因果關系”。如果兩個關系出現彼此相關的情況,也不意味著是一個導致了另一個的產生。
5、脫離業務實際
一個專業的數據分析人員,必須非常熟悉所分析項目的行業情況、業務流程以及相關知識,因為數據分析的終結果是解決項目中存在的問題,或者給行業的決策者提供參考意見。如果不能很好地將業務知識和數據分析工作結合起來,脫離業務實際而只關心數據,在這種情況下得到的分析結果將不具有參考價值。
6、熱衷分析
有的數據分析人員會過分追求所謂、、時髦的分析技術,面對一個分析項目時,先想到的是選擇一個技術去解決,而不是從課題本身的真實需求出發去思考合理、有性價比的分析技術。如果能用簡單的方法得到相同的結果,就沒有必要引用復雜的數據分析模型。
大數據分析中常見的誤解.中琛魔方大數據分析平臺(www.zcmorefun.com)表示不同的技術往往需要不同的資源投入,而產出可能也是不同精度和不同表現形式。這其中孰優孰劣,根據什么做判斷呢?我們要根據需求本身的精度、資源限制等來做出選擇。 |