數據挖掘技術是不是飲鴆止渴?現時中企業和工業是怎麼看待和使用數據挖掘所得到的結果的? | 知乎問答精選

 

A-A+

數據挖掘技術是不是飲鴆止渴?現時中企業和工業是怎麼看待和使用數據挖掘所得到的結果的?

2017年04月09日 知乎問答精選 暫無評論 閱讀 20 ℃ 次

數據挖掘技術現在非常火熱,在我所在的領域(化工),使用數據挖掘技術來分析和回歸所得到數據被認為是一種「先進」的做法,與此相關的項目和paper也在逐漸增加。

我所看到的技術,都將數據挖掘當做一個黑箱,似乎把什麼樣的數據放入其中,都能闡明變量間的聯繫大小,得到一個回歸得不錯的模型。

然而我很懷疑這種將內在聯繫當成黑箱的建模的做法預測的精度是否真如傳說中那麼可信,也在懷疑不經過真正的機理和原理研究所得到的結果將來會不會遇到很大的阻礙。所以有如下問題:

1 數據挖掘技術是否是為了實現數據回歸所作的妥協。過度依賴它是不是一種飲鴆止渴?

2 企業是如何看待數據挖掘技術所得到的結果,依據的標準是什麼?

【GentleYang 楊振濤的回答(15票)】

瀉藥.

1 國內行業內有一種典型的風氣,那就是:某個技術或非技術甚至術語一旦火起來,各種行業媒體就大肆宣傳或杜撰,編輯也只為博點擊率和關注度,完全不負責任;而真正的實踐者卻是在默默地賺錢。 --- 個人觀點哦 :)?

2 不要過分在乎數據挖掘或數據挖掘技術,或者它根本不是一種具體的技術。它更多地可以看做是一套理論和方法集合,是一個學科分支 。。。 在某些行業,早在人們大肆談論數據挖掘之前就一直在使用今天宣傳的那些方法解決實踐問題、產生商業或社會價值。比如工業的,油田規劃,礦藏產量,質量評估與控制;比如學術的,地理信息,生物信息,氣象學,天體觀測等。

3 我個人有數學專業基礎,所以對一些基本的數學方法和統計理論方法比較熟;同時我關注生物信息,互聯網,能源等領域。我不太同意一提到數據挖掘,就必提聚類分類啊,預測啊,關聯分析啊,主成分分析啊 。。。 至少從專業和課程的角度,大部分只是《多元統計分析》課程裡的一部分而已;另外的,最多也只是一門數學課,比如貝葉斯,馬爾科夫鏈,灰色系統,時間序列 ,等等。而真正的數據挖掘課程呢,講的大部分都是理論以及這套方法被重視後所能產生的價值。

4 不同行業,數據挖掘的應用程度不同,重視程度也不同。比如互聯網,尤其是社交網絡的發展,和B2C等的發展,大大增加了數據挖掘與分析的需求,甚至很迫切。而在此之前,比如生物信息學領域(通俗地講主要就是分析基因序列數據的,就是DNA,RNA,蛋白質的序列),已經有很多很專業的工具在使用,比如聚類分類等,現有的通用軟件都無法滿足需求,需要使用開源庫來改造或定制,甚至從頭開發; 至於統計學方法的應用,則已經超越使用SPSS,SAS這種工具的階段,必須一個方法一個軟件包,比如有的複雜序列分析軟件,結合圖論、動態規劃、字串學、並行計算方法、隱馬模型 等等,最後才出結果,而所有這些計算,都是把主要數據全部放在內存中進行,以大內存換短時間。再次多說一下R,R最近因為hadoop等支持「火」起來了,一些人突然發現自己以前不關心的這種語言或軟件,現在突然好火爆,自己還必須得學習了;實際上在生物信息領域,R早就是必備技能之一,甚至有了BioConductor這樣專業的工具,所以一些生物信息的coder看到IT界開始吹捧R,就都發出了冷笑 。。。 (好吧,這是吐槽!)

5「?數據挖掘技術是否是為了實現數據回歸所作的妥協。過度依賴它是不是一種飲鴆止渴?」 ?理解數據挖掘技術前要先給一個準確的定義(而實際上這不是重點,不值得過分關注);大多數場景都不會過渡依賴它的。?

至於企業,真正商業需求驅動的場合,怎麼做都不為過,沒人在乎到底是什麼數據挖掘技術,只關心該方法或方法集能否解決實踐問題,達成預期目標。

綜上,我主張更多地把數據挖掘看做一套方法集,而不是高深莫測或神秘或萬能的XXOO。另一個角度理解,就是目前很多行業由於信息程度的提高或其他原因,數據成為資產之一,成為產出之一,其價值需要挖掘和利用;而數學方法、計算機工具是挖掘其價值的有力依據和工具。俗氣一點兒說,對下一代或現在的學生,可以號召他們多學一點兒數學和計算機,永遠都是長處!

更新:

補充幾句關於 科學-技術-產業,以及理論-產品-應用 的問題。(基調可能定得有點高。。。)隨著人類文明的逐步發展,知識的積澱,文明的傳承,越來越需要提高效率 --- 人們不希望一個小孩要從指南針、造紙術 等開始學起,一步步一直到今天的複雜信息系統與各種高新科技;人們希望起步能再高再快一些,學習的效率再高一些,週期再短一些;這這種目標或願望,體現在「科學-技術-產業,以及理論-產品-應用」的不同層次不同環節不同時期。比如目前的互聯網行業,在產業和應用環節正百花齊放;其他環節相對沒這麼活躍,但同樣在迅猛發展;而互聯網由於其特殊性,很多信息都會及時地傳遞到網民,不管他是否屬於這個行業。 這在一定程度上可以解釋人們的主管感受 --- 為什麼最近XXOO很火。

再次補充更新:

就數據挖掘和數據分析本身來講,不同行業的差異確實比較大。 一些行業裡發展得較快,一些行業發展較慢;這種快慢並非是強弱之分,只是需求充分程度以及驅動力大小的差異所致。? 我相信這裡聚集的同行們有相當一部分人還是偏IT行業偏互聯網的,可能對其他行業也有關注但不是很多,或者是因為接觸和從事數據挖掘和分析工作以後才開始關注,所以掌握的資訊差異會造成認知的不同。 但這並不會抹殺不同行業數據的特異特徵,因為也導致同一方法的不同應用方式。

這段話我主要是想表達:1 知識和應用是兩個層次,沒人會混淆二者;2 信息越爆炸的時代,越容易造成溝通上的背景差異,即便是在同時focus on the same point.

【苗邦的回答(5票)】

在客戶端產品設計策划行業,比較少使用高深的數據挖掘算法如聚類,分類,關聯分析。

但如果有大規模數據庫,運用正確的數據挖掘算法得出來的結論是值得參考了,產生的價值程度看與領導預期有多大誤差,誤差越大,可能價值越大。

據我瞭解,阿里巴巴,淘寶這些擁有大量數據的公司,數據挖掘技術被運用得非常廣泛。

【王加冕的回答(4票)】

畢設做的課題是:試圖用數據挖掘方法(包括幾種不同算法,如 SVM,k-means,以及貝葉斯等)將真實 Internet 流作即時分類。直觀地說,就是將 www、FTP、DNS、DotA、迅雷…… 等等業務的通信數據都混在一起,然後用算法將它們分開。(多扯一句,傳統上的流分類是基於端口號,比如 FTP 是 21,www 是 80。但是因為 NAT、端口映射、P2P 等技術的應用,基於端口號的分類往往不準確。)

一點體會:

  • 用於處理自有數據時,數據挖掘只是向你揭示了數據間的可能關係。也就是說,它僅僅是許多方法中的一種,它的結果是對該數據集的結論。而至於對不對(信不信),這是用任何方法得到結論後都必須做的一項工作。舉例來說,如果用於分類,就要計算 false positive、false negative 有多少,交叉驗證能不能通過等等。
  • 用於實際商業系統中的數據挖掘方法我瞭解很少。但是在推薦系統(豆瓣電台,Amazon etc.)中,它確實發揮了重要的作用。

【虞翔的回答(2票)】

任何技術過度依賴都會產生問題,我不瞭解化工領域是怎麼應用數據挖掘的,如果你覺得用數據挖掘得到的模型來直接做預測這種方法不正確,你也可以去研究他們得到的模型尋找背後的機理,如此一來這個技術也可以對你產生正面的作用啊,至少給了你一個可能的研究方向,填補實踐和理論之間的漏洞。

【徐勉的回答(2票)】

從我自身所處的行業裡面的數據挖掘(證券行情和交易數據)來談點個人看法。

1. 企業對數據挖掘的結果,評價標準簡單說就是要符合商業目標。比如證券類數據挖掘,是需要從數據中找到交易模型;這個模型在之前的歷史數據中證明有效,並且通過實際操作的檢驗也有效。

2. 過度依賴肯定不對,也不能說是妥協。數據挖掘在各個行業的應用程度不一樣,同時數據挖掘的技術範圍也比較廣。證券行業中的數量化交易,我認為是數據挖掘的一種應用。

3. 真正的數據挖掘,我認為還是要結合業務規則進行。最近據說高盛一人因為證明股票交易和天氣沒有關係拿了40萬刀年終獎。這種數據挖掘一般企業就別去折騰了。

【李丕績的回答(1票)】

其實你可以看到黑箱子裡面的東西的,或許你知道了原理就可以理解一些經典的方法和模型是能夠很好的解決問題。

【陳靜的回答(0票)】

任何一種技術在實際的商業應用當中都只能算是輔助工具,就像數據挖掘。當它應用於不同領域時,需要結合該領域的數據特點及相關技術指標等。數據挖掘的應用流程也很複雜,其前期的數據處理、數據探索是實際應用中的關鍵步驟。

? ? 就像時下流行的基於數據挖掘技術的關於電子商務的數據分析,要根據其電子商務領域的特點、商業目標以及本領域中的關鍵技術指標來定義模型,而這些模型也不是一成不變的。此外,數據挖掘模型的建立,只是萬里長城的第一步,若要深入應用數據挖掘技術,需要企業相關的數據分析人員對相關數據指標的分析、提取以及模型的進一步完善。

【王昭君的回答(0票)】

對複雜過程機理建模代價太高時,試圖用數據驅動方法試之,或機理數據相結合,都是解決問題的思路,沒有過分依賴。要讓企業信服,須得以實際利益為準。

ps:我覺得某些人把機器學習與數據挖掘與過去的統計學方法相提並論是不對的。如今的信息時代,數據發生了變化:高數據量、高維數、高數據增長率,不是所謂的某些領域早就有了什麼的。

標籤:-數學 -翁詩傑 -段楠


相關資源:




給我留言