Data Science 和 Finance 兩個領域的融合是什麼樣子的? | 知乎問答精選

 

A-A+

Data Science 和 Finance 兩個領域的融合是什麼樣子的?

2019年01月12日 知乎問答精選 暫無評論 閱讀 7 ℃ 次

【董可人的回答(36票)】:

比較狹義一點的Quant一般是指各大投行裡做衍生品定價,信用評估,風險控制之類工作的人,這種工作裡又有很大一部分是涉及隨機過程微分方程等偏理論的數學,對數據分析要求不高;只有另外一部分基於統計的工作才和Data Science相關。兩者的分類可以參見這個問題在華爾街工作的數學博士的研究方向一般是什麼?

如果對使用理論模型進行定價的工作感興趣,很多學校開設的Financial Engineering的Master課程是比較好的選擇,選擇的時候可以看一下課程列表,是否有隨機過程,衍生品定價等課程。這套體系本身就很複雜,學習這條線路至少在短時間內不會用到Data Science的東西。

而關於算法交易(Algorithmic Trading),我本人就是做方面的工作,我們也要做很多數據分析的工作,廣義上來說也是Quant類的工作,但這裡的做法肯定是和定價或風控等工作很不一樣的。我的理解是Data Science是領域內一個比較有前途的發展方向,但目前還不成氣候,像是Machine Learning,Text Mining等技術還很難應用過來。產業界裡我沒有聽說哪家算法交易公司是靠這些技術為核心發家致富的,學術界上發表出來的論文也都是空中樓閣(學者們對真正的交易怎麼運行瞭解太少了),沒什麼價值可言。

比如說Machine Learning裡做的比較多的分類(Classfication),不管是決策樹(Decision Tree)還是支持向量機(SVM)這樣的技術,你都很難直接用來做trading,因為常常面臨的問題是金融數據往往是連續分佈的變量比如價格或成交量,沒有什麼很好的辦法可以建立明確的分類,也就導致無類可分。對Text Mining,的確已經有人在做自動分析twitter上熱門詞彙的頻率來預測股票走勢,但我相信這個還處於很初級的階段,不會有人真的只根據這種分析來做交易,最多是給trader提供一種參考。

金融交易最明顯的特徵是基本數據是一種時間序列,這在現有的Machine Learning框架裡還沒有有針對性的技術。但傳統的方法像是ARMA,GARCH本身的理論假設又往往和實際不符,而且這些模型在設計上並沒有側重大數據的特點(畢竟是幾十年前開發的技術了)。所以往後看,先天對大數據友好的Machine Learning框架很可能會帶來一些創新。但現在時機還沒有成熟。

目前來說真正有實用價值的Data Science技術,我個人認為是處理大數據的計算能力,比如MapReduce等雲計算的基礎架構(注1),這對金融交易這種先天就是超大數據量的業務非常有吸引力(一個交易所每天產生的交易數據就可以達到幾十GB)。對這種規模的數據進行處理,分析的能力是業界非常需要的,而這個恰恰是和以往跑在單機Excel表格或是關係型數據庫裡的那種分析有很大區別的。至少要有對這種新型的大數據計算平台的理解,來設計符合其運行特點的算法,並且能夠實際操作的能力,才可能做出一些有價值的分析。

這種大數據應用的遠景是非常誘人的。只有在具備成熟的大數據計算方案的情況下,人們才能想像直接處理交易所級的原始數據的應用。設想一下如果可以在幾分鐘甚至幾秒鐘之內回測完N個交易所M年的數據,對於深入理解市場和改進策略都是非常有幫助的。也許是通過對比幾百上千個交易策略的性能來篩選策略,也許是對多種投資組合的指標做可視化,而後面支撐的數據是TB或PB級別的tick數據甚至full level depth order book,這種分析是非常有價值的。

不過計算機運算能力大規模提升(得益於雲計算平台的發展)也就是近幾年的事情。所以即使在金融界,很多問題也都是剛剛湧現出來,技術發展還有很長的道路。如果以金融為目標去學習Data Science,我覺得需要注意的是,在深入理解那些Data Science技術(從理論到實踐)的基礎上,還需要加深理解金融數據的特點,才能做出有價值的工作。你會發現即使是相對成熟的MapReduce這樣的雲計算基礎框架,也是不太容易直接拿來就用的,始終要考慮金融數據的時間序列這個特點來專門定制。這方面因為業界和學界都剛剛開展,相信各個學校的課程也都還在摸索中,不太可能找到特別有針對性的項目。對於學生(尤其是Master)來說,上課主要是為打基礎,將來的發展要等到工作以後慢慢體會了。

註:

  1. 即使在IT領域,針對大數據的處理技術也還在不斷發展,可以參見這兩個問題:大數據計算框架除了 MapReduce 還有哪些呢,不應該是 MapReduce 去解決所有問題吧?,如何看待 Google 說已經停用 Map Reduce 好多年?,以及像是Spark Streaming這樣的新技術。

【陳傑的回答(1票)】:

Data Science 和 Finance兩個領域的融合是什麼樣子的呢?

才疏學淺,班門弄斧下:

Data Science的應用可以的三個方面;(分類from INFORMS)

Predictive Analytics:分析數據來預測未來可能發生的事情。

通過分析市場走勢,你發現某一行業走勢受季節影響大,來制定你的交易策略。

Descriptive Analytics:分析數據找出過去事件的特徵和正在發生事件的趨勢。

分析市場特性/輿情/特殊事件等,進行風控。

Prescriptive Analytics – 分析數據來找出最佳措施、取得最優化的結果。

從過往交易數據進行分析,進行策略優化。

總體來講,我覺得DS要比Fincnace應用空間更廣闊,是一個跨領域的學科。

另外提醒一下,每個學校的研究領域方向不同,比如都是MBA,可能會分領域,有足球經理的,有企業管理的......所以題主還是瞭解清楚。

另外分享,這哥們的一篇文章,寫的不錯:

Warald ,現在很火的數據科學data science到底是什麼?你對做Data Scientist感興趣嗎?

【DataStorm的回答(1票)】:

由於篇幅有點長,直接在原問題修改可能會讓後來的讀者感到混亂,我就「自問自答」一下...我的問題和回答都是拋磚引玉,希望有想法和有經驗的網友輕拍..

關於Data Science和B-quant(基於統計的工作)的聯繫,我分享一下我瞭解的幾個case; 一個目前比較熱門的是情感分析(sentiment analysis), 上文已有所提及,分析Twitter或者其他社交媒體的熱門詞彙或趨勢 Professor's 'Twitter predictor' reveals stocks' swings;

還有一種我瞭解到的是Thomson-Reuters有分析員在做對公司內部文件進行textual analysis,具體描述可以看下圖:

我覺得,隨著Big Data的發展,有一個趨勢是同時去分析structured data and semi-structured data,從中獲取出有用的信息; 這可能會更好的印證Efficient Markets Hypothesis中,價格能完全反應出所有歷史信息的假設。

我個人naive的想法是希望像點球成金(Moneyball) 裡一樣,能夠通過數據分析(data analysis)找到一個更好去評估一個事物價值的方法(比如電影裡詮釋的,傳統以來,人們認為的batting average是一個好的測量指標,然而事實上並非如此);或者可以利用最新的科技去收集一些能更精確描述事物本質的數據,比如NBA於2008年左右引入了Player Tracking Technology(SportVU) 去分析NBA球員的每一個回合處理球的情況,每一個球員的速度,跑了多遠,碰過多少次球,有多少搶籃板的機會(不同於籃板數)等等。

當然,沒有過硬的Data Analysis的本領以及對Finance深入的瞭解,這些都是紙上談兵,董可人的回答真得是讓我受益匪淺,作為一名大三的學生,感覺不論是在Data Science還是Finance 都是路漫漫其修遠兮...

【王克勤的回答(0票)】:

本科在讀來聊一聊

我在的學校叫南方科技大學,目前跟導師的一個項目就是對一些英文新聞進行分析,目前最有效的方法還是做sentiment analysis 當然也確實如董可人所說發發paper還行實際交易就呵呵了。

不過我所知道的產業界還是有一些分析文本指導交易的,可以去它們官網看看

RavenPack

我學的專業是金融工程,但是目前學的還是很多和data science 相關 包括課程設計裡我們也是有像人工智能、數據挖掘這樣的選修課可以往相關的方向。

標籤:-金融 -數據 -大數據 -金融工程學


相關資源:





給我留言