如果有所有投資者的所有股票委託、交易、持股數據,都有哪些有意思的測算內容? | 知乎問答精選

 

A-A+

如果有所有投資者的所有股票委託、交易、持股數據,都有哪些有意思的測算內容?

2018年05月20日 知乎問答精選 暫無評論 閱讀 24 ℃ 次

【袁浩瀚的回答(55票)】:

謝邀

我不是股票方面的專家,但這是一個很有意思的問題。希望更多大牛來展開討論

首先這個數據意味著什麼。我們可以看看一個金融市場,都有哪幾個級別的數據,然後分別獲得的難度是怎麼樣的。

一、日OHLC數據,這個數據應該是最常見的了,Open、High、Low、Close。一般來說,大部分Python和R的包都提供了訪問Yahoo Finance的接口,通過yahoo你就可以拿到這些數據。

二、Throttled數據,所謂Throttled,就是固定時間更新的數據範式了。比如中金所500ms的盤口數據、大商所250ms的盤口數據。一般來說,Throttled數據包括盤口和之前一個period裡面的成交信息(Trade Data)。很多人抱怨中國高頻不好做,只有Throttled的數據,但是這不是中國的專利,在美國很多市場,比如CME、BrokerTec,如果你買入門級別的日內數據,就是Throttled。而國外市場也有基於Throttled數據就盈利的交易商。

三、Per Trade數據,那麼Throltted之上是什麼呢,就是每次有交易(Trade),就更新對應的數據,由於數據的Trigger從Chrono的時間變成了Trade,所以每次更新裡面含有的Trade信息就是精準的逐筆交易信息了。一般而言,有了這個數據,你就可以做一個相當準確的回測系統了。因為結合你的延遲信息,你可以估計在你的單到達交易所的時候和發單之間有沒有交易發生,發生的話一般規律是什麼。這個數據在國內是沒有公開提供的。

四、Per Quote數據,這個數據精度更加高於Per Trade數據,只要有人掛單撤單,或者整個市場級別有人的報單有變化,就會Trigger數據的發佈。因此比如在一個品種上只有人掛單撤單,沒有人實際交易(乾瞪眼),你也有全面的市場表化情況。基於此數據,回測將十分精準,你也可以判斷是否有人在Spoofing了(當然你不知道是誰在spoofing)。這是美國或者一般發達市場提供的公開數據的極限,也是最貴的實盤數據了。同時,由於數據量太大,對於傳輸方式和你交易系統的負載能力提出了比較高的要求——你會收到交易所撮合機同等數量的信息,系統或者硬件稍微跟不上,輕則丟包,慘則當機,這也是為啥國外引入FPGA等技術來硬件加速tick data的處理的問題。

五、帳號級別數據:那麼再上面一層是什麼,就是Per Quote的數據給每一個Quote加上一個Field:帳號。你知道每個Quote都是哪個帳號發出來的。因為你只有帳號ID,你不知道是誰,但是對於做研究來說,這已經足夠了。這個數據對於絕大部分交易所來說都是有儲存,但是非公開的,一般提供給交易所相關的研究、監管機構做分析用。從2010年開始這部分數據的分析開始在學術界慢慢有出現。如何用,也是這裡我們要聊的。

你可以看到,這個數據已經屬於高頻數據中的指環王了。2013年我在伯克利的時候,一個教授買了一台96GB的Dell工作站,然後讓我幫他Clean一些C++的code,當時就是處理土耳其的一年的帳號級別的數據,由土耳其交易所官方提供。所以從學術界的角度來說,我知道的目前用到了帳號級別的數據的一部分研究有:

Investor Networks in Stock Markets, Walden, Ozsoylev, Yavuz, and Bildik

VPIN and the Flash Crash, Easley, Prado and O'Hara

Very fast money: High-frequency trading on the NASDAQ, Carrion

The diversity of High-Frequency Traders, Cvitanic and Kirilenko

還有很多類似的和相關的,大家有興趣可以Google一下,簡而言之,一般的方向有:

一、定位Informed Trader:什麼是Informed Trader,就是當一個固定的事件發生的時候,總是先下單的個體,如果有統計顯著的informed trader存在,那說明這個市場存在比較嚴重的信息不對沖和操縱現象。一般而言,合規的高頻交易員是不會lead一個trend的,他們只會follow informed trader,並且很快的follow。按照國內通俗的說法,informed trader是莊家,高頻的是快速跟莊的,他們一起賺跟莊比較慢的散戶的錢。

二、市場信息傳遞鏈:信息傳遞鏈,簡而言之,就是一個Event發生後,交易是如何一步步在這個市場發生的。要做這個研究,需要根據長期交易行為先給每個帳號打上標籤。比如Informed Trader,High Frequency Trader,Day Trader,Long Team Holder,以及Chaos Trader(就是散戶)。然後分析某種事件價格或者資產是如何在不同的團體之間傳導的。這方面的研究對於提升市場效率有幫助,比如你要制定熔斷或者漲跌停板,科學的辦法就是基於這種信息傳遞鏈的研究。使得在市場失效的時候市場機制可以穩定信息的傳遞,不至於出現踩踏現象。

三、關聯帳號分析:其實從監管的角度來說,要查關聯帳號,沒有必要用這麼深度的數據,統計帳號下單的IP或者聯繫券商客戶經理就足夠了。但是要從整個市場的層面來分析關聯帳號以及關聯帳號的作用——比如關聯帳號是不是對盈利有幫助。帳號級別的數據是可以幫忙的。通過簡單的方法可以定義一些關聯帳號的規則——比如兩個帳號大量交易在很短的時間間隔裡面完成,具有高度的相關性。

四、獲利行為分析:這個研究在美國和韓國的我有看到過,但是中國也許不適合直接套用。簡而言之,國外的Research有把短期的交易行為定義成Taker、Market Maker和Passive Trader。如何接地氣的來看到這三種交易呢,Taker,就是搶單的,你可以理解為國內的日內炒手,Market Maker,做市商,期權中現在有了這個角色。Passive Trader,被動交易員,這個最迷惑,按國內的說法就是,大量撤單流——他們成交主要靠被動單來獲得、退出風險。美國的經驗來說,Taker的每單利潤一般是Passive Trader的3倍,韓國也有類似的結果。中國這方面的研究可以在期貨、期權上進行,股票上面直接套用可能不合適。

說了這麼多,都是從比較宏觀的研究、監管的角度來說的,當然如果你是個體戶、或者你是一個交易員,突然有一天來了一個人加你QQ,通過了二話不說直接傳你一個壓縮文件,你下載了發現拿到這麼份數據,為了防止查水表請先在獲得監管機構批准的情況下你可以考慮做以下事情:

帳號信息你也不用了,反正也不知道都是誰,直接拿著Per Quote的信息做一個頂級回測吧,有了這個數據基本上你的回測都是極其Realistic了,滾蛋吧假設君。我不覺得這個數據可以讓你策略從不賺錢直接變成賺錢,但是一定可以讓你從賺錢變成更賺錢。

【知乎用戶的回答(0票)】:

你的假設裡還差一個條件,數據的延時/滯後是多少?

我會

找出徐翔然後跟隨。

找出國家隊然後逃跑。

方法是,,

你真的有數據和我換嗎。

標籤:-股票 -大數據 -程序化交易 -計量經濟學 -量化交易


相關資源:





給我留言