九坤王?。毫炕?AI,未來可期!

2021世界人工智能大會于2021年7月8日至10日在上海世博中心和上海世博展覽館同時舉行。世界人工智能大會自2018年以來,已成功舉辦三屆。2021世界人工智能大會由國家發(fā)展和改革委員會、工業(yè)和信息化部、科學(xué)技術(shù)部、國家互聯(lián)網(wǎng)信息辦公室、中國科學(xué)院、中國工程院、中國科學(xué)技術(shù)協(xié)會,以及上海市人民政府共同主辦。

作為本屆世界人工智能大會承辦單位之一,數(shù)庫科技于7月9日下午舉辦以 “數(shù)據(jù)智能,鏈接未來” 主題分論壇,會中九坤投資創(chuàng)始人王琛發(fā)表了《數(shù)智時代量化投資的演進(jìn)與挑戰(zhàn)》的主題演講,從量化投資的數(shù)智演進(jìn)、九坤在數(shù)據(jù)與智能方面的實(shí)踐、未來量化投資數(shù)智發(fā)展中面對的挑戰(zhàn)和瓶頸三方面闡述量化行業(yè)發(fā)展。

在王琛看來,量化投資盈利的因素,一是金融市場的弱有效性,導(dǎo)致市場有投資空間、投資機(jī)會,這是金融市場投資賺錢的基礎(chǔ)保證;二是統(tǒng)計(jì)方法的有效性,這是量化基礎(chǔ)的投資信仰。量化的核心發(fā)展方向,包括信息、算法、執(zhí)行三個方面。

九坤王?。毫炕?AI,未來可期!

圖片來自:數(shù)庫科技

王琛表示,在人工智能興起之前,量化領(lǐng)域已經(jīng)做到了一定高度。但進(jìn)入數(shù)字化時代之后,這三個方向都被AI和大數(shù)據(jù)沖擊。以九坤運(yùn)用AI處理信息的實(shí)踐為例,目前正嘗試在時間序列上把各種多模態(tài)的另類數(shù)據(jù)來源進(jìn)行交織,最后形成對價(jià)值的預(yù)測能力,使得預(yù)測能力不止來源于量價(jià)。

王琛還提到未來量化投資數(shù)智時代的挑戰(zhàn),具體包括多模態(tài)挑戰(zhàn)、數(shù)據(jù)質(zhì)量挑戰(zhàn)、處理速度挑戰(zhàn)。還有兩個重大挑戰(zhàn),包括模型有效性、市場反身性與金融市場高噪音的疊加的挑戰(zhàn),以及中國市場環(huán)境下,不同時間市場風(fēng)格和結(jié)構(gòu)的變化帶來的挑戰(zhàn)。

下面,是對王琛先生在本次論壇演講內(nèi)容的整理:

量化投資為什么能盈利?

“History doesn't repeat itself, butit does rhyme. ”

— Mark Twain

很多人問量化為什么能賺錢?馬克吐溫的這句話已經(jīng)道出了金融市場甚至人類歷史背后的規(guī)律。他說歷史不會重復(fù)自己,但會壓自己的韻腳。歷史是人創(chuàng)造的,不管歷史如何發(fā)展,人性在其中起到的作用會重復(fù)出現(xiàn)。金融市場是由人交易出來的市場,背后反映的統(tǒng)計(jì)規(guī)律是量化存在的依據(jù)。

量化投資為什么能夠盈利?

兩個因素:一是金融市場的弱有效性。導(dǎo)致市場有投資空間和投資機(jī)會,這是所有在金融市場投資賺錢的一個基礎(chǔ)保證;二是統(tǒng)計(jì)方法的有效性。我們既然發(fā)現(xiàn)歷史是能壓自己韻腳,歷史簡單的重復(fù)和押韻腳最大的區(qū)別在于找到它背后的規(guī)律性,我們叫因子或算法也好,這些需要經(jīng)過重復(fù)的驗(yàn)證,我們才能相信它在量化的應(yīng)用,這也是量化基礎(chǔ)的投資信仰。

AI如何預(yù)測股票?

數(shù)據(jù)!關(guān)鍵是找到那些影響股價(jià)的信息對應(yīng)的數(shù)據(jù)。

首先是數(shù)據(jù)。什么叫量化所希望的數(shù)據(jù),或者什么叫好的數(shù)據(jù)?數(shù)據(jù)最重要的是對股價(jià)要有一定的影響才能稱之為好的數(shù)據(jù)。有這么一個故事,在每年的“315晚會”上,那些被點(diǎn)名的企業(yè)(上市企業(yè)/非上市企業(yè))。當(dāng)這些上市企業(yè)尤其在美股上市的企業(yè)在晚會上有被提到有負(fù)面消息后,由于其正在盤中交易,該公司的股價(jià)則會發(fā)生大的跳水。這是一個很明顯的例子,只要把數(shù)據(jù)用得更好,這樣一個簡單的數(shù)據(jù)就會變成大家比速度的一個游戲,速度越快,就能更早的發(fā)現(xiàn)這些信息并運(yùn)用到股票交易中去。

第二個例子,當(dāng)我們把非常簡單的數(shù)據(jù)應(yīng)用之后,怎么去提升數(shù)據(jù)對于股價(jià)的影響,我們需要再隔一層。很多做基本面的人都知道,基本面投資的核心是預(yù)測上市公司的盈利能力。上市公司的盈利能力在不同的行業(yè)會有不同的盈利指標(biāo)。比如特斯拉,它有一個非常重要的盈利指標(biāo),那就是量產(chǎn)能力。2018年,特斯拉在加州的某個工廠,有一個公司收集到其工廠員工的手機(jī)信號。這些信號顯示了在當(dāng)季度加班的情況。他們認(rèn)為,加班情況會直接預(yù)測到整個特斯拉的產(chǎn)能。因?yàn)橥ㄟ^預(yù)測后發(fā)現(xiàn):在2018年第三季度員工加班的比例相比之前有30%以上的增幅,當(dāng)時便對特斯拉給出了非常強(qiáng)的買入信號。當(dāng)特斯拉Q3季報(bào)出來之后,我們看到特斯拉當(dāng)天上漲了9%。類似于這樣的數(shù)據(jù)能夠直接影響到股價(jià),那么,我們認(rèn)為這就是好的數(shù)據(jù)!

大數(shù)據(jù)+AI算法時代的來臨

人工智能已從簡單的算法+數(shù)據(jù)庫發(fā)展演化到了機(jī)器學(xué)習(xí)+深度理解的狀態(tài)。

九坤王?。毫炕?AI,未來可期!

圖片來自:九坤投資

大概2018年之前,國內(nèi)量化還是以量價(jià)數(shù)據(jù)+人工挖掘的方式為主。在2018年之后,整個市場開始逐漸進(jìn)入AI算法的時代,不管從因子挖掘、組合管理,還是風(fēng)險(xiǎn)優(yōu)化等方面,進(jìn)一步提升了整個量化投資的收益。到2019年之后,整個量化行業(yè)的規(guī)模快速增長,這是推動整個行業(yè)發(fā)展非常重要的動力。到2020年,我們認(rèn)為量化行業(yè)已經(jīng)到了大數(shù)據(jù)+AI算法的階段。整體來看,在量化行業(yè)突破7000億的體量之后,大數(shù)據(jù)+AI算法在未來的發(fā)展趨勢勢不可擋,我們認(rèn)為未來量化行業(yè)的主要增長來源也是來自于此。

量化數(shù)據(jù)分類和規(guī)模

九坤王?。毫炕?AI,未來可期!

圖片來自:九坤投資

九坤舉了兩個其在數(shù)據(jù)+AI算法方面的案例:

案例一:新聞/公告

上圖看到新聞和公告是有超過數(shù)百萬條的記錄,當(dāng)我們拿到這樣的數(shù)據(jù)后,第一件事是得先知道這些數(shù)據(jù)長什么樣。首先,我們需要先把這些數(shù)據(jù)進(jìn)行相關(guān)的分類,在這其中會使用一些NLP算法,實(shí)現(xiàn)對不同類型的新聞或者公告數(shù)據(jù)的分類,比如業(yè)績預(yù)增或者預(yù)減,股價(jià)上漲和下跌等。前面提到315的例子,大家想是不是可以從中找出一兩個或者幾個馬上影響股價(jià)的新聞案例,變成簡單的算法就可以套利了?這件事其實(shí)是挺難的,經(jīng)過我們驗(yàn)證后發(fā)現(xiàn):當(dāng)我們把市場價(jià)格放到模型中后,多數(shù)新聞對股價(jià)的影響是與大家的預(yù)期有所不同。

九坤王?。毫炕?AI,未來可期!

圖片來自:九坤投資

舉個例子,很多人會覺得如果看到一些上市公司的重大負(fù)面消息,股價(jià)會有比較大的跌幅。如果我們看到上市公司有重大的重組或者重大合同的簽署消息,可能對上市公司是一個非常利好的消息。實(shí)際情況恰恰相反,當(dāng)出現(xiàn)一些重大合同簽署的時候,股價(jià)在接下來的幾天都是下跌的。仔細(xì)回看市場的走勢,可以看到在出現(xiàn)這些重大利好之前的幾天,股價(jià)已經(jīng)經(jīng)過了一波快速的上漲。對于中國市場來說,現(xiàn)在很多新聞數(shù)據(jù),在最終的結(jié)果中有的時候是一個反指,這是我們在研究中發(fā)現(xiàn)的問題。

包括在美股市場,我能明顯感覺到,至少在十年之前,你認(rèn)為它是利好就很有可能是利好,但后面利好會逐漸衰減。這也是金融市場交易反身性的一個結(jié)果,也就是所謂的“靴子落地就會產(chǎn)生利空促進(jìn),或者利好兌現(xiàn)”的結(jié)果。

案例二:量化基本面

大家都在想如何用量化去做基本面,這是所有的量化公司都在考慮的問題。在A股做量化基本面要做的事情跟海外不太一樣,因?yàn)閲鴥?nèi)基本面的研究信息和數(shù)據(jù)對于量化來說并不是那么充分。我們可以想到一個基本的研究來自于行業(yè)研究報(bào)告,如何對這些行業(yè)研究報(bào)告進(jìn)行分析?很直接的辦法找到所有券商的行業(yè)研究員,讓他定期給我們行業(yè)研究的數(shù)據(jù)。當(dāng)我們拿到幾百萬篇?dú)v史研究報(bào)告的時候,能不能把這些報(bào)告變成對研究員預(yù)測能力的判斷分析,這也是非常重要的。我們試圖從幾百萬篇的研究報(bào)告中通過NLP的方法來獲取相關(guān)信息。

九坤王?。毫炕?AI,未來可期!

圖片來自:九坤投資

當(dāng)一個研究報(bào)告描述行業(yè)的時候,我們看里面有哪些關(guān)鍵的指標(biāo)跟行業(yè)相關(guān)的。對量化來說最缺的是對一個行業(yè)的知識圖譜的構(gòu)建,要建立這個知識圖譜的就要通過這樣的體系,通過NLP對研報(bào)進(jìn)行分析,然后把所有的信息抽取出來,得到在時間序列上研究報(bào)告在歷史上所出現(xiàn)的二維結(jié)構(gòu)。基于這樣的二維結(jié)構(gòu)我們可以對其中很多指標(biāo)進(jìn)行驗(yàn)證,看它是不是對上市公司盈利的結(jié)果或者股價(jià)的結(jié)果有影響,是長期的影響還是短期的影響。

第一步,我們?nèi)绻炎筮叺难芯繄?bào)告變成右邊的樣式,這就是非常典型的自然語言處理手段,左圖很多是PDF格式的文件,我們要對它進(jìn)行結(jié)構(gòu)分段處理。在這個過程中,我們會得到一個與所有行業(yè)相關(guān)的研究指標(biāo)或者研究框架體系。

我們現(xiàn)在努力嘗試的,就是希望在各個方向上,在時間序列上把各種多模態(tài)的另類數(shù)據(jù)來源進(jìn)行交織,最后形成對價(jià)值的預(yù)測能力!

量化投資大數(shù)據(jù)智能化面臨的挑戰(zhàn)

1、多模態(tài)化挑戰(zhàn)

模態(tài)化的數(shù)據(jù)需要多模態(tài)的算法來解決

信噪比低,覆蓋股票數(shù)量要求高

2、數(shù)據(jù)質(zhì)量的挑戰(zhàn)

數(shù)據(jù)源本身的錯誤或噪音

數(shù)據(jù)提取、更新的異常

數(shù)據(jù)在時間序列要求

3、處理速度挑戰(zhàn)

低時延+海量數(shù)據(jù)+7X24

AI算力支持

更大的挑戰(zhàn)

1、模型有效性、市場反身性與金融市場高噪音的疊加

2、不同時間市場風(fēng)格和結(jié)構(gòu)的變化

最后,王總為大家分享了當(dāng)年他入職量化時的一句話:

“If you torture the data long enough, it will confess.”

— Ronald Coase

希望與大家共勉!

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )