777奇米影视一区二区三区-777人体粉嫩u美图-777色狠狠一区二区三区香蕉-777色淫网站女女-乱高h辣黄文np公交车-乱高h亲女

文章詳情
ARTICLE DETAILS

新國大-教授觀點 -段錦泉:機器學習視角下的金融市場輿情分析(干貨精華)

  導 讀

  各位大家好,我是新加坡國立大學的段錦泉,亞洲數碼金融研究所的負責人,也是商學院的金融教授。這是新加坡國立大學EMBA的公開課,希望今天的講演,能夠幫同學對機器學習,尤其是自然語言處理,在金融市場上的應用提高觀念層次上的了解程度。

  我認為學習最重要的不是記住許多細節,而是學習一個方向和整體觀念。因為隨著年歲的成長,你我對很多事務都會逐漸淡忘,但是方向跟架構通常還能深留腦海。所以我希望透過今天的學習,在聽完了演講之后,你會對機器學習的使用,以特定、具體的實踐場景,達到更深的領悟。鋪墊一個對自然語言的學習和應用的基礎,讓你可以在將來自己補強。

段錦泉教授

  

綱要

  今天要講的綱要基本上包含三項:

  第一,我要說明如何建立輿情分析的框架,就是你該具備的思維方式。有了框架,可以幫助萃取輿情上更好的運作。

  第二是一項具體的應用:輿情因子在企業的違約跟并購中的補強功能。我強調補強這個詞,是因為它沒有辦法替代傳統的因子,只能夠補強。了解了這一點,我們就不會對結果有不合理的期待。

  在從觀念上了解后,最后我要講自然語言處理的要素,也就是Natural language processing(NLP)技術工具本身有些什么要素。有了大概的了解后,你以后也就可以與別人溝通了,今天講演的具體目標也就達到了。

框架

  【輿情分析的目的】

  首先,我們要了解做輿情分析的目的是什么?它是作為目標變量,還是一個解釋變量?我今天要講的應用是把它作為解釋變量的用法。比如在進行金融分析(如預測)時,不能認為輿情是唯一的決定要素。輿情之外尚有好多其它的解釋變量,不是嗎?所以輿情在這里起到的是一個補強的功能。

  【輿情分析三要素】

  第二點,你要了解金融市場輿情分析,其實是一個三維的問題。

  第一個要素是主題。比如說我們要研究企業違約,這是個主題,需要分析在違約方面輿情是如何被討論的。

  第二個要素是主體。在金融問題上很難不觸及主體,例如在分析企業違約時,要說明輿情是針對哪一個企業,比如說對星展銀行(DBS)有興趣,星展銀行就是輿情分析的主體。但不能忘掉,在建模和應用的差別,建模的時候需要有很多、很多主體。一旦有了模型,使用時候,只需要針對關心的主體就可以了。

  拿放貸為例,比如你是一家銀行,當有企業向你申請貸款時候,你就會去征信機構(Credit Bureau)進行查證,這是針對一個主體而已。但是征信單位需要收集好多企業的信息才能夠提出針對這家企業的信用狀況。所以,主體是一個很重要的考慮因素。

  第三個要素是態度。一篇文章或者報道,一定會表達了一個態度:贊成、反對或中性,或是強烈的贊成反對。所以,你可能會聽到情感分析,基本上是三維的問題,就是一篇文本談論哪一個主題,提及了哪些主體,對不同主體表達了什么態度。例如,我們談論柯達的照相機品質的好壞。那照相機就是主題,柯達是主體,覺得好或壞就是態度。

  【細節討論】

  現在稍微談一下關于主題比較細節的東西。我剛才提到照相機,照相機是一個非常明確的觀念,只要講照相機就不太需要再進一步溝通什么叫照相機。

  但是在商業分析上許多主題是不能夠這樣簡單化描述的,比如說,信用風險是一個非常籠統的觀念了,不是一兩個詞能講得明白的,這類的主題具有挑戰性。你經常會看到很多文本分析的主題,屬于非常簡單的類別,容易用簡單的詞描述,而難的是那種很通泛的主題。比如說,我們現在常常講“環境永續經營”,這種環境因素是很難描述的。

  你今天產生了很多碳足跡,并不表示你環境因素很差,還有其它如水啊之類的因素需要考慮。所以要從文本里面準確地抓出來這類通泛的主題,是一個很大的技術挑戰。但是,我們一定要考慮主題,因為沒有主題我們就沒辦法分析具體的金融問題了。

  還有一些關于金融市場中主體的細節需要關注。主體大概可以分三類:一類是人物、自然人;一類是企業,也就是法人;還有另外的一類,就是國家(經濟體)。大概就是這三類,有時候行業也是一類關心的主體。

  主體是不是應該屬于主題的一部分?這個問題是很重要,因為有時讓主體變成主題的一部分是必須的。比如說我們分析川普的行為,川普是主體,同時也是我的主題的關鍵。

  但是我們分析信用風險時,主體絕對不應該成為信用風險的一部分。例如我剛才提到星展銀行的信用,或者我關心的是中石化的信用。“星展銀行”或“中石化”這些主體所對應的公司名,和“信用風險”這個主題本身是無關的,不應該被納為主題的一部分。這是很重要的認知,因為在制造或者抓取主題的時候,必須把主體都給拿掉,否則包含主體的主題就不夠通泛,不能適用于其他主體。但在研究媒體對具體主體的態度時,需要再把主體加回來作為區分。

  另一個很重要的考慮是媒體采用的語言。比如中文和英文是非常不一樣的文字體系,等一下我會介紹中文跟英文最不一樣的地方。我不是學語言的專業,但以前和大家一樣覺得中文英文差別很大。從學習自然語言的方法中,我發現中文和英文基本是一樣的,其實只差一個關鍵地方,今天我的一個重要任務就是說服你達到這種認知。

  同時,我們必須了解媒體的類型和分析的目的。因為不是所有的媒體類型都適合你的分析目的。正式的媒體,例如新華社和華爾街日報的新聞,因為寫作人的專業水平較高,加上有編輯審核的過程,文本的品質往往比自媒體的內容高。我今天討論的輿情分析主要針對的是正式媒體,因為研究的是商業、金融的問題,更需要依賴專業的文本。

框架

  【可以預期的現象】

  我們可以預期到什么呢?首先,大部分的文章和研究的焦點問題(主題)可能是無關的。因為媒體并不是為我們的研究問題而報道的,而是去選擇有新聞性的事件進行報道的,也就是說媒體是會有選擇偏差的,那是媒體的本質。也因此,媒體并不能全面性的覆蓋我們關心的主題或主體。比如我選擇大華銀行(UOB),但可能一個星期也沒有任何相關的報道。這并不代表大華銀行出了什么問題,反而是越正常越不會被報導。新聞傾向于負面性的報道,有新聞價值,大家就越想讀。比如趙薇的事件,是很負面的,大家愿意去追,媒體更愿意報導。

  有了這些基本了解后,自然可預期到在進行輿情分析時候,會面臨到的基本的問題和挑戰。輿情分析只能當補強的工具,不可能取代傳統結構化的金融數據。傳統金融數據的價值是很高的,因為一家正常營運的公司,它的財報就會反映這些信息,但在媒體上很可能找不到任何相關的報道,因為它太正常了。

  也因此,我在做公司信用分析時候,就會面臨著大量的公司是不被頻繁報道的,導致了有很多缺失數據(missingdata),為我的建模帶來了挑戰,不過這屬于一個需要解決,也能克服的技術問題。

  另外,做企業分析時候,我們可能也想對國家或行業的輿情有所了解,這種輿情屬于一種共享的情緒、態度,比如說中國的經濟環境如何了?美國的金融市場又怎么樣了?在金融分析上歸納為系統性的因素,也就是個別公司會受到大環境的影響。

  我的團隊今天已經做到了公司和國家的層面,過程中克服了很多技術挑戰。但當我們的方向非常明確的時候,就能判斷這是做得到或是做不到,做得到的話需要花多少時間和努力,因為等于說我們已經有了一個地圖了。

輿情

  【技術1:主題】

  在主題、主體和態度的三維問題上,我們怎么處理主題的抓取呢?

  比如說我要講的是信用風險和綠色金融,這是兩個不同的主題,而且都是比較籠統的概念,不是幾個字可以描述的。我們用的是一個叫做Source-LDA的技術。Source的意思就是有一個和主題相關的資料來源。我們需要根據資料產生一個不同詞匯出現頻率分布來描述一個主題,然后讓機器根據文章中文字的描述把主題抓出來。

  LDA是一種統計方法,是Latent Dirichlet Allocation的縮寫(潛在迪利克雷分布),可以用于對海量的文本進行主題分類。假設所有的文本中共有5個主題,那LDA就讓一篇一篇的文章分成5類。

  但你會馬上面臨兩個問題:

  #01

  第一個是,你閱讀一篇文章,它可能好像講第一個主題,又在講第二個主題,甚至還有點第三個主題的內容,那該把這篇文章分到哪個主題下呢?針對這個問題,我們可以采用概率加權的方法,比如這篇文章里70%是講第一個主題,20%講第二個主題,10%是第三個主題。

  #02

  第二個問題是,到底該把文本分成幾個主題?產生這個問題,其實是反映了觀念上的謬誤,但“所有文本應該被分為幾個主題”本身就是一個很模糊的事情,是3個,5個?也有可能是20個!但當我們走向用概率法則來思考問題,也就開始自由了。

  因為我可以將所有文本看成2個主題的組成,一個是我們關心的主題,另一個就是其它主題。比如,我關心的是信用風險主題,那我只需要知道一篇文章在多少程度是在講信用風險就可以了,比如,75%說明比較相關,5%說明幾乎不相關;至于其它的主題是在講什么,是和我的分析沒關系的。但我們不能讓文本自然呈現出2個主題(文本直接進行2分類),因為自然呈現的結果往往并不會產生我們關心的主題。因此,需要利用Source主導LDA模型把我們想要的主題區分出來。

emba

  在處理海量本文上有大量的技術細節要考慮,比如,如何識別出公司名?你可能覺得可以用列表的形式(直接進行字符串匹配),但如果出現新公司怎么辦呢?而且一家公司名可能有很多的變體,例如International Business Machine(美國國際商用機器公司)通常以IBM的形式被報道,United Overseas Bank和UOB都是指大華銀行,等等,全球無數大大小小的公司,各種情況,不勝枚舉。

  但因為我們研究的是公司的輿情分析,做主題提取時,如前述,必須要把公司名剔除掉,所以必須要實現識別公司名,這里沒有完美的解決方法,但我們可以選擇效果更好的,效率更高的方法。

  因此,自然語言處理這個工作,很大一部分是基礎建設的問題,你需要依賴別人努力做出的成果,在其基礎上應用、改進。

  比如你要開一家工廠,前面需要建一條路通到最近的公路上,那公路就是基礎建設。我們采用了“命名實體識別“(NER)的方法,其實是利用了別人的研究成果,也就是說利用python調用別人的包來實現的。但由于我們對金融數據有足夠多的了解,在實際應用中發現了很多的不足,比如,一些小公司或者帶有特殊后綴的公司名,會識別不出來之類的。

  現在,我們也正在進行進一步的優化,訓練我們自己的NER模型,可以更準確的識別出公司名。不過在得到我們自己訓練的NER模型之前,我們先選擇了已有的NER技術,因為現實的問題是,如果你對所有的既有結果都不滿意,你是無法前進的。我只是要強調,別人的包你當然可以用,只是不要盲目的相信這些包所產生的效果。

  【技術2:態度】

  下面探討關于態度的技術問題。態度可能是正面、負面或是中性的,選擇3分法、5分法或者7分法,你自己要決定。5分法就比如把正面的態度進一步拆分為比較正面和非常正面,負面的態度拆分為比較負面和非常負面。但需要注意,分到太細就沒有意義了,因為文章的表述的粒度也是有限的,我個人是比較推薦5分法。

    要如何實現這個態度分類呢?我們采用了一種現在最進步的TABSA-BERT的方法。其中,BERT是谷歌開發出來的語言表征模型(language representation),也就是學會如何把詞/句轉化為對應的詞/句向量(word/sentence embedding),是個已經預先訓練過了模型(pre-trained)。

taifu

  我們在這預訓練模型的基礎上,針對具體的任務對參數做進一步的微調(fine-tune)。那BERT的優勢是什么呢?主要是BERT模型在將文句轉化為向量的過程中,不僅考慮了語義的環境,還讓文字之間的含義在數學的運算上有了具體的含義。

  舉兩個例子來具體說明,

  01

  第一個是,“我喜歡吃蘋果”和“蘋果公司又推出了新產品”。這兩句話中的“蘋果”雖然在文字上是完全一樣的,但我們知道真實的含義是不一樣的,一個是水果、一個是公司。BERT學到的兩個“蘋果”對應的詞向量也是不一樣的,因為BERT不僅會去學“蘋果”這個詞本身,還會考慮其處在的上下文語義。

  02

  另一個例子是,可以找到“國王”、“皇后”,”男人”、“女人”這四個詞對應的詞向量之間的關系,這個關系幾乎等于:“國王”-”男人”+“女人”=“皇后”,這是挺神奇的吧。因為谷歌的這個BERT模型很大,如果你想從頭就自己做,不僅需要專業知識,而且還要花很多時間、用很強的電腦硬件。就像政府建的高速公路網一樣,你不會也沒能力自己去建個一樣的公路網,谷歌提供的BERT預訓練語言模型就相當于是項基礎設施。

  TABSA全稱是Target Aspect-basedSentiment Analysis,這里其實就包含了我剛才講的三個維度了。

  #Target(目標的意思),在我們企業違約的分析中,企業就是我們的目標;

  #Aspect(方面),相當于我們的主題;

  #SentimentAnalysis,代表了態度維度。

  只不過,在我們的分析中的主題必須被分的粒度為更細,也就是要用剛才提到的Source-LDA方法單獨處理了。

  另外需要注意的事項是,分析主題時候,應以文章為單位的,判定一篇文章在多大程度上與信用主題相關;但在我們分析態度時候,需以句子為單位。因為一篇文章可能只有某些核心的句子提到了某家企業,并表達了態度,而其它的句子或者是與這家企業無關的,或者是一些鋪墊而沒有表達態度的內容。

  另外,個別句子對企業的態度可能非常明確,但一篇文章卻不一定。

  綜上,我們在進行態度分析時,必須以句子為單位。在我們得到了每句話對企業的態度后,再整合成文章整體對企業表達的態度。

提取主題

  【架構圖】

  現在,我把剛才討論的思路用一個架構圖來表示,提供一個整體的觀念。

  首先,收集媒體報道的資源,儲存到資料庫,我們通常用mongoDB這種非關系型數據庫來處理,因為它更適合存儲文本。

  然后,從文章層面,對每一篇文本探索它與所關心的主題的相關度,這里需要對文章進行刪除實體名、分詞、詞性還原、去掉停用詞、情感詞、數字、標點符號等等一系列文字處理。

  分詞,又稱標識化(Tokenization),是將文本分割成一小塊一小塊,每一個小塊叫一個token。分詞是最能體現出中文和英文的本質上的差異:英文是以字為單位,一個字就可以表達完整的含義,中間已用空格或者標點符號隔開;而中文則以詞為單位,且詞之間沒有間隔。

  比如說,天氣這個詞,英文是weather,一個字,而中文,需要“天”和“氣”兩個字組成,因為單獨的“天”和“氣”都可能有其它的含義。中文和英文文本一旦得到準確的分詞,后面的處理都極為類似,都是把token數字化的過程。

  你可能會說,中文和英文的文法結構也不一樣啊。我以前也認為文法的區別是很重要的,但我現在明白了,機器根本不需要提前知道不同語言的文法,因為這些都可以在訓練中學習到。就像小孩子學語言,是不會管具體文法的,小孩子只是在不同情境下,簡單的重復、模仿,文法就會自然呈現了。

  所以,請大家記住,在自然語言處理中,中文和英文的核心差別只有分詞的差別。對于英文,我們很容易得到正確的分詞結果,中文沒有天然的分隔符號,是一個字連著一個字的,我們如何得到分詞的結果呢?這個是比較麻煩的,但已經有人做過這樣的工作了,我們可以借助現成的工具(包)讓我們的任務變得簡單。

  詞性還原(Lemmatization)主要是針對英文,需要把名詞單復數、動詞的過去式、進行式的時態還原成一般現在式等;

  去掉停用詞(stopwords)主要是把文章中沒有實際含義,卻廣泛地出現在每篇文章中的詞拿掉,英文中例如the, of, it等等,中文里也有如“的”,“是”,“個”之類的詞,這些詞如果保留會大大的增加機器學習的時間,卻不能對文章主題分類有實際的貢獻,這些停用詞庫可以直接在網上下載下來。

  去掉情感詞(sentimentwords)是因為我們不希望讓一篇文章表述的情感影響主題的分類。其余的包括去掉標點和數字等環節也是在進行主題分類時候的一些必要的基本操作。

  分析媒體文本對實體所表達的態度,我們以句子為單位(請注意這部分是一定需要包含實體名的。為什么以句子為單位請參考上文)。然后我們將整合到文章層面上表達的態度,與文章與主題的相關度加權匯總起來,得到了文章基于主題對特定企業的輿情。再進一步根據媒體、日期進行整合,最后利用移動平均得到關于企業在該主題上平滑的輿情因子的時間序列。之所以進行移動平均,是因為考慮一篇媒體的報道可能對未來一段時間都有一定程度的影響力。而移動平均的時間窗口,則需要按照你的數據、研究問題的不同而進行相應調整。

  比如說,我們在研究企業違約預測時,設定了2星期的移動平均窗口;但在研究綠色金融時,設置的則是4個星期的窗口。

數據庫

  【文本數據庫】

  目前,我們的資料庫里已經有200萬篇英文文章了,中文也有60多萬篇,而這些數字還不斷的在增加中,明顯的,對海量文本的分析不靠機器學習是不現實的。

  【被解釋變量Y】

  現在來討論企業違約建模的具體考量。討論企業違約的本質問題,首先要明確兩個觀念,一個是“企業違約概率”(probability of default,PD);一個是“其它退出事件發生概率”(probability of other exit,POE),例如被收購、上市公司私有化(退市)之類的。分析公司的違約概率,不能忽略發生其它事件的概率,因為如果一家上市公司被收購了,不再存在,還何談違約呢?

  因此,一家企業未來是否發生違約,什么時候可能違約,和它存活多久的概率有關,又與其它退出事件發生概率有關。比如從銀行放貸的角度看待其企業客戶,如果一家企業客戶轉向其它銀行申請貸款,那對于原來的銀行來說,就是一種企業退出事件的發生。因此,當我們研究企業違約時候,也就是我們的Y變量,至少需分為3個狀態,分別是0-存續,1-違約、2-其它退出事件。

預測

  【解釋變量X和維度】

    現在講一講X變量的數據維度。假設樣本有1萬家上市公司(實際上是全球有8萬家左右),如果有三個重要的共同風險因子(Common risk drivers),比如說利率、油價、CPI,每一家公司又有杠桿率、流動性等等5個個體因素(Individual attributes),影響公司違約概率。那么這X變量有多少維呢?1萬家公司,每一家都有5維的個體因素,就是5萬維了,再加上3維大家共用的風險因子,也就是50,003維,這是個正常的理解。

  但以機器學習的角度,通常把它想象成8維,為什么?因為所有公司的某一個個體因素,都是作為同一個X變量輸入到模型里去的,使用同一個模型參數。

  但是如果要對個體公司做壓力測試,就不能忘記這原來是50,003維的問題,因為你公司的杠桿跟我公司杠桿不是同樣的東西,兩個都是動態的時間序列,并具備相關性,是不是?其實這個問題本質是50,003維,只不過機器學習在建模時候當作8維。我們不能忘了這個數據本身的維數就是非常高的,而我們在金融問題上面臨的就是這樣的數據,補充輿情分析的因子就是增加數據的維數,增加X變量。

  我們面對的數據是一個非常不完整的面板數據,每個公司都是一條多維時間序列。但在某個時間點,可能有些公司還沒有出現,有些公司已經倒閉或被并購了,因此,這個面板數據肯定是很不完整的。面對這樣的數據,這樣的Y和X,我們要探索它們之間的函數關系,以及判斷增加輿情因子是否有補強的效果。

企業債務

  【違約概率預測函數】

  這個違約概率預測函數本身是很復雜的,因為需要考慮的因素非常的多。比如說,違約或上市概率一定會有期限結構,我們關心的可能是1個月之內的違約也可能是3年之內的違約。靠慮是否加入輿情因子,并不會影響函數的形式只會改變X變量維度。

預測

  【違約預測背景交代】

  新國大的信用研究行動計劃(NUS Credit Research Initiative, CRI)已經進行了12年了,我們提供關于全球超過8萬家上市公司不同期限的違約概率預測數據,大家都可以從公開的平臺下載(如CRI官網:http://nuscri.org)。很多金融機構,像國際貨幣基金組織(IMF)、商業銀行等都在用CRI產出的數據。

  

輿情

  【輿情的補強功能】

  因為結構化的金融數據,已經為企業違約預測提供了非常豐富的信息,我們只能期待,輿情因子起到補強的功能。

功能

  【輿情分析背景交代】

  其實早在2014年,CRI研究團隊就已經開始探索,輿情對于企業違約預測的作用,當時,我們采用的是RavenPack輿情指數。研究發現,當只采用輿情單因子進行違約預測時,輿情起到一定作用;但當我們把它納入到既有預測模型時,也就是和其它金融結構化數據一起預測企業違約的時候,輿情因子并不能產生額外貢獻。

  經過了一年的努力,我們不得不遺憾宣告失敗。那時候的我們,目標是十分明確的,但回頭仔細思考,發現采用的方法還是不成熟的,因為RavenPack的輿情是一般性的輿情,并沒有考慮主題相關性問題。

  2019年7月,CRI重啟了輿情分析計劃,開始自己生成主題明確的輿情因子。經過不斷的探索,我很高興的告訴大家,這次我們得到了正面的成果,輿情對違約預測是有價值的,可以提供豐富的結構化數據之外更多的信息。

  我現在十分有信心,是因為我們無論在方向上還是方法上,都有了很大程度上的掌控。同時,我們也相信、希望輿情因子可以更有效地用在為還沒上市的中小企業,提供更多的信息,這也是我們重啟這個計劃的初衷。因為中小企業的財報沒有嚴格的審計、市場監管,很可能是不夠準確的。同時,它們通常沒有上市,沒有那么多的結構化數據提供信息,所以輿情至少在觀念上,可能會補充更多有用的信息。

數據庫

  【語料庫】

  目前,我們收集的包括全球主流英文媒體金融時報、華爾街日報和路透社的報道,中文收集了新浪財經和財新網的報道。另外,我們還收集了東南亞本地媒體的報道(英文)。近期,我們也開始建立其它語言的輿情,比如印尼語。在了解了中英文在分詞上的本質差異后,我們自然對處理其它語言時充滿信心。

數據庫

  【樣本描述】

  英文文本方面,我們先以美國和加拿大交易所上市的17,816家公司為例進行驗證。考慮文本歷史覆蓋時間后,我們最終采用的是從1998年6月到2020年12月,共近148萬條月度樣本,其中,有1,681個違約事件,15,597條屬于其它退出事件。不難發現,像被收購、退市之類的其它退出事件是違約事件的將近10倍。

  但中國的樣本具有不同的特征,CRI關于中國大陸交易所的4,294家上市公司所對應的樣本中,有1,747個違約事件,但其它退出事件只有544個。這是因為,中國上市公司的殼資源很有價值錢,再不濟也可以通過借殼避免退市(目前,中國的退市機制也在不斷的完善中)。

數據庫

  【變量描述】

  那前面提到我們的輿情因子采用的是五分法,從-2到+2。其中,0代表中性的態度。對于輿情缺失的時間點,就是在當月沒有媒體報道一家公司時,我們也放入0。但要注意,此0非彼0(態度中性的0和填充缺失值的0)。

  所以我們增加一個啞變量(dummy),用來區分兩個0代表著不同含義。這個是統計上的處理方法,當一家公司在某月有媒體報道時,無論報道的態度是如何,啞變量都設置為1,但當在那時間點上沒有媒體報道時,則設為0。可以想象,大部分公司在大部分時間點都不會被媒體報道,啞變量都為0。另一方面,啞變量也有經濟的含義,也就是某家公司是否被媒體關注,代表著被關注本身也可能具有意義。

統計

統計

  【統計結果】

  現在,我們采用邏輯回歸(logistic regression)的方法來展示最終的效果。這個方法雖然不是CRI系統采用的較為復雜、高質量的統計模型,但邏輯回歸非常直觀、簡單,便于非信用風險專業人士的理解。

  圖表中對應的Y為1和2,分別代表企業一年內發生違約或者其它退出事件的邏輯回歸結果。其中,dummy就是我們剛才提到的啞變量,predictedlabel就是輿情因子。標X的是其它解釋變量。

  可以看到,無論是我們用美國和加拿大的英文輿情因子(P21),還是中國大陸的中文輿情因子(P23),在對違約事件的邏輯回歸中,統計上都是非常顯著的,而且對應的系數為負,方向也是符合經濟常識,即輿情因子越正面,企業的違約風險越小。

  而在其他退出事件的邏輯回歸中(P22,P24),可以看到,相比輿情因子,啞變量在兩組樣本的邏輯回歸中在統計上更顯著,說明一家公司被報道這件事本身更有助于預測其他退出事件的發生。你可能會質疑,統計上的顯著在經濟層面上不一定有實際用途。比如,統計上我驗證了兩塊錢跟三塊錢有很大的差別,但是我對兩、三塊錢之間的差異根本不在乎。

統計

  【PD變化】

  接下來,我們看看加入輿情因子,違約概率實際上發生了多大的變化。這里都是以基點(即萬分點,bps)為單位的。因為違約本來就屬偶發事件,所以哪怕是10個基點,其實已經是很大的違約率了。比如統計顯示,一家信用評級為BBB的企業,一年內違約的概率大概是15個基點,所以5個基點的變化都不能被輕視的。所以,根據兩組違約概率差異分布圖,可以看到輿情因子的影響還是很大的。

統計和經濟意義

  【PD衍生評級變化】

  我們可以進一步將預測違約概率的差異具象到信用評級層次上。

  首先要了解,信用越好的公司,只要它的違約概率發生了些微的變化,對應的信用評級就會變化很大。以標準普爾(S&P)的劃分方法將PD對應到信用評級上,可以看到,美國和加拿大的57,175個有輿情的數據點中,6,400個數據點的信用評級都發生了變化,其中,包含5,417個數據點的信用評級都下降了一級(notch),比如BBB就會變成BBB-。

  中國大陸上市公司的資料,有14,367個包含輿情的數據點,其中5,929個數據點都因為輿情的加入而改變了原來的信用評級,甚至有2、3級上的變化。這驗證了輿情因子不僅在統計顯著上,在使用層面也會帶來明顯的價值。

統計和經濟意義

  【POE變化】

  對于其它退出事件(比如被并購、私有化)的發生概率上,橘色和藍色分別代表考慮輿情因子前后,其它退出事件概率的分布圖。可以看出,加入輿情因子后,其它退出事件的概率比之前大了很多(中文同理)。如果說,違約的預測有助于進行風險管理,那么并購標的的預測則對投資非常重要,因為被收購的公司往往可以獲得高額的溢價,股票會大漲。

  根據上述的描述可確認,主題、主體明確的輿情分析,在中英文本上都已經發生了明顯的效果,也達到甚至超出了我們的目標,即利用另類數據構建的因子,有望補強原有的預測模型的準確度,其補強效果顯著。

  當然,我們不能期待輿情因子可以在每一家公司上發揮作用,因為媒體不會對所有公司都進行報道,但一家公司只要被報道,輿情就可能帶著有用的信息。

  2

  案例分析

  GameStop(游戲驛站)-違約概率

  現在檢視一個今年年初鬧得沸沸揚揚的案例GameStop(游戲驛站),反映了一場社交媒體和正式媒體的大戰。在圖中可以看到(灰色的條),正式媒體的報道都是表達了負面的態度,但是我們知道,社交媒體對GameStop的評價是非常正面的。在那段時間,股價完全反映了社交媒體的意見。

  但我們也知道,GameStop已經是沒有前途的公司,它的違約風險也應該不低,而它瘋狂暴漲的股價完全沒有客觀地反映該公司的基本面。根據我們的邏輯回歸模型,股價的大漲會相應地降低違約概率的預測值。

  我之所以選這個案例,是想看看正式媒體表達的客觀、負面的態度評論,能否扭轉社交媒體正面評價所帶來的影響。但我們也可以看到,扭轉的效果還是不夠的,因為股價的效果實在很強,也就是說,傳統金融資料對模型的解釋力是極強的。不過,GameStop目前也還沒有違約或倒閉,所以我們只是從模型的角度來看看在極端情況下的一種預測。

案例

  案例分析

  天齊鋰業-違約概率

  我們再看一家已經發生違約的中國上市公司,天齊鋰業。

  圖中可以看到,藍色的加入輿情因子后的違約概率比原來模型預測的顯著增加。所以,無論是從整體還是案例層面,輿情因子都是非常有用的。

案例分析

  案例分析

  Solar City(太陽城)-并購概率

  我們再來檢視并購的例子。美國的案例是SolarCity(太陽城),這是家被Tesla在2016年以高溢價收購的公司,但在今年年初又惹出了法律問題,打了官司。圖中顯示,在原來模型加入輿情后,被并購的概率就上升了,而且數據告訴我們,媒體報道態度的方向是不重要的,只要被媒體報道,被收購的概率就會增大。

  仔細想想,應該會覺得這是很合理的結果:因為媒體報道的態度對違約預測,應該是有方向性的,越負面,違約概率越大。但在收購預測層面,信用越差,越可能成為被收購的目標;信用特別好,也可能成為被并購的目標。因為收購方既可以去低價買入爛公司,也可能高溢價收購好公司,所以這個結果是很合理的。

案例分析

  尾 聲

  獲得這些成果,我其實是很驚喜的。因為我曾經設想,輿情可能就像牛反芻一樣,看了財報、其它金融信息,然后表達了相應的意見,而我們的模型已經包含了財報、股價等等信息。但科學分析的結果告訴我們,輿情是有補強價值的。一旦我們掌握了問題的關鍵,解決問題的方向和方法,我們就可以得到更科學的答案。

  3

  問答環節

  Q1

  目前有部分的金融企業輿情分析存在著數據來源單一、覆蓋率不足、數據挖掘的程度不深等問題,這會導致輿情分析判斷不夠準確嗎?可以請段老師給我們一些建議嗎?

  答:輿情分析的數據是永遠不會夠的,我認為最重要的問題不是這個媒體來源,媒體來源一定是有限制的。你要做個判斷:是不是要離開正式媒體(轉而選擇社交媒體或者其他數據),剩下的就是技術問題。所以,你首先要了解我講的三維問題,把三維問題想清楚后,再做輿情分析才會比較有效。很多人分析的結果不成功是因為觀念上的問題,導致即使做出技術上正確的分析,也不一定會有結果。

  另一方面,如果選擇的媒體本身品質不高,我們技術上分析得好也可能沒有額外信息。所以我認為做了一定程度的努力再做判斷是比較好的方法。我今天在講座里面講了很多觀念問題,但如果從純粹的技術層次說,高手跟普通人確實是有差別的。同樣的東西,比如你看了一本秘籍,你就體會跟另外一個人體會不一樣。

  所以基本功還是個挺重要的事情,我希望今天參與我這個講座的同學能收獲到正確的思維方式,這樣也可以和專業人士進行比較具體的溝通。

  我覺得就能達到今天講座的目的,但是要變成專家,還是很長的路程,就必須要做很多努力。

  Q2

  面對突發的金融事件,如何快速的進行輿情風險分析呢?

  答:我現在講的輿情分析是根據我們做出來的系統,來分析企業的每日輿情動態,系統是天天產生新的東西,所以我講座中談到,要關注“主題”。

  現在我關心的兩個主題:一個是信用的問題,一個是綠色金融的問題。我們的系統中每天都會產生針對這兩個非常明確的主題的新的輿情結果。所以突發金融事件發生時,我們的系統都可以及時捕捉到。

  因此,你要先想的是輿情分析的目的是什么:做研究或者做報告是一個目的,update(更新)是另一個目的,因此我們要目標明確,應對突發事件只要媒體報道,我們就可以知道結果了。

  Q3

  段老師,如果我們的模型越來越完善,可以越來越準確的預測,那這個模型會不會被反向利用?發布對公司有用的信息,最后又不準了,就這個問題,段老師您怎么看?

  答:你提到的模型在所謂的社會科學里面有一個基本的辯論,我們對社會,對行為的越發了解,會反過來改變行為。

  但是我現在講的這個事情不會發生,因為我今天用的是正式媒體,是有一套系統跟管控的。比如,華爾街日報不會做虛假報道,尤其是為了讓某個模式產生效果的虛假報道。所以,你說的情況在正式媒體上的發生的幾率是非常小的,模型反映的是現實。

  因此,我個人認為在正式媒體上,沒必要擔心文章的出現會影響事件本身。

  Q4

  老師還提到您做的輿情因子是針對上市公司的,也可以更好的補充對中小微企業的信息補充。但會不會媒體更傾向于報道大型公司,比如蘋果、特斯拉、貴州茅臺,而對中小微企業的報道很少的。老師是否有這方面的衡量呢?

  答:媒體是會有這樣的傾向的。因為你不能指望華爾街日報去報道印尼的一家小公司。我們對此也有所考量。所以,我們除了國際上大型的新聞媒體之外,還收集了不同國家的地方媒體資料(尤其是東南亞AEAN國家的),甚至包括地方語言(比如印尼語)的資料。

  Q5

  目前市面上不少利用各種另類數據,比如電信賬單、支付記錄之類的來做中小微企業的輿情,段老師有這種打算嗎?

  答:除了傳統數據,新聞報道是另類資料的一種,你剛提到的電信賬單、支付記錄之類數據也是另類資料的一種。另類資料是無處不在、無窮無盡的,如果任何數據都拿來用,那我們就被另類數據綁住了。

  因此,我們首先要明確,另類資料在我們的研究問題中(預測)不是來取代傳統資料,而是用于補強的。因為傳統的金融數據已經包含了十分豐富的信息,這是我們的核心研究。

  在其基礎上,我們如今驗證了,媒體的報道確實對企業違約預測具有顯著地補強作用。所以,對于另類數據,我們一直是基于這個補強作用來考量。至于將來,我們會采用何種另類數據進一步探索,主要還是根據我們的研究問題,重要程度、數據的可獲得性等等多個層面來決定的。

  Q6

  老師對于輿情因子在企業違約預測中的作用進行了細致的講解,讓我們受益匪淺。同時,老師還提到的在綠色金融中的應用,可以稍微再展開一些嗎?另外,老師對于輿情因子在我們投資中的應用方式,有什么建議嗎?因為老師一直在強調的“主題”好像比較少在投資領域聽到。

  答:我先講投資領域的應用。剛剛在我們分析的結果時,你可以看到輿情因子已經能夠幫助預測企業并購/收購的發生,這在投資上就很有用。因為我們都知道如果一家企業變成被并購/收購的目標,股價往往會漲得很厲害(溢價收購)。所以如果能增加準確度,這就是一個很好的投資的方式。

  另外,對于綠色金融也好,其他應用也好,還是我一直強調的,要明確做這項技術的目的。我們要區分,想產生的是Y變量還是X變量。我在講座里也談到的,Y變量是預測的結果,X變量是用于預測的變量。例如,我根據企業在信用主題上的輿情,來預測公司發生違約的幾率。那輿情因子就是我們的X變量。關于綠色金融的輿情因子,那么就需要明確我們要利用綠色金融來做什么?我的目標是做企業在綠色金融的輿情分析,了解企業在綠色金融上的貢獻,也就是產生Y變量,而不是產生X變量用于幫助解釋其他。


  圖文/新加坡國立大學EMBA官方微信

報名申請
請提供以下信息,招生老師會盡快與您聯系。符合報考條件者為您提供正式的報名表,我們承諾對您的個人信息嚴格保密。
姓名*
提 交
恭喜你,報名成功

您填的信息已提交,老師會在24小時之內與您聯系

如果還有其他疑問請撥打以下電話

40004-98986
0/300
精彩留言
主站蜘蛛池模板: 乳色吐息在线观看免费 | 亚洲九九夜夜 | 日韩国产第一页 | 日韩精品视频美在线精品视频 | 黄色小视频在线观看免费 | 天天干天天色综合 | 成人免费夜片在线观看 | 男女啪啪网站 | 日韩网站在线观看 | 午夜高清在线观看免费6 | 欧美大成色www永久网站 | 福利一区在线 | 你懂的在线观看网站 | 日韩无砖专区体验区 | 在线看污视频网站 | 国产免费一级高清淫日本片 | 欧美一级片手机在线观看 | 18成人在线观看 | 人人干人人舔 | 天天躁狠狠躁夜躁2021 | 伊人网在线免费观看 | 2020国产成人久久精品 | 精品中文字幕制服中文 | 影音先锋欧美资源 | 91短视频在线观看免费最新91 | 免费看片网址 | 国产午夜精品一二区理论影院 | 超级在线碰 | 日韩成人在线影院 | 国产成人久久 | 中文字幕日韩精品中文区 | 欧美日韩在线网站 | 国产免费观看嫩草影院 | 一级黄色性生活视频 | 最色网址 | 最近新韩国日本免费看 | 欧美日韩在线成人 | 男人下面进女人下面视频免费 | 麻豆成人传媒一区二区 | 成人日b视频 | 亚洲综合精品一区二区三区中文 |