如何建立智能投顧和大數據信用評價機器學習方法:請看《金融科技大數據風控方法介紹》

    來源: 科學出版社2023-08-13 06:55:18
      

    金融, 通俗地講, 就是為有錢人理財, 為缺錢人融資, 也就是投資和融資. 在第四次工業革命的背景下, 智能投顧和大數據信用評價分別是金融科技對投資和融資的賦能, 通過技術、數據和場景實現投融資能力的提升和效率的提升.

    與智能投顧相比, 傳統的投資顧問 (investment advisor) 是介于普通投資者與專業投資者之間的角色, 負責為缺乏專業投資能力的普通投資者提供投資建議. 隨著財富的不斷增長, 大眾對投資顧問的需求越來越迫切, 然而個人的精力是有限的, 一位投資顧問僅能為有限的少數投資者提供咨詢服務. 不同投資顧問水平也存在較大的差異. 另外, 由于利益的驅動, 即使有從業道德與法規約束, 也難以保證投資顧問的個人利益與其客戶的利益不發生沖突.

    智能投顧 (robo advisor) 的出現就比較好地解決了上述問題. 一方面, 通過計算機模型構建的虛擬投資顧問, 能夠以較低的成本為大眾提供服務, 而且還可以根據每位投資者自身的特點為其提供個性化的投資建議; 另一方面, 計算機模型能夠不帶感情地為所有人工作, 避免了投資顧問與客戶之間的利益沖突. 智能投顧率先在美國興起, 近年來出現的領先平臺包括 Wealthfront、Betterment、FutureAdvisor 等. 隨著互聯網金融在中國的迅猛發展, 國內的智能投顧也如雨后春筍般崛起, 典型的有嘉實基金的嘉貝智投、招商銀行的摩羯智投、京東金融的京東智 投等.


    (資料圖片)

    金融的根本是信用, 信用 (風險) 建設是一切金融產品定價、風險管理和投資管理的基礎. 傳統的金融征信在輔助金融授信決策、防范信用風險和提升金融獲得性等方面發揮著關鍵作用, 但是傳統信用評價方式基于大量結構化的信貸歷史數據, 對于大部分小微企業、個人消費以及農村金融等國民經濟主戰場相關的征信主體, 由于缺乏供信用評價的歷史數據, 無法覆蓋, 因此無法對其提供相應的金融服務.

    數字技術的發展為解決這一難題提供了方案, 大數據信用評價是指通過對海量的、多樣化的、實時的數據進行分析和挖掘, 并運用機器學習算法重新設計征信 評價模型, 多維度對信用主體的 (全部信息) “畫像” (簡記為 “Hologram”), 呈現信用主體的違約率和信用狀況的征信方式. 大數據征信具備覆蓋人群廣泛、信息維度多元、應用場景豐富和信用評估全面四個創新特點. 金融機構可以利用機器學習的方法, 以行為大數據替代抵押資產, 進行信用風險評估和防控. 大數據風控已在全球范圍內被金融機構廣泛關注, 正在引發金融領域的一場革命 (參見姚前等, 2020; Yuan et al., 2019; 袁先智, 2022 等文獻).

    隨著大數據和人工智能的發展, 金融風險建模方法, 正在從傳統的統計方法到被數據驅動的機器學習方法代替. 與統計模型相比, 機器學習模型不過于關注模型的結構, 而更多地聚焦于如何通過多維度數據提高預測精度.

    雖然機器學習算法如支持向量機、神經網絡等在金融風險建模中已有不少研究, 但這些算法都屬于弱學習算法. Kearns 和 Valian (1989) 提出了將多個簡單的弱學習算法 “提升” 為 強學習算法的集成學習方法. 同時, 集成梯度提升樹 (gradient boosting decision tree, GBDT) 算法的原始想法由 Friedman (2001) 提出, 是一種基于梯度提升的集成決策樹算法, 因其泛化能力和在特征選擇方面的優勢得到廣泛應用. Chen 和 Guestrin (2016) 對 GBDT 進行了進一步提升和優化, 提出了基于極度梯度提升的集成學習算法 (XGBoost). 目前, XGBoost 算法因其更高效的學習能力一出現就備受業界青睞, 成為機器學習研究的熱點. 與深度學習相比, XGBoost 算法對樣本量和特征數據類型要求沒那么苛刻, 尤其適用于金融風險建模.

    然而復雜機器學習模型帶來了較高的預測精度, 但是越復雜的模型, 可解釋性就越差, 這讓模型的實際應用價值大打折扣. 為了解釋復雜的機器學習模型, ?trumbelj 和 Kononenko(2014) 運用靈敏度分析方法解釋模型中各變量之間的交互和冗余. Datta 等 (2016) 采用定量輸入影響測量方法分析輸入的各個變量對輸出結果的影響程度. Ribeiro 等 (2016) 提出了一種在局部學習可解釋模型的技術 LIME, 該技術可用于解釋任何分類器的預測結果. Lundberg 和 Lee (2017) 闡述 了 SHAP 框架的解釋性原理, 證明了 SHAP 評估框架具有穩定性、一致性和合理 性的優點; 同時他們進一步對比了深度學習場景中其他的諸如 DeepLIFT、LIME、 Layer-Wise Relevance Propagation 等算法和 SHAP 值的效果, 發現 SHAP 值更符合人們的理解和判斷.

    《金融科技大數據風控方法介紹——解釋性、隱私保護與數據安全》聚焦于邏輯回歸模型這個金融行業的風險建模標準方法和作為機器學習 在金融行業前沿應用的集成學習模型, 通過對比和討論建立智能投顧和大數據信用評價的機器學習方法與金融科技學科相關的部分核心內容.

    對智能投顧和大數據信用評價的機器學習方法感興趣的讀者,具體情況可以參見李華、袁先智、趙建彬編寫的《金融科技大數據風控方法介紹——解釋性、隱私保護與數據安全》一書.

    本文選自《金融科技大數據風控方法介紹——解釋性、隱私保護與數據安全》(科學出版社,2023.6)緒論.

    好書

    內容簡介

    本書是在大數據框架下, 全面介紹金融科技在處理真實場景金融問題時 需要掌握的最重要的幾類機器學習方法, 并將重點放在實施過程中需要用到的特征提取、可解釋性、隱私保護與數據安全共享等相關內容的討論上.

    本書內容分三部分: 第一部分由 1~ 6 章組成, 主要講常規情況下, 機器學習在金融場景特別是大數據風控中的建模應用; 第二部分由第 7 章和第 8 章組成, 主要講在數據隱私保護和安全要求下, 機器學習如何進行大數據風控建模; 第三部分由 9~16 章組成, 主要講如何基于吉布斯抽樣算法建立特征提取的理論 和標準框架及其在包含投資和融資等 7 個不同金融場景中的應用.

    本書具有五個特點:一是面向應用需求, 介紹機器學習在金融場景特別是大數據風控中的建模應用; 二是緊扣應用, 聚焦智能投顧和大數據信用評價兩大領域; 三是針對算法, 重點講邏輯回歸和集成學習建模; 四是針對數據安全和隱私保護問題, 建立密文機器學習模型, 實現數據共享; 五是針對特征工程, 基于吉布斯抽樣算法, 建立支持非線性特征提取的理論和標準框架.

    讀者對象

    本書既可作為高等院校金融科技相關課程的通用專業基礎教材, 也可作 為金融科技培訓用書, 還可作為廣大金融科技愛好者和金融科技軟件開發人員自學金融科技的用書以及金融科技監管部門的專業參考資料.

    目 錄

    向下滑動查看所有內容

    正文搶先看

    向下滑動查看所有內容

    科學出版社數學教育

    一起閱讀科學!

    科學出版社│微信ID:sciencepress-cspm

    專業品質 學術價值

    原創好讀 科學品味

    科學出版社視頻號

    硬核有料 視聽科學

    關鍵詞:

    責任編輯:sdnew003

    相關新聞

    版權與免責聲明:

    1 本網注明“來源:×××”(非商業周刊網)的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,本網不承擔此類稿件侵權行為的連帶責任。

    2 在本網的新聞頁面或BBS上進行跟帖或發表言論者,文責自負。

    3 相關信息并未經過本網站證實,不對您構成任何投資建議,據此操作,風險自擔。

    4 如涉及作品內容、版權等其它問題,請在30日內同本網聯系。