時間:2017-08-22 來源: 責任編輯:att2014
讓數據發聲:司法領域大數據應用的效用前瞻
——基于信用卡透支糾紛案件的模擬研究
郭 玉*
各位前輩、同仁:
“大數據”早已是眼下一個特別熱門的詞匯。隨著信息技術的進步,一個大規模生產、分享和應用數據的“大數據”時代早就已經開啟,各國政府逐漸認識到大數據在推動經濟發展、改善公共服務乃至保障國家安全方面的重大意義,紛紛展開了大數據應用研究。文書上網使民間對司法數據進行“大數據式”解構成為可能。在大數據時代,數據資源就是新的“石油”。最高院以極大的魄力要求全國各地、各級法院的法律允許公開的裁判文書上網,實際上是將司法領域最寶貴的資源分享給了社會各界。中國裁判文書網訪問量截止到上周已經突破了98億次。民間許多嗅覺敏銳的大數據公司早已開始了對裁判文書網資源進行的商業價值開發。與之相比,法院系統內部也在積極調適狀態,求新求變。以上海、貴州為代表,兩地的法院系統各自研發出了跨部門的智能輔助辦案系統,獲得了孟建柱書記首肯,稱之“現代科技應用邁出一小步,可以推動刑事司法文明前進一大步。” 7月10日在全國司法體制改革推進會上,孟建柱書記進一步提出要以習近平總書記系列重要講話精神為指南,積極主動擁抱大數據、人工智能新時代,把理念思路提升、體制機制創新、現代科技應用和法律制度完善結合起來,努力創造更高水平的司法文明。將大數據思維和大數據技術應用于司法數據研究領域,讓數據發聲,通過“司法數據的全面聚合”而實現數據價值倍增,將使司法系統不但在發現審判規律、統一裁判尺度、提高審判管理的智慧度、提高決策科學性以及增強審判預測能力,而且在延伸審判職能,發揮司法建議在社會管理及公共服務方面的實際功效等方面都提升到一個新高度。
我分享的第一個問題是:“大數據”or“大規模的小數據”?
大數據是指數據量特別大嗎?如果是,那么多大的數據體量才是大數據與小數據的分界線?用常規的研究方法,投入更多的工作量,就能夠實現對大數據的研究嗎?你拿到的到底是大數據還是一個規模比較大的小數據?
數據總量大,固然是大數據的一個顯而易見的特點,但卻不是根本的區別。龐大的數據信息一直存在,但直到近年來,這些數據才以一個整體的姿態作為研究對象。與其說大數據是一個龐大數據的集合,倒不如說是一種對龐大數據的處理思路。這種處理思路,與傳統的統計學思路是截然相反的。
其一,拒絕取樣,請給我全部數據。傳統統計學進行的是樣本研究,而大數據思維是不做取樣研究的。在《大數據時代》中,對此有一句非常經典的描述:“當數據處理技術已經發生了翻天覆地的變化時,在大數據時代進行抽樣分析就像在汽車時代騎馬一樣。”樣本研究所受的制約很大,其結論的可信賴度是較低的,但人類仍然長期依賴于這種研究方法,其原因是技術制約;現在,數據運算方法已經不再需要人力進行摘錄、比對、分析,計算機已經可以實現在最短的時間對海量數據進行分析,為什么還需要取樣分析呢?所以,在某一研究領域,仍然采取取樣研究的方法,運用的其實并不是大數據思維,只是一個規模比較大的小數據罷了。
其二,不再追求精確。傳統的統計分析總是在追求精確,約精確越好。依賴于利用結構化查詢語言,如法院辦案系統,在這種數據庫中,每一項數據都需要在指定的表格里、以正確的格式錄入,否則無法被識別更談不上分析。如果在結構化數據庫下想分析更多的數據,就必須有海量的關聯輸入,這種人力的付出是不可能實現的。大數據時代對數據的完整性、精確性的要求大大降低,不再受數據錄入的是否精準的牽絆,這讓數據的多維分析成為可能。
其三,旨在發現關聯,而非直接命中因果。人類研究活動總是以尋找因果關系為最終落腳點。然而大數據技術卻是從關聯度入手,發現兩種事物之間的密切關系,然后再尋找原因。因為有了分析關聯度的工具,人們終于可以從“假設-實驗-證實”的實驗室思維中解脫出來,從“以果尋因”的思維胡同中解脫出來,發現一些靠人腦難以發現的潛在規律。這讓大數據“預測”功能得以最大限度的發揮。
第二,結合我這篇文章來談一談我們對“大數據”可能有怎樣的運用方式。根據上面的內容,其實可以看出,我這篇文章采用的模擬方法,即假設我擁有開源的數據及數據分析工具,可能會怎樣使用這些數據,產生哪些分析結果,并非是真正的大數據研究方法。
1.基本分析模型
模型一案件數量趨勢、標的及結案分析模型。這個模型非常基礎,主要用于觀察信用卡透支前科糾紛的發案數量及執行到位狀況。模型二單個案件透支數額比對模型,由這個模型可以看到,單張信用卡透支欠款不還的數額是持續挑戰新高的。模型三原告/申請執行人分布模型,也就是分析哪間銀行、該銀行在哪個地域易發生信用卡透支欠款糾紛。上述模型對分析銀行風控工作有著重要的參考意義。
2.關聯度分析模型
大數據工具可以實現詞頻及關聯性檢索分析,在信用卡透支糾紛中,可能從如下幾個角度分析。模型四被告/被執行人分布研究。在人力查閱案件時,隱約感受到這樣的規律,大額透支以城市持卡人為主,10萬元以下的小額透支以鄉鎮村的持卡人為主。推測其原因,城市居民在繳納社保、工資領取、房貸車貸、醫療教育等諸多方面不可能與信用絕緣,不大可能為了小額的欠款使自己進入銀行征信記錄黑名單,而大額透支主要經商失敗資金鏈斷裂導致。究竟是不是如此,這里沒有確定的結論,但有了大數據工具就可以進行驗證。據此就可以向銀行提供定向明確的信用卡發卡及授信的風險控制建議。
模型五被告/被執行人到庭情況分析模型。這部分目前也是估算,審判階段,約有八成被告人是缺席的,而執行階段無法聯系到被執行的現象更加突出。這個模型的意義在于找到此類案件“執行難”的真正原因,并不是法院不給力。銀行發卡授信之時對持卡人的信用考察嚴重不到位,才是銀行債權回收執行難的最大原因。
模型六訴訟結果分析模型。對高度類型化案件進行訴訟結果分析意義重大。現在只能靠手工逐個打開判決書看判決結果及原因,案件一多就難以操作。但使用大數據技術就可以極其便捷地掌握類型化案件的預判。目前已經有許多公司已經實現了對類型化案件的預判,不但可以定向分析某個地區的法院處理方法,更可以預測具體某個法官的判決傾向。與此相比,法官自己在作出裁判的時候,如果都不了解類型化案件的一般裁判思路,其后果將是不可想象的。
模型七法院強制執行情況分析模型。法院進行了哪些強制執行措施,是考察法院在執行階段是否盡責的重要依據。某一類案件,雖然執行到位率極底,但法院卻已采取了目前可能采取的手段,那么就不能將債權回收率差的問題認為是法院的責任。
模型八:起訴密集度模型。研究目的有二,其一若發現集中立案情況嚴重,可能說明銀行在債權回收職權行使上有所懈怠,可提出針對性的司法建議;其二法院可以按照該歷年來的立案風格作出預測,提前作出調節,如在銀行熱衷集中立案的時間節點增派立案登記人手等。
3.宏觀背景分析模型
模型九:關聯形勢及政策研究模型。主要用于背景分析,其意義:一是原因判斷;二是收案預測。法官不是通才,要求在高強度辦案的同時,比較難以做到及時了解和掌握各行業形勢與政策的前沿動態,如大數據技術能夠定期對專業類案件抓取相關的政策文件及新聞報道,生成形勢與政策分析報告,將能夠幫助法官審理案件時準確把握案件實質,同時可以幫助審判管理部門預測收案。比如,通過模型九可以看到,信用卡透支糾紛案件的井噴式增長與國家快速推廣信用卡的戰略息息相關。筆者抓取了央行《支付體系運行總體情況》數據,可得:(1)原因判斷方面:全國信用卡發卡量、授信總額度逐年增加;有償債風險的透支債務大幅上升;通過下面第一個圖的柱狀圖及折線圖進行比對發現,授信總額度增長率遠超發卡量,說明在有償債風險的透支債務大幅上升的情形之下,不但不加強風控嚴格控制授信規模,反而對單張卡的授信額度進行了大幅提升。這就印證并解釋了模型一、模型二的現象,也就是為什么收案數大幅回落但立案標的減幅有限,以及為什么單案立案標的逐年趨高分布。(2)預測方面:由于法院收案會出現一段時間的滯后,未來幾年此類糾紛數量可能仍然會很多。
通過上面一些模型,我們可能能夠找到案件多的原因、執行難的原因,找到從根源上化解這類糾紛的辦法,能夠分析收案趨勢,預測審執結果,做好輿情應對,而且更重要的是,可以向社會管理者提出真正具有針對性強的司法建議。正如最高院研究室副主任嚴戈在《人民法院報》一篇文章中說到的那樣:“大數據時代,公共決策最重要的依據乃是數據,而不是個人經驗或長官意志?!?/span>
以上是結合了某一類案件進行的細致而微的思考,其實大數據的應用遠不止于此。最后再引用《大數據時代》里的一句話做結尾:“數據就像一個神奇的鉆石礦,它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下?!毕M@座鉆石礦的光芒早日在司法領域熠熠生輝。
* 廣東省廣州市越秀區人民法院刑事審判庭法官。