Categories
創造力

大數據倒在2019


大數據倒在2019 1

  歡迎關注“創事記”微信訂閱號:sinachuangshiji

  文/唐亞華   編輯/魏佳

  來源:燃財經(ID:rancaijing)

  一場大數據行業誕生以來最大規模的“地震”正在發生。

2019年9月6日,第三方數據風控公司魔蠍數據和新顏科技的相關負責人在同一天被警方帶走調查,由此拉開了行業大整頓的序幕,聚信立、天翼徵信、公信寶、同盾科技子公司、51信用卡、考拉徵信等諸多公司也被納入調查行列。

  業內人士普遍認為,此次整頓與數據公司的爬蟲業務以及數據的違規利用有關。究其本質,是對現金貸業務的整頓。

  需求催生了市場。自2013年互聯網金融概念興起以來,催生了一批為網貸平台、消費金融公司、現金貸公司提供徵信風控服務的數據公司,他們利用爬蟲技術的成熟與國內數據信息監管的寬鬆,通過自有數據、爬蟲抓取、金融機構二次授權、地下黑產交易等方式,野蠻生長。

  伴隨著國家對暴力催收、現金貸業務的監管力度加大,一批曾經風光的數據風控公司密集被調查,爬蟲業務暫停,“灰產”行業人人自危。

就在12月4日,國家網絡安全通報中心發文通報下架整改100款違法違規APP,其中不乏知名的樊登讀書、糖豆、更美、房天下等,整改重點針對無隱私協議、收集使用個人信息範圍描述不清、超範圍採集個人信息和非必要採集個人信息等情形。

曾經,一度有觀點認為,大數據時代來臨,得大數據者得天下,電商、營銷等平台把大數據作為自己核心的競爭力,殊不知,技術無罪,但技術也會成為作惡者的工具。

  史上最嚴監管已經來臨,正如業內人士所說:“大數據發展和利用從野蠻生長時代進入了正規化管理的關鍵時代。”

  01

  數據行業大地震

  今年開始,互聯網金融行業進入大整頓,作為現金貸風控的關鍵一環,提供數據支撐的第三方公司成為三季度以來的監管重點。

  2019年9月6日,魔蠍數據被警方調查,高管被帶走;同日,新顏科技高管被帶走協助調查。 9月11日,公信寶運營方杭州存信數據科技有限公司被警方查封;中秋節期間,同盾科技子公司信川科技也有相關人員被警方帶走協助調查;10月21日,51信用卡委託外包催收公司因涉嫌尋釁滋事等犯罪被調查,該公司利用爬蟲技術不正當竊取用戶數據、濫用用戶信息進行暴力催收。

  這一系列整治的背後,矛頭指向的是網貸。 11月14日,公安部網絡安全保衛局局長王瑛瑋表示,今年5月25日以來,對“套路貸”實施團伙、催收團伙以及幫助“套路貸”犯罪的技術服務商、數據支撐服務商、支付服務商開展了全鏈條式打擊。

11月20日再傳出消息,江蘇淮安警方打擊了7家涉嫌侵犯公民個人信息犯罪的公司,涉嫌非法緩存公民個人信息1億多條,其中,拉卡拉支付旗下的考拉徵信涉嫌從上游公司獲取接口後,違規將查詢接口出賣。

圖 / Pexels圖 / Pexels

  這些被調查的公司,可能面臨的共同問題是利用網絡爬蟲技術抓取數據並販賣,涉嫌侵犯公民個人信息。

  網絡爬蟲是指按照一定規則,自動抓取互聯網信息的程序。這項技術並無原罪,業內不少公司會通過爬蟲技術,將用戶在互聯網上的數據收集起來,做出更精準的用戶風控模型。某數據研究院院長劉志告訴燃財經,搜索引擎、天眼查、企查查等公司都是用爬蟲技術爬取公開數據,在不涉及個人敏感數據的情況下,使用這項技術沒有問題。

  但對於這些大數據公司來說,他們把爬蟲做成了產品,並且“走了兩步”。第一步是在面向用戶的產品中,讓個人用戶填寫賬號密碼,從公積金、社保局、信用卡中心等系統中幫用戶把裡面的信息拿出來,第二步是把這些包含很多個人敏感數據的信息緩存在系統,之後對外提供給高利貸、催收公司等使用。 “到第一步沒有問題,但到第二步就涉嫌過度採集、違規使用數據,侵犯用戶隱私。”劉志說。

  這些數據有多大殺傷力?新金融深度曾報導,大數據服務公司聚信立只要獲取用戶的手機號碼和服務碼,就可登錄各大運營商的系統爬取通話記錄的數據,形成“個人用戶報告”,包括通話號碼、次數、時長等,借款人的通訊信息就會成為藉貸機構向借款人及其家人朋友催收的“利器”。這時,這類公司相當於協助了貸款平台的暴力催收。

  劉志解釋,做風控需要多維度的數據,如果全部通過正規渠道去拿,一方面目前行業內沒有太多渠道,另一方面數據成本很高,但通過爬蟲去獲取,邊際成本很低。另外,數據公司通過爬蟲拿到的數據顆粒度更細,除了做風控還可以提供給一些公司做營銷,獲益更大。因此,業內出現一大批違規操作的數據公司。

  02

  數據從何而來?

  多名業內人士介紹,數據公司的數據來源通常分為四大類:企業自身或其相關公司的數據、爬蟲技術爬取數據、相關現金貸公司在用戶協議上進行二次授權、通過地下交易非法購買相關信息。

金融行業從業者張豐介紹,對於第一種情況,公信寶推出手機挖礦產品,用戶免費使用的同時,需要提供大量個人信息,公司即可藉此收集數據;考拉徵信屬於拉卡拉支付參股公司,其數據來源可能包括在拉卡拉上進行信用卡還款、繳費、金融業務的個人用戶數據,以及線下商戶經營的數據。

另外,一些合規的企業不少也具備“數據基因”,如前海徵信是平安集團旗下全資子公司,其官網顯示:前海徵信植根於平安集團,探索多樣化和創新性的數據採集、存儲、處理與分析方式,有著自身獨有的優勢。

  第二種情況是數據公司用爬蟲技術去公開網站等地方爬取數據,主要分為司法信息、電商信息、銀行卡信息、運營商信息、社交信息、開放數據等幾大類。

  雲鼎實驗室2018年發布的《互聯網惡意爬蟲分析》報告顯示,排名前三位的流量目標行業來自出行、電商、社交,運營商和公共行政分別佔比4.91%,被爬的頻率也較為靠前。

大數據倒在2019 2

  其中,公共行政類惡意爬蟲主要集中在法院文書、知識產權、企業信息、信用信息等常規商業信息領域,而另一個受爬蟲青睞的是掛號類平台。

用戶授權也是一種常用的信息獲取手段,如一些現金貸公司在隱私條款用戶協議裡寫了允許其對用戶信息二次授權,而下載軟件的時候可能讀取了用戶的通訊錄、定位、相冊等信息。

  此前,中國信通院發布的《移動金融應用安全白皮書(2019年)》中,抽樣選取了12款下載量過億的典型金融行業APP,所有APP均存在不同程度的超範圍權限採集現象。這些APP共獲取了29種高敏感權限、15種中敏感權限、33種低敏感權限。高敏感權限包括讀取手機狀態和身份、修改或刪除存儲卡中的內容、讀取系統日誌等等。

  在隱私政策方面,抽樣的部分APP也涉嫌違法違規。例如,某款金融行業APP隱私政策中出現要求用戶提供指紋、面部識別信息等個人敏感信息,實際上進行登錄等操作時並不需要。

來源 / 信通院報告來源 / 信通院報告

曾有報導稱,摩羯科技的支付寶爬蟲產品只需要用支付寶掃描一下登錄“二維碼”(第三方生成),後台就可爬取用戶的真實姓名、手機號、收貨地址、近一年的購物信息,甚至詳細到每筆交易的金額。而經過授權的微信爬蟲則可以獲取用戶聯繫人、關注的公眾號、自己是群主的群、微信交易記錄、綁定的手機號碼等信息。

  目前,公安機關已經開展APP違法採集個人信息集中整治。就在12月4日,樊登讀書、糖豆、更美、房天下、健康天津、考拉海購等在內的100款APP涉嫌違法違規被國家網絡安全中心通告下架整改。

  此次整治,重點針對無隱私協議、收集使用個人信息範圍描述不清、超範圍採集個人信息和非必要採集個人信息等情形。

  今年以來,公安部門已經查處違規採集個人信息的APP共683款,嚴厲打擊個人信息黑灰產亂像。

  另外還存在的是行業內很普遍的數據互通和地下交易。

  張豐介紹,一些小公司會把自己的數據上傳到一個第三方應用庫,和同行一對一互查,但最後很可能數據都留存到了第三方被再次交易。網上還有不少QQ群、暗網上出售數據,有的企業內部員工有數據庫權限,私自留存交易用戶數據,用違規插件獲取數據等,使得這個市場更加混亂。

  這些獲取數據的方式是否違規?

  長期關注金融行業的律師肖颯表示,通過地下交易非法收購相關信息肯定違規,情節嚴重會有刑事犯罪風險,涉及到刑法規定的侵犯公民個人信息罪。根據規定,違規向他人出售或者提供公民個人信息,情節特別嚴重的,可處三年以上七年以下有期徒刑,並處罰金。

  至於用爬蟲抓取信息是否違規,要看具體情形,如果通過爬蟲抓取網絡公開信息,並不違法,但涉及到公司或個人信息時,關鍵點在於是否得到個人或公司的授權。缺少授權,就會涉嫌違規,會構成侵犯公民個人信息罪。

  03

  野蠻生長後的行業深淵

  第三方數據產業幾乎是伴隨著國內網貸行業紅利而生的一波企業。

  根據億歐智庫發布的《2018中國智能風控研究報告》,截至去年年底,573家金融風控企業共獲得投資金額超過1000億元,其中三成企業獲得三次及以上的投資。

  這些企業中,69.8%成立於2013年-2017年,2014年增長率達到156%。2015年,新增企業數目達到峰值——148家,隨著2016年開始逐步落實的嚴格監管政策,智能風控甚至金融科技的新增企業數量開始回落。截止到2018年上半年,僅有5家智能風控新增企業。

大數據倒在2019 3

  這一批風潮中,誕生了魔蠍科技、聚信立、51信用卡等一系列明星公司,它們的業務大同小異。

其中,魔蠍科技成立於2016年,面向企業用戶,提供多維度用戶畫像、授信評分、貸後預警、催收智能運籌等風險管理服務;面向個人用戶,提供運營商、網銀、信用卡、借記卡、公積金、社保、支付寶、淘寶、京東和學信網等一站式查詢。

  聚信立成立於2013年,為銀行、保險、消費金額公司、貸款機構等提供智能風控、風險分析、信用分析等解決方案。值得注意的是,京東數科是其第二大股東。

業內人士介紹,在現金貸業務最為火熱的時候,一些小規模的放貸公司大多沒有能力或不願意耗費精力去自建風控模型,會直接採購第三方數據公司的風控系統,價格在2萬元-8萬元不等。這些第三方公司鑽了爬蟲技術成熟但法律監管不太完善的空子,野蠻生長,瘋狂獲利。

  正是因為他們降低了線上放貸的門檻,大批質量參差不齊的放貸機構加入,助長了“套路貸”、“高利貸”、暴力催收,也產生諸多行業亂象。

此前,2018年,“大數據行業第一股”數據堂員工販賣公民信息案曾引發業內震盪,公司在8個月內,日均傳輸公民個人信息1.3億餘條,從源頭到中轉商再到下游使用者,共11家公司牽涉其中。 2019年3月,燃財經曾獨家起底巧達科技,該公司拿8億人的數據一年賺取近2億元利潤。今年5月,北京市公安局網安總隊通報,該公司36人已被檢察機關批捕。

  數據公司助長了現金貸的爆發,惡性競爭也將這一行業推向深淵。

  劉志介紹,緩存用戶數據和用爬蟲爬取信息的成本很低,相比之下,一些合規的數據公司拿數據成本很高,他們就沒辦法跟這些公司去打價格戰,生存艱難。

“之前的那些數據公司,沒有明文規定或嚴厲打擊的案例參考,一直在法律邊緣遊走。現在監管開始發力,這些劣幣慢慢被清除出去,良幣會迎來春天。”劉志表示。

  04

  大數據步入監管時代

  從放貸、助貸到催收,監管風暴已經密集來襲。

  10月21日,最高人民法院、最高人民檢察院、公安部、司法部聯合頒布《關於辦理非法放貸刑事案件若干問題的意見》,要求放貸實際年利率不得超過36%。

  央行還向部分銀行下發了《個人金融信息(數據)保護試行辦法》。文件表示,將對金融機構與第三方之間徵信業務活動等進一步作出明確規定,加大對違規採集、使用個人徵信信息的懲處力度。

  嚴管之下,金融大數據公司風聲鶴唳。規模較大的金融機構可以自建風控系統,但第三方公司業務進入停滯期。

多名業內人士告訴燃財經,9月開始,葫蘆數據、白騎士、立木徵信等數據風控商都暫停了爬蟲服務,聚信立和新顏科技也宣布暫停相關服務,摩蠍科技官網已無法打開。同盾科技告訴燃財經,其子公司信川科技自2018開始就已逐步調整壓縮,目前已全部停止相應服務。

劉志表示,摩蠍、新顏這類公司主要的產品就是爬蟲服務,出了問題基本上整個公司的業務就停了,同盾科技很早就把爬蟲團隊給區別出去,不影響其他業務,公信寶也是一樣。但是從合作層面來看,會對他們在數據安全、合規合作的方面產生一定影響,一些合作商今後會不再合作。

  這一輪對第三方數據風控公司的整頓,其根源仍是為了金融風險專項整治更深入化,整肅到數據源頭,打擊大數據公司,間接整頓了現金貸和助貸行業。

圖 / 視覺中國圖 / 視覺中國

“大數據發展和利用從野蠻生長時代進入了正規化管理的關鍵時代。野蠻生長時代看似讓大數據行業得到快速發展,但真正讓用戶受益的項目很少,反而侵犯到了普通人的隱私。正規化管理雖然一定程度上影響了大數據行業的發展,使其受限於一定的框架下,但從長遠來看,這樣的正規化管理才是有效的,法治下的大數據發展才是正途。”肖颯說。

  在她看來,行業亂象與企業自身和監管不力都有關係。企業為了利益鋌而走險,明知侵害他人權益,仍然實施行為。監管也有一定的責任,前置的行政法規缺失,導致企業行為一步步惡化。另外,為了地方效益,監管部門存在著睜一隻眼閉一隻眼的現象。未來企業要做到合規,監管部門要加快相關法規的配套,加大執法力度。

  “野蠻生長的時代已經結束了,行業需要在法律法規的引導下進行,當然行業的規範也不能矯枉過正,要符合中國國情。”肖颯說。

  張豐認為,整個大數據行業在逐漸往合規方面走。合規的表現,就是會有資質要求,相關的監管政策、文件、處罰文件都會出台,就像有消費金融牌照才能做消費金融業務,大數據交易需要大數據交易的牌照。實施過程中還是要受到國家的嚴厲監控,不管是數據渠道,還是商用場景都會嚴格監控,持牌的數據公司也需要做好數據安全防範。

  2019年,大數據不再是“放之四海皆準”的“靈丹妙藥”。大數據造福行業的同時,監管會成為時刻懸在其頭頂上的達摩克利斯之劍。

  *題圖來源於視覺中國。應受訪者要求,文中劉志、張豐為化名。

大數據倒在2019 4