- 今日推薦
- 特別關注
共筑反詐防線「構建什么體系」
本文根據數美科技聯合創始人&CTO梁堃先生在2018年DataFun算法架構系列活動—AI 在反欺詐中的應用實踐所做分享《互聯網反欺詐實踐——構建立體攻防體系》整理編輯而來,在未改變原意的基礎上略作刪減。
導讀:謝謝主辦方,謝謝大家,我是數美科技的CTO梁堃,很高興有機會跟大家做這樣的一個分享。我是2009年畢業之后就去百度,然后在百度一直做到2014年,然后又去了小米的大數據團隊,2015年數美科技成立的時候,來到了數美科技創業,我們公司主要做的就是給其他公司提供反作弊的服務,我們主要的客戶來自互聯網和金融。
今天主要分享的是互聯網反欺詐的實踐,重點是他的副標題,構建立體防御體系。
這是我這次分享的一個大綱,我會先介紹下背景,之后會講兩個經典的問題,然后重點介紹下我們的反欺詐體系。
--
01
背景與挑戰
首先在14年的時候大家開始提出互聯網 的概念,到現在真的在落實,我們發現互聯網和人們的衣食住行,幾乎每個方面都結合起來了,每個人每天花在互聯網上的時間也越來越長,這樣在互聯網上的欺詐和作弊行為,也不停地在增加。
這是2015年的一個統計,其實我們想想一個新的互聯網產品,從他誕生的那一天起,就面臨著欺詐行為:
我開發一款app,不管是外賣的還是直播的,還是金融借貸app,他上線開始有這樣的流量推廣,于是第一件事情就來了,渠道流量有多少是作弊流量,當用戶來的時候,有多少是注冊,這些用戶里面有多少是機器在注冊,有多少是這種垃圾的注冊,登陸的時候也有登陸的問題,比如說賬戶攻擊,因為我們有很多賬號關聯了有價值的東西,包括一些支付行為或者優惠券什么的,有多少是盜號登陸,有多少是賬戶攻擊;然后很多很多的營銷活動,也在不停地在做,比如說搶個優惠券拉,因為排行前面有些獎勵拉等等,刷榜我們管他統一叫做羊毛黨,就是搶優惠券,刷人氣,刷單的情況。
一般的平臺都會讓大家換個頭像,換個昵稱,或者是發一些評論拉,發一些帖子拉,發一些私信拉,這里面就會有大量的問題,就是各種各樣的欺詐廣告,其實有流量的地方就有欺詐廣告,就好比我們走在路上,人流量大的地方,電線桿上總會有一些小廣告,在互聯網上也是一樣子的,但凡有人氣的地方,就會有導流,各種問題都在這里面出現。
在出現這情況的時候,我們來想想我們的對手他的核心利益是什么?
我們的對手他的核心就在盈利這件事情上,所以在互聯網上兩類最猖獗的灰色產業,他們在做什么,他們在獲利,獲利的方式主要有兩種:
第一種方式就是我去參加各種各樣的營銷活動,在營銷活動里面直接獲利,或者是我跟某個店家,某個主播合作,幫她刷人氣,主播獲利,在把她獲利的情況分給我,這是直接獲利的情況;
第二種就是我們互聯網上的經典模式,我就去上面發各種各樣的導流廣告,這些廣告都是按點擊付費的,導流一個人,活點擊一次給多少錢,這就是我們的對手在互聯網上最猖獗的倆種模式,而我們的對手也不再是原來的小作坊式的這種的刷單了,我們的對手也是在專業化的,他們也是上班打卡的,很多地方上班都是996制的上班工作日,這是原來的一個事例,就是發這種廣告的,我們來想想,假如我要去做這種壞事,比如說最近比較火的直播答題,網上至少有三個項目,通過OCR去識別這樣的題目,然后通過百度搜索自動獲取答案的工具已經有了。
假如說我想做這樣的壞事,我要怎么做呢?
首先,我一定需要賬號對吧,那么第一個環節就是卡商,我可以去卡商那買一批手機號,去注冊我的賬號。
第二個就是VPN的供應商,VPN有可能是帶著機房的服務器,也有可能是通過肉機服務器,因為不管是做廣告還是答題,去刷渠道流量,刷廣告,他一定會有個訴求,就是批量做,如果不批量做他的收益是非常非常低的,地說一個人全答對有怎么樣,我獲得3、5塊錢的獎勵,對我的收益太低了,發廣告更是這樣,發一萬條的欺詐廣告,他的點擊率能有多少,1%甚至0.1%,所以他一定要批量做,如果批量的做,他就需要大量的賬號,大量的行為,卡商提供了注冊賬號的一個關鍵資源就是手機號,但是這些賬號的行為一定要分部在全國各地,所以他需要VPN的提供商,如果他只是從少數的vpn過來的話,其實是不需要我們提供這樣的反欺詐服務的,每個公司的業務層面就可以直接干掉他了。
第三塊就是軟件的提供商。我既然有這樣的批量行為,我靠手工操作還是太慢了,我通常都會有一些軟件,包括這種批量控制的軟件,通過批量控制來進行發廣告,答題這樣的操作,在軟件提供商里還有另外一種軟件叫篡改軟件,這個后面我會提到,篡改軟件他主要是在篡改設備,或者是篡改設備的信息,假設他只有100臺設備,但是他可以通過篡改來變成1000臺,10000臺,甚至更多的設備。
其實這個產業他的分工是非常非常嚴密的,我們已經發現了一些事情,就是拿這個賬號去發廣告的人,答題的人,根本就是倆伙人,有一些他就是比如說在分享大會上,我只需要注冊100個賬號,我的任務就完成了,把這100個賬號賣給下一組人,下一組人再拿這100個人去干別的事情,比如說去答題,最后一步就是真的去實施這種業務的欺詐行為,就想剛才所說的欺詐分為倆種,第一種統稱羊毛黨,不管他是刷單,刷優惠券,還是答題,他是直接或者和別人合作直接獲得這樣的利益;第二種就是貼出來的這種引流廣告,他通過幫別人發廣告,導流點擊,按點擊計費或者別的方式計費也好,去獲得利益,當然廣告的形式也分好多種,包括最原始的文本廣告,你會發現文本的被解決以后,他們立刻會改變方式,包括圖片的、視頻的、語音的,比如說去年有一個ktv的應用,人們可以在上面唱歌,然后分享自己,他們怎么打廣告呢,他真的是在唱一首歌,只不過這首歌唱到一半的時候,他就停了,然后開始去讀一段廣告詞,讀自己的手機號,聯系方式,或者是微信號,讀完之后在繼續唱歌,這樣即使是有人工審核的團隊,如果不是把一首歌完整的聽到尾,這種廣告也是很難很難識別出來的。
這個數據應該也是2015年或者2016年的數據,就是國內的黑產從業人員應該是在 150萬人左右,今天的話,我猜會更高。
剛才有同學說道用設備這塊,用虛擬機這塊,覺得成本太高,其實有很多作弊行為,他真的是在用真實的設備,為什么呢,他可以買一些比較便宜的設備,這種便宜的設備可能幾十塊錢到幾百塊錢買的,但這并不是關鍵,更加關鍵的是什么呢?就是這些設備可以重復利用,這些雖然都是100臺設備對吧,就算我不篡改他的ID,今天我可以去刷小米的應用商店,明天可以去刷熊貓的優惠券,后天我可以去刷另外一家,在不停的在重復使用這100臺設備,這樣他的收益就會高于成本,一般情況下,如果我真的有100臺設備,我都不用自己動手做這些事情,我只需要按天或者小時去出租這些設備就可以了,然后這些設備今天出租給這個團伙,他會干自己的事情,明天出租給另一個團伙,他又干另外一件事,唯一需要的就是我出租這些設備的時候都要記錄上這些團伙都干了什么壞事兒,我只要不重復就可以了。
所以我們在做反欺詐的時候我們的目標與挑戰是什么呢?
目標有倆個,第一個目標是用戶體驗,我們是第三方公司,我們在給別人做反欺詐的時候,我們是沒有業務數據的,我們通常是從一些通用的行為去識別反欺詐行為,既然我不能從業務上給他們做一些變化,所以我們會更多的從用戶體驗上來,就是當用戶在使用人家的業務,根本感知不到我們的存在,對正常用戶的體驗毫無影響,這是第一個目標。
第二個目標就是精準,我們在做反欺詐的時候整個產品系列都是實時攔截,就是能夠非常實時、準確地識別這種欺詐行為。
說到反欺詐,其實歷史上有倆種思路在做反欺詐,一種叫做Fraud Prevention(欺詐阻止),這個常見的方法就是大家常見的銀行大額轉賬的那個方法,你需要硬件open,然后需要輸入非常復雜的密碼,他是假設用戶每個環節都可能存在欺詐,我事先把完成欺詐行為的門檻提的很高,來阻止欺詐的發生,這種方式其實是和我們第一個目標用戶體驗是沖突的,他在大額轉賬的時候大家用的都很安心,但是比如說我們每次打車,都要插一個硬件,然后再輸入密碼,才能把這幾塊錢付完,這樣的用戶體驗就太差了,所以我們自己在做的時候,我們用的是第二種方法,這個叫做 Fraud Detection(欺詐檢測)。
第二個方法就是在滿足我們這倆個目標,第一個我不會在用戶做這個操作之前,先付出很高的門檻,硬件拉,驗證碼拉,不是這樣,而是我讓正常的用戶更順暢的,像平常一樣去完成這個的操作,在他的操作過程中去實時檢測他的行為風險,根據他的行為風險等級,做出不同的響應,如果風險很高的話,可能會做一個實時的攔截,我會告訴這次注冊是有問題的,應該攔截,或者告訴客戶這次注冊是沒有問題的,你應該把他放過,好的,這就是我們的倆個目標,一個是用戶體驗,一個是精準。
我們面臨的挑戰是什么呢?
首先是我們的對手,他們的專業技術水平在不斷地提高,我們了解過一些對手的情況,他們真的是有固定的辦公地點,有專業的團隊在做這件事情,第二個就是,我們常常說模型。
說人工智能,說機器學習,但是有一件事情是這些東西都需要的,就是這種全局的數據支撐,我們很多客戶他們其實是非常非常有技術實力的,他們在人工智能方面的投入也非常大,但是在反欺詐這塊的時候他仍然會和我們合作的一個很重要的原因就是在全局的數據支撐,還記得剛才欺詐那個鏈條上第一個是什么嗎,第一個是貓式號碼,或者卡商,手機號接收驗證碼這件事情,他沒有任何可以篡改的余地,手機號總也不能改,但是這個生意仍然能做下去,為什么?
卡商的一個核心的技術能力是什么,說起來特別簡單,我有一萬個手機號,用一個目錄結構記住這些手機號在A公司在B公司注冊過賬號了,我只要把這件事記住就行了,假設你要去買這個批量驗證碼服務的話,你就要和卡商說你要在哪家公司注冊多少賬號,這時候卡商就會掃下這個庫,看哪些手機號還沒有出現在這家公司上,然后用這些手機號,從中挑選出1000個手機號來完成我的這次請求,其實這里面沒什么技術含量,他就是把一個手機號在不同的地方在用,所以當你缺乏全局的數據支撐的時候,你就會面臨一個很嚴重性的問題,一個手機號來你這里注冊,不管這個手機號在多少家做過壞事,到你這都是一個新的手機號,都能正常的接收驗證碼,所以缺乏全局的風險數據支撐在業內也是一個非常頭疼的問題。
第三個就想之前的同學說的一樣,專業的反欺詐團隊真的是不足的,在各個公司,每個公司都有自己主要的業務招的工程師,機器學習工程師,可能都是非常缺人的,所以反欺詐這塊投入的更加的少,通常是業務團隊分一小隊來兼職做這件事情,最后一個就是上面這倆個目標其實是矛盾的,既要正常用戶毫無感知,又要把壞的用戶全都找出來,實踐上來講通過一組模型或者策略很難做到高召回率和低誤殺率,很難同時實現這倆個目標。
--
02
兩個經典問題
我先從倆個經典問題入手。
第一個就是應對廣告的問題,當我們在做內容作弊的時候我們會提到一些色情內容啊,一些涉政、爆恐等等其他的,但是整個平臺上出現的最大量的問題其實就是廣告,廣告是直接給灰色產業帶來利益的,而廣告出現的場景也會非常的多,比如說一個頭像,一個昵稱,他的私信,他的評論,如果他在群聊的話,在群聊里出現的一些問題,這就是通過內容的層面可以解決很大一部分廣告的問題,這塊兒會用到很多技術,當然深度學習我們也在用,但是深度學習只用到了其中的一個方面,而經典的機器學習算法,比如說svm還是非常有效果的,大家在解決問題的時候,不用一味的追求這種深度學習的算法,深度學習在圖像處理,在語音處理,以及在長范圍的自然語言理解上確實很有用,但是在一些短句上的分類像SVM經典的模型他的準確率和召回都可以做的非常高。
要解決這種內容的問題,他面臨兩個問題:
第一個核心就是語義,我們盡量去理解這個內容的語義,因為自然語言這件事情相對復雜,同樣的一個詞或者短語當在不同語境中他的含義是完全不同的,如果用關鍵詞或關鍵詞組合去做這件事情是很復雜的,第一個問題是他會造成大量的誤殺,很多發東西發不出去,針對語義這塊該如何去做?想長范圍語義的理解用svm效果很一般,這時候我們嘗試使用深度學習的算法,像lstm他非常擅長去理解記憶相對較長的語境,另外我們要去識別短句,這時候使用svm是非常有效的。在這個過程中,并不寄希望于用一個模型或者是一組規則,或者是在一個點上去把所有的壞人都攔住,把所有好人都放過去,當一個文本發出來之后,我們在用lstm模型去捕獲他的長范圍內是否有問題,同時用svm去捕獲他當前這段內容里面是否有問題,是不是欺詐或者色情小廣告。
第二我們是有對手的,我們的對手發現自己的那些廣告點擊率降低了,他馬上意識到我的廣告其實沒發出去,比如說在直播間有這樣的一種服務,就是你發一段話你自己是可以看到的,但其他人不一定看的到,當對手在檢測的時候,他有時會看點擊率,或者用另外一個手機看他的廣告是否真的發出去了,一但攔截一條廣告,你的對手是非常清楚的,他幾乎在秒這個級別就意識到自己的廣告發不出去,所以他一定會變,這里面就涉及到了一個對變體的識別,說道這塊的時候,我確實覺得人腦是及其厲害的,當你在做這種變體的時候,比如說下面微信的各種詭異的變體,各種歐洲語言里面的變體,比如說某個歐洲語言看起來很想0其實他根本不是0而是一個詭異的字母,這種變體出現的時候,會對正常的svc或者lstm造成影響,怎么辦?
這塊我們用了一些圖像技術,比如說Char&Word Embedding,這倆種都在用,然后靠相似度去識別這種變體;第二種就是用序列標注,在有變體的同時還有干擾,比如說在中間插入一些詭異的字符去干擾你的切詞系統,試圖干擾你的模型,這個時候我們會用CRF這種序列標注的方法,去盡可能的把這種詭異的字符標注出來,然后把他去除,然后開始進行切詞等別的處理方式。
這其實我們去年就開始做了,通過這件事引發了我們的一個思考,就是我們在用機器學習去解決這種反欺詐的問題,但是今天我們所有的機器學習,不管是深度神經網絡還是GBDT,SVM還是隨機森林還是別的什么機器學習,他有另外一個名字叫統計學習對吧,這中機器學習算法對他解決問題是有假設的,他的問題用的特征也好,樣本也好,他的分布在統計上是相對穩定的,所以機器學習才能把相對穩定的pattern學出來,才能做些東西,那我們來想一想我們的對手他的行為是否在統計學上穩定分布的呢,這個是隨機的,所以在用機器學習尤其是統計學習來解決這種欺詐問題的時候,你要想這個問題,他底層的分布是否足夠穩定,所以我后面會說到另外一個技術,就是泛識別欺詐這件事情上,傳統的方式可能會遭遇挑戰,他不是沒有效果,仍然是有效果的,但是你可以用到更多的新方式,我們在17年初的時候引入了非監督的學習(Unsupervised Learning),這是為什么呢?這是因為做壞事的人不停的在改他的關鍵詞,幾乎不太符合一些穩定的分布,但是正常人不會改變自己的說話方式,不會特意改變自己的行為,他們的各種行為在統計學上是極其穩定的,所以我們引入了這種非監督的異常檢測(Anomaly detection)算法,又從這個維度去識別一些異常點,剛才說的是內容反欺詐的行為,雖然我主要說的是文本的,但是普遍語音、視頻都是類似的。
第二大類問題,我們管他叫行為反欺詐,就是在行為上的作弊,他的歷史比較久遠,包括渠道推廣的時候,注冊的時候,無論他是發廣告也好,還是羊毛黨也好他總要有賬號,所以注冊這塊我們會去識別一些機械的或者IP注冊等等,第二個就是大量的盜號行為,我們就在登陸這塊去識別像撞庫攻擊、盜號登陸這樣的事情,最后就是真正的業務活動,比如說搶紅包拉,刷人氣拉,說道刷人氣,之前直播不是很火嘛,我們也有一批直播客戶,一個直播間的人氣決定了這個主播要排在什么位置,主播排在什么位置是和他的收入直接相關的,我們發現有一些刷機是這么刷的,他的登陸行為確實是人在操作,花了14s-20s之間完成登陸,每個賬號都是人工登陸,但是登陸之后就是機器在刷機,我們在和客戶建議在刪除人氣的時候可以把完全沒有行為的這樣的人氣給降低,然后第3、4天發現這些掛人氣的賬號開始發言了,發言是什么呢,通常會從網上一些論壇抓一些正常的對話,然后倆三個人對話,好這是刷人氣,刷榜也好,搶優惠券也好,他最后總是有這樣的行為,所以當你在識別這些問題的時候,對行為的反作弊就成了關鍵點,而對行為來講許多傳統的技術已經在不斷的被突破,比如說想渠道推廣這塊,比較傳統的方式比如說看渠道的留存率,看他低價機群的比例,看他更新的頻率,這個可以說已經妥妥的不起作用了,如果有一個黑產團伙還突破不了這個,那確實太弱了,留存率很簡單,7日留存,3日留存,21日留存什么的,其實對手在刷這些渠道流量的時候,他不是說安裝結束之后這筆錢就結束了,他還會同樣的一批硬件信息,在后面再次完成登陸等其他的一些活躍行為,使得他看起來好像是活躍的,第二個就是驗證碼,特別是手機驗證碼,是特別容易突破的,就是剛才我們說的卡商,也叫貓式號,注冊起來完全不費力,一批批的,注冊的時候文字驗證碼或者圖片驗證碼,針對他們有種服務叫打碼平臺,有利益就能標準化平臺化生產,打碼平臺是什么呢,你只要一查驗證碼,這個驗證碼本身會被捕獲起來會傳到另外一個平臺上,另外的平臺上全都是真實的人,那邊的人會劃一下,或者打上碼,再傳回來,我們再去注冊,這就是打碼平臺。
所以,行為方面的反欺詐,我們要做的核心就是識別對方到底是一個人還是機器人,我們可以把他想像成被動的語音測試,如何解決這件事情呢,那我們就要抓住他的核心點,作為黑產,我要搞一件事情,第一件事情就是要大量的設備,如何搞到這么多設備呢,無非這幾種途徑:第一種我用虛擬機,這個成本是最低的,這個方法有個嚴重的漏洞,就是當你的虛擬機架構和CPU架構不一致的時候,可以通過檢測cpu架構的方法,來識別7-80%的虛擬機。
第二種,當你的虛擬機被識別出來,你就只能上真的設備,從我們現在所有case里,只要使用真實的設備,大家都會想辦法提升利潤,都會篡改他,無非就是買100臺手機,我做一次,然后重新把他的硬件篡改一遍,我再做一次,然后我再篡改,我不斷的篡改,在服務端就會出現無數個設備,所以真機篡改就是個很核心的東西,他家想象過真機篡改可以怎么篡改,無非就倆種情況:
第一種情況叫Hook模式的篡改。因為在讀硬件信息的時候都是在調庫函數,熟悉測試框架和熟悉Hook框架的同學都知道,當你在調這個庫函數的時候,比如說我可以預先加載一個棧,這棧里有完全一樣的一個名字的類和他的函數,那么你在調用的時候很可能先調用你加載的那個棧,或者在C語言里有很多動態,我可以把我的動態加載到系統動態之前,當你在調函數的時候其實調的是我的函數,那我想反饋什么就可以反饋給你,所以只要我有真實的設備信息庫,Hook模式的篡改,篡改出來的設備跟真實的是一模一樣的,但是Hook也存在一個巨大的問題,那就是他的地址空間,因為你要完成Hook,你在地址空間一定加載了一個有問題的點,所以可以通過掃描地址空間的特征來識別這種Hook。
第二種就是刷機。這里面他的地址空間是有效的,但是他在統計學上留下了巨大的漏洞,這是因為一臺手機上不是所有的硬件型號都能被刷的,我可以統計三星的某一型號ABC,他有不同的供應商給他提供,但是他型號下面的硬件信息的組合總是有限的數字,當這個組合總是有限的數字,我就可以統計了,當出現小概率事件的組合,那這個設備我們基本上可以確定是篡改的,這就是篡改設備,當然這只是一些方法,識別設備篡改還有另外一種方法就是設備指紋,設備指紋很核心的東西一個就是唯一ID,他的思路是什么呢,他是由倆個相互沖突的指標來衡量,第一個指標是穩定性,第二個是重碼率,如果是倆個設備,不管這倆個設備怎么接近,他也不應該是同一個IP,假如可以做到唯一IP,我們可以看到這個設備是不是唯一標識的設備,是不是做過篡改都可以做到,那怎么搞定唯一IP,通過多個弱IP不同的組合來達成他唯一的IP,來降低重碼率。
所以當我們在做這個識別的時候,我們用到的技術包括:監督學習GBM模型,會通過軟件的特征,硬件的特征,行為的特征等等,去把這種特征做出來,然后第一個在識別虛擬機的時候用GBM模型;
第二個是采用異常點檢測、設備相似性來識別篡改設備,設備相似性檢測,可能某個IP很弱但是我把更多的IP行為組合上去,讓倆個設備足夠相似,就是重碼率非常低的時候,如果識別出來他們倆個一臺設備,來個設備的硬件信息又不同,那么可以判斷出來,他其實是經過篡改的,第三個設備農場,就想剛才有張圖,一個機架上好多手機在排著,要么是人在操作,要么是用群控軟件來操作,說一個簡單的策略,我們看同時掃描到的wifi熱點上的設備是否有集體行為;
最后就是關聯分析和結對分析,剛剛有說到,這群搞欺詐的人天天和我們對抗,不斷的刻意的在改變自己的模式,所以這就會出現一個問題:他的很多特征在統計上分布其實都不夠穩定,他直接影響了我們很多機器學習模型的性能。
但是做壞事的人,他總是要重復使用一些資源的,什么是資源,設備是資源,IP是資源,手機號是資源,甚至一個公司一個平臺上的賬號也是資源,一個賬號是有生命周期的,一個賬號被注冊出來,首先直接參與的就是搶羊毛,或者答題這樣直接賺錢的事情,他直接參與這種能夠直接獲利的行為,當直接獲利的行為,已經被封得差不多,這個賬號會流轉到下一部分人的手上,再做其他行為,這個賬號生命周期的最后一個環節,就是發各種各樣的欺詐廣告,把他最后的一點價值挖掘出來。
所以做壞事的人員,他要想最大化自己的收益,最小話自己的成本,意味著資源要復用,設備要復用,IP要復用,賬號要復用,手機號要復用,對于反欺詐有的時候有監督的統計學習模型不太好用,但是圖算法會非常的好用,他要復用資源,這些資源之間都會存在關聯,假如說一個wifi上連接10個設備,你都不用看這些設備是真的使用的,還是一個設備篡改出來的10個,前7個設備都在發廣告,剩下3個設備還不知道是有問題的嗎,對吧?
這是一個簡單的應用,所以在圖挖掘,PageRank風險傳播算法在用,召回的最大團挖掘我們也在用,在用的時候不用真的挖最大團,只需要挖3、4個點構成的一個團,就足夠了,把團挖出來之后,剩下的事情交給PageRank風險傳播算法,所以關聯分析他是基于圖的挖掘算法,他是一種類似有監督的方法,尤其是灰色產業在使用關鍵資源上,以這樣的節點為關鍵點來算會非常有效;
第二個是結對分析,他也不是互聯網首創的,之前在做交易反欺詐的時候,結對分析就是一個非常重要的手法,就是通過一組人,如果他們的行為很像,如果有一天某個賬號突然行為異常,你就會知道他可能被盜號了。
--
03
反欺詐體系
其實整個反欺詐里面,他的倆個核心就是內容和行為,那么孤立看這倆個問題是都解決不好的,永遠不要寄希望于一個特別厲害的模型,或者特別厲害的點,業務方法,把所有的問題都能解決,就想剛剛說的虛擬機拉,或者是篡改,他都能解準確率,召回率,重碼率等到90%其實就差不多了,在往上提就要花費非常非常大的代價,那怎么辦呢,很簡單,就是我不靠某一個點,不靠一個模型,不靠一個技術去反欺詐,我要的是一個體系。
體系是什么,首先你要有一個布控體系,一個人的行為總要啟動、注冊、登錄,業務行為等,通過這些行為來完成不良的事情,我并不需要在某一個環節干掉所有壞人,我只能說在啟動的時候看幾個點,比如虛擬機在60%怎么辦,我會把他分打的很低,在注冊環節放過他,然后看他后面的行為,很多情況是注冊的和實施行為的人根本不是一伙人,如果一個正常的用戶發廣告打分超過1.95我才攔截,而如果是一個60%虛擬機的用戶可能打分超過1.5我就會攔截,也就是說通過層層攔截,能準確攔截的攔截,不能準確攔截的通過打分,標簽,或者風險屬性給他打上,再由后面去處理,這就是我們的布控體系。
第二個就是數據體系,有倆個核心問題,第一個就是在多個行為之間,把風險特征共享,第二個就是圖挖掘,最核心的四個事情,包括賬號(他是一個公司內部的打分,不會跨公司不會打通)還有設備、IP、手機卡,這四個事情怎么弄,是在用HBase,存法也比較簡單,首先我有四個實體,每個實體都對應一張屬性表,第二個實體之間關聯的關聯表,通過這個來構建一個知識圖譜,也可以用PageRank這樣的人工風險傳播限制,效果也是很好的。
第三個是策略體系,這個是我們實際的引擎的架構,我們叫做BE和AE,BE是基礎引擎,每一個基礎引擎,有的可能是簡單的模型,有的可能是深度學習模型,每一個BE都從一個方面去判斷當前事件在這個方面的風險,BE的輸入是原始風險,BE的輸出是他在這個方面的評分和高級特征,基礎引擎里有倆個比較特殊,一個是歷史畫像,一個是實時統計畫像,在上層利用的時候可以將二者整合起來,可以對一些出現的實時問題做這樣的及時響應,這是基礎引擎,他是不針對業務場景的;到高級引擎,就是針對各種業務場景做,這一層比較簡單,他是一些簡單的樹模型,和人為的規則,這就是我們的策略體系。
整個的反欺詐體系分三大塊,第一塊是布控體系你要在哪些業務的關鍵點去做這種欺詐的檢測,這個要想清楚,他不是每一個點都需要檢測;第二個就是我們的數據體系,你的數據應該是一張圖,數據永遠都不是孤立的,數據是一張圖,而且帶時間的;第三個就是策略體系,在底層從某一個方面來控制風險,然后在上層從全局來控制風險,來做出最終的判斷,在高級的那一層一定要加上規則系統,當模型失效的時候,或者冷啟動的時候規則系統都是很有效的。統計系統為主,規則系統為輔。
今天的分享就到這里,謝謝大家。
關于我們
DataFun:專注于大數據、人工智能技術應用的分享與交流。發起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100 線下和100 線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公眾號 DataFunTalk 累計生產原創文章800 ,百萬 閱讀,14萬 精準粉絲。
相關文章
- 電商運營思路怎么寫「電商平臺運營方案思路」
- 電商如何進行倉儲管理工作「電商倉儲管理流程」
- 電商運營構架「電商公司組織框架」
- 歐洲的電商平臺「國際電商平臺」
- 關于倉儲管理的問題「倉儲管理」
- beego開發文檔「revel與beego」
- 電商平臺搭建構思「電商平臺組織架構」
- 電商再度細分意大利奢侈品電商平臺「Artemest?」獲500萬美元融資
- java應用程序中使用的流行電子商務框架「j2ee框架」
- 菠蘿蜜北方人吃不慣「為什么北方人不能吃辣」
- 互聯網背景下供應鏈金融模式研究「新型供應鏈金融」
- 內容電商為什么興起「一切生意的本質是流量」
- 618氛圍營造倉庫「倉庫金點子改善方案」
- 2021年做電商賺錢嗎「電商提高客單價的方法」
- 短視頻風潮「短視頻的風口和趨勢」
- 私域流量直播帶貨「web后端主流框架」
- 雙十一物流配送的問題及解決方法「雙十一物流問題案例分析」
- 任何人都可以做跨境電商嗎「個人能不能做跨境電商」
