網上有很多關于聯動pos機風控,網易易盾內容風控實踐的知識,也有很多人為大家解答關于聯動pos機風控的問題,今天pos機之家(www.tonybus.com)為大家整理了關于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
1、聯動pos機風控
聯動pos機風控
導讀:隨著 AI 技術的發展,AI識別技術顯著提升了不良信息攔截的效率,從而幫助互聯網構建起更加健康的內容生態環境。然而 AI 技術面臨最嚴峻的挑戰來自于數據。如何從場景的角度更加深入地理解和分析數據場景的特點,如何從技術方案的角度更加完善地完成數據的定義、描述、收集、選擇、迭代和管理等環節,如何從算法的角度更大程度地利用數據的價值,已經成為深度網絡和 AI 技術發揮更大作用的關鍵和前提。
本文將從 Data-Centric AI 的角度出發,分享網易易盾在內容風控方面的實踐和思考。主要包括以下 4 個方面:
Data-Centric AI 背景、意義和概念內容風控場景的業務和數據特點數據方案、數據管理和數據流程算法創新和數據價值之間的關系和作用分享嘉賓|胡宜峰 網易易盾 計算機視覺資深算法工程師
編輯整理|李聰玥 平安科技
出品社區|DataFun
01
Data-Centric AI 背景、意義和概念
一個完整的 AI 系統包括數據、算法/模型、解決方案和部署等多個方面。絕大多數精力都集中在數據以外的環節。這個現象的原因,歸結有二:
學術界有很多固定的公開數據集存在,數據相對來說是一個比較靜態的狀態。在工業界,大家往往有一個誤區,認為數據就等同于標注。這兩方面的原因導致我們對數據關注的程度不夠。對于常規的算法優化或者模型訓練過程,我們往往是在數據固定的前提下,追求在測試集上的高指標,但是如果把這種方式應用在業務落地,尤其是內容風控場景,我們會發現在測試集上表現較好的模型在線上或真實場景上可能存在較大的反差。造成這個差距的一個重要原因就是沒有在數據流程上投入足夠的精力。這也是我們今天談到 Data-Centric AI 的一個核心點。
Data-Centric AI 這個概念最早是由 Andrew Ng 提出的,他在提出這個概念的同時,在非常大的范圍內做了一個投票的調研,調研人群主要是一些科研人員和業界的從業人員,其中 80% 的人認為相較于模型或者算法、解決方案等,數據起到的作用是最大的。這也在一定程度上表明了 Data-Centric AI 的意義。
他做了一個很形象的比喻,就好比是做飯,數據相當于挑選食材和準備食材的過程,但是這部分僅僅占據了 1% 的研發資源;模型訓練或者解決方案等同于烹飪階段,這部分則占據了 99% 的精力和研發資源。這也反映了我們對數據的關注是不夠的。
尤其在內容風控等 AI 落地的場景中,一個表現優秀的模型需要的是數據和模型的互動,兩者是互相促進的關系。優質的訓練數據能提升模型在真實場景上的效果和泛化能力,好的模型反過來也能促進我們更加快速地生成、自動獲取或者人工標注出更高質量的訓練數據。兩者是相輔相成,螺旋上升的過程。
這就是 Data-Centric AI 的核心觀點。
--
02
內容風控場景的業務和數據特點
接下來介紹一下內容安全/內容風控場景。
1. 內容風控場景的業務
由于我們正處于一個海量互聯網數據的時代,隨著互聯網的發展,內容載體從最開始的圖文發展到現在的文本、圖像、音頻、視頻和直播等等,在量和速度上都有著飛速的提升。
內容生成、內容制作的流程也更加敏捷和快速。一方面產生的數據量正在大幅增加,另一方面內容制作發布的審核流程在不斷簡化,這樣一正一反帶來了很大的內容安全隱患和壓力。針對可能出現的各種內容安全隱患,網易易盾做了比較全面深入的研發。
這里只展示了一部分,主要包括色情廣告、違禁、涉政、暴恐、涉價值觀、增值服務、輔助能力等大類。這些大類當中細分的方面非常多,包含的垂直領域和垂直類型也非常多。對于這些內容,網易易盾從廣度、深度和粒度這三個方面都做了比較全面的覆蓋。
2. 內容安全場景數據特點
相比于其他 AI 場景,內容安全場景的數據有著如下一些明顯的特點。
首先是極端的長尾分布,內容安全領域是面向海量互聯網數據服務的,線上隨機流量中違規數據占比是極低的。因此用大海撈針來形容內容安全的算法和服務一點都不為過。我們要從海量的互聯網數據當中去撈出這些占比極低的違規類型,還要保證撈出的數據的精確度。
第二個特點是數據中存在很多特征非常相似、可解釋性非常高,但不屬于違規的數據。在處理海量數據時,無論從視覺還是其它層面,都存在易誤判、極端的細粒度和難例挖掘的問題。
第三個特點是極端的小目標識別,在識別違禁區域時,比如抽煙識別,抽煙動作是有明確特征的,但在一些很遠的場景中,比如拿著一個煙頭而并沒有去抽它,這也屬于抽煙識別的范疇。這個煙頭可能占的像素區域只有 3*3,也就是要識別一個 3 *3 的像素區域的標簽是否違禁,決定性的違禁區域非常小,是一個極端的小目標識別問題。
最后一個特點是極端的開放域識別,很多時候違禁類型并不是固定的,識別類別是多樣的、不確定的以及頻繁增加的。
除了這些問題之外,在內容安全領域,還有其它一些問題,比如極端的域泛化,由于我們面向的是海量互聯網數據,數據域的變化廣泛而頻繁。還有極端的模型防守對抗問題,內容安全存在頻繁地跟黑灰產對抗的問題。黑灰產通過一些模型的攻擊,或是通過一些編輯,甚至PS等方式去做對抗,這也是我們頻繁遇到的一個問題。當然我們也會存在一些比如類別邊界比較模糊、數據質量差別大這種與其它 AI 場景類似的問題。
--
03
數據方案、數據管理和數據流程
1. 數據管理
數據管理和流程貫穿在初始模型訓練、模型的迭代訓練和模型測試整個環節,主要包括數據的刻畫、收集、生成與拓展、標注、增強、選擇、清洗、分析和迭代等等。這些環節不是孤立的,而是互相銜接補充以及包含的。
額外講一下模型測試這個環節,我們從 Data-Centric AI 的角度來看,模型的測試其實就是測試數據選擇的一個過程。選擇數據要對齊線上最終的落地場景的數據分布,要對齊一些特定的歷史反饋。這也是從數據的角度去看模型測試。
2. 數據刻畫
我們啟動一個業務時,數據刻畫起到了非常重要的作用。如果數據的定義和刻畫考慮不全面,一方面會增加識別和迭代的難度,另一方面也會增加數據標注的成本,影響可用性。
所以需要有比較全面的評估,構建多級標簽的體系,分析標簽的包含、互斥、歧義的關系,對識別范圍進行有效的擴展,對相似的易誤判的標簽進行分析,考慮標簽的通用性,同時細化邊界和細節描述,關注標注復雜度。
標注數據刻畫這個環節可能偏經驗一些,我們很難詳細地把經驗說清楚,但是我們的目標是希望降低模型識別的難度、模型迭代的難度以及降低標注的難度,并提升標注的可用性。
3. 數據收集
在有了詳細的數據刻畫和描述的積累之后,我們就需要對數據進行收集。一方面模型的冷啟動需要數據收集,另一方面數據的收集和補充也貫穿在整個模型迭代過程中,數據收集需要考慮擴充數據分布范圍、對齊應用場景數據分布、提高標注的命中率和針對性、提高標注質量等幾方面問題。
以上幾種方式共同使用,可以提高標注的命中率和針對性,從而提高標注樣本的質量。
數據精細化的管理包括三方面的內容,一個是數據生成,一個是數據的自動獲取,即標簽的自動獲取,也可以簡單地理解成模型打標,還有一個是人工的標注。在正式做數據標注之前,我們可以問自己一個問題,這個數據是不是真的需要標注。
4. 數據生成與拓展
數據生成也是一個比較重要的環節,因為有部分業務場景的數據,不一定非要有數據的標注,再進行模型的初始訓練的冷啟動方式。數據生成是能讓模型快速地自動獲取初始能力的方式。當然這里的數據生成并不是狹義上的理解,比如我們通過各種分割加貼圖的方式去做貼圖或者用圖像生成的方法去生成數據,我們生成的初衷是希望模型有快速的初始能力。所以通過一些無監督和小樣本學習的方式,讓模型有快速地初始識別的能力,在我們看來其實也屬于生成和冷啟動的范疇。
此時生成的數據有一個很大的特點,數據分布是非常有局限性的,可能具有初步的能力,但是能力比較有限。從生成的數據到正式數據分布的擴展是很重要的環節。以 Logo 識別為例,我們結合技術方案,設計跨任務的數據增廣擴展的模塊可以很好地實現生成數據到真實數據分布的擴展。所以在數據標注之前,數據生成是非常重要的一個環節。但也并不是所有的業務場景都可以采用數據生成冷啟動。
5. 數據標注
數據標注有一些需要注意的點。
首先為了降低標注的難度,我們需要細化標注文檔、細節、邊界解釋等。
第二點,為了降低標注的成本,提高標注的有效性,模型的預標注非常重要,模型對標注的數據有一定的識別效果,如果全部從頭去標,有很大的標注浪費,因此尤其是對一些復雜場景的模型標注,用模型的預標注結合人工標注是非常重要的一點。
第三點,就是希望提高標注的命中率和有效性,比如抽煙行為的標注,希望能標出抽煙的行為,如果隨機選擇數據去標注,絕大多數都是正常的,標出這些數據是沒有什么用的,所以要結合數據的選擇和清洗去標注。
第四點是從可信度的角度去考慮,比如在標注數據時,考慮的可能是違禁或者違規相關的屬性,如果不關注那些與違禁無關的屬性,可能會導致模型訓練是有偏的。所以從可信度的角度來說,要降低這種數據的偏向,對于一些不關心的屬性,也要做一個均勻的采集和采樣。
第五點是希望提高標注的準確率和可用性,需要一些交叉驗證和標注質檢的方式。
第六點是很重要的一點,與第二點類似,標注和模型訓練需要高頻交叉進行,不建議一次提很大量級的數據去做標注,因為可能會浪費。我們希望用不是很大量級的數據去做高頻的交互,這樣可以降低數據標注的開銷,提高數據標注的可用性。
6. 數據增強
數據增強這塊大家都非常熟悉,這里就不做詳細的介紹了。
7. 數據選擇與清洗
精細化的數據流程當中比較核心的點是數據的選擇和清洗。數據可能是生成的,或是模型打標的,也可能是人工打標的。我們要做的事情是區分什么時候能生成,什么時候需要模型去標注,什么時候需要人工標注。在人工標注這塊還要考慮一個很重要的點是用什么樣的數據去標注才是最好的,能更大地利用標注的有效性,降低標記資源的開銷。
數據的選擇與清洗,是比較重要的環節,這里應用的前提是模型已經越過冷啟動階段,有比較不錯的能力,到達深層次迭代的環節。數據的選擇應用的環節主要包括選擇哪些數據直接應用到模型訓練、選擇哪些數據進行數據標注、從已有訓練集中剔除哪些(簡單的)訓練數據、如何構建半監督unlabel data數據集等等。這里我們考慮的點主要是上圖中所列的五個方面。在選擇數據進行標注的時候我們考慮的一般是uncertainty、diversity、distribution三個方面,我們肯定是要選擇不確定性高、豐富度高、并且數據分布廣泛的數據用于標注。在應用模型打標的方面,我們還要額外考慮Accuracy和Balance的問題。
針對上圖左側所列這些熱點領域的研究和應用,在內容安全的場景中都取得了明確的收益。比如Active Learing,對應于Uncertainty和Diversity的要求。然而當你遇到的是完全adversarial的樣本,或是當對域外的數據完全無召回能力的時候,通過結合OOD和few shot learning的方法可以進一步提升域外數據的召回能力,從而對應于distribution的要求。在我們提升樣本accuracy的時候,置信學習、noisy training的方法也是有效的提升標簽準確率的方法。
這樣,三條鏈路就非常清楚了,什么數據去生成,什么數據去標注,什么數據直接用,是一個半自動化的過程。這樣相較于隨機采數據去標這種最原始的方式,不僅減少了標注資源,效果也會有一個量級的提升。這樣,從數據角度,我們可以更好更快地去響應需求,提升模型的效果。當真正去做業務落地的時候,很難做到全自動,肯定也要有一些人工的數據分析。
數據分析的內容包括當前版本的整體進度召回的情況,特定類型的召回情況,歷史反饋的召回情況,模型版本之間的差異以及易誤判類型的歸納。我們會做一個定向的數據補充,與數據生成、數據選擇清洗是互補的,這樣可以更好地去完成數據運作的流程。還包括一些特定的場景分析,比如這個類型可能在某個固定的場景下的效果不好,這時就需要人工參與以及一些經驗的總結。
8. 數據迭代
關于數據迭代過程,在此不做詳細討論。前面介紹的數據標注、清洗、選擇、增強、分析其實都結合在耦合了半監督和自監督的整個數據迭代的框架里。核心點是我們希望無論是數據的生產、模型的打標還是人工的打標,都能最大程度地發揮數據的價值。在盡量小的開銷,盡量快的速度,盡量短的周期和盡量高的頻率的前提下,最大程度去發揮數據的價值。
9. 數據測試與驗證
內容風控場景可能用到非常多的技術手段,但是歸根到底可以理解為一個識別問題或者內容理解問題。數據測試需要對齊我們的任務。測試的內容,一個是數據,一個是指標,一定是要對齊最后的目標。測試的數據要對齊最終的目標,這個很好理解。測試的指標也是要對齊最后的應用。一些中間的環節,包括一些很偏算法的指標,不能很好地反映出最終端到端的效果。數據和指標都對齊,才能保證不會出現離線側效果很好而線上效果很差這種情況。
上圖是整體的內容安全的 AI 架構。
除了數據之外,算法側還包括算法模型的優化、算法的解決方案的優化、速度性能的優化。這三個方面也是非常重要的思考點。我們在做任何一個算法時,都是從這四個方面共同去努力的。數據的管理和價值的利用也為后續的幾個方面提供了廣闊的空間。
以上從系統化、流程化、精細化的數據工作介紹了我們在內容安全領域對 Data-Centric AI 的理解和實踐,我們的目標是,希望無論數據的生成、模型的打標,還是人工的打標,都能在盡量減小開銷的前提下,最大程度地發揮數據的價值。
--
04
算法創新和數據價值之間的關系和作用
1. 自監督
自監督這個方向,有著非常強的任務相關性和場景相關性,所以我們去構建任務和場景相關的自監督基礎模型集合是非常有效的從最開始的階段就去發揮數據價值的一種方式。比如武器大類,有非常多種類的違禁武器;服飾大類,有宗教服飾、公職服飾、暴恐服飾等。我們發現,在某個大類上做一個統一的基礎模型是非常有效的。做一個具體垂類的任務,我們希望在這個大類有一個比較好的或者幾個比較好的初始模型,作為以后這個方向具體的新業務模型的一個初始。
2. 半監督
我們在業務中發現,半監督的方法很多時候解決的是穩定性的問題,難以實現域的跨越。針對這個問題,我們也做了一些嘗試,篇幅有限就不在此介紹了。
3. 弱監督
弱監督這個方向,包括弱監督的定位、檢測、分割等等,能幫助我們更加充分地發掘出更細粒度的內容信息,從而提升識別的效果。這個方向如果和解決方案聯動,有非常多的方式可以去挖掘。比如部分場景問題,用分類標簽就可以拿到非常好的分割結果。也就是說從這種標注難度非常低的監督入手,能獲取到更細粒度的監督信息,再結合解決方案的改進,是一個非常好的提升數據利用價值的方向。
另外,無監督,開放域識別、小樣本等等都會包括在整個數據流程中,它們不能直接地解決一個業務問題,但可以在業務場景中的某些環節起到非常大的作用。
--
05
問答環節
Q1:模型預標注和人工智能標注怎樣才能有效地結合?
A1:我認為結合方式是可以在構建標注系統的時候,有一個預標注的功能。我們標注的時候并不一定是從頭去標注,因為有些標注比如 OCR 的標注,或是一些很細的類別的標注,如果從頭去標,復雜度非常高。從標注的人員來看,如果有一個預標簽,模型對標注數據肯定是有識別能力的,當然不包括冷啟動階段,但是絕大多數是在中間的這樣一個迭代的環節中。如果有預標簽,標注人員一掃過去,發現模型給的是對的,就不用再做操作了。如果有標注都要人工去點,操作的復雜度和操作的差距都是非常大的。所以模型的預標注是在開始做標注系統的時候就需要考慮的一個功能。
Q2:請問對于類別邊界模糊的問題,除了盡可能地將標簽體系建立完備之外,從模型算法的角度還有經驗可以分享嗎?是否可以考慮采取相似圖的檢索的方式進行圖像的鑒別和分類呢?
A2:我覺得這也是非常好的一個問題。邊界模糊在算法里是細粒度分類的問題。首先,分類標準一定要清晰,否則標注是標不出來的。第二個需要從解決方案去做設計。比如在一個模型里,有 A、B、C 三個類型,其中 C 是正常,A 和 B 是兩個非常近的類型,但A是違規的,B 是不違規的,那其實 B 和 C 是一類的,A 是一類的。如果你的模型需要區分 A 和 BC 的話,就會出現一個非常大問題,即 AB 是屬于兩類的,而它們的類間距非常小,這其實是在給模型找麻煩。我覺得可以很好地去理解這樣一個問題,在流行的流程設計中,我們可以做一些難易的區分,也就是前置的一些模型僅去區分 C 和 AB,但在后面的細粒度的模型當中,只是做細粒度的一個分類,并不需要去區分,數據分布劃開了之后,針對性就會更強,模型效果也會有明顯的提升。從模型設計上,這種層級的難易區分的設計和考慮是非常重要的,這同時也是從速度的角度去考慮的。
你提到檢索環節是肯定的,現在最好的方式就是模型加庫,單對模型來說,即使我們現在的流程做得很完善,數據運作的流程,包括如何生成數據,如何去打標,如何機器打標做得很快,其實也有一個周轉的過程,很難做到實時的響應。模型加庫的方式,從特征檢索的角度來看,有很快的響應的過程,但是檢索也會有它的問題,兩者之間是一個互補的關系。第一個是標注邊界細化這種方向,第二個是流程解決方案的設計方向,第三,你說的檢索也是一個比較通用的方向。所以,我覺得模型和庫的配合也已經是非常重要的一點。
今天的分享就到這里,謝謝大家。
|分享嘉賓|
胡宜峰
網易易盾 計算機視覺資深算法工程師
胡宜峰,畢業于中國科學技術大學,具有多年AI算法研發經驗。研究方向包括圖像分類、目標檢測、實例分割、圖像檢索、視頻深度鑒偽等,在計算機視覺方向和內容安全領域有豐富的算法研究和項目研發經驗。
|DataFun新媒體矩陣|
|關于DataFun|
專注于大數據、人工智能技術應用的分享與交流。發起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請超過2000位專家和學者參與分享。其公眾號 DataFunTalk 累計生產原創文章800+,百萬+閱讀,15萬+精準粉絲。
以上就是關于聯動pos機風控,網易易盾內容風控實踐的知識,后面我們會繼續為大家整理關于聯動pos機風控的知識,希望能夠幫助到大家!
