網上有很多關于黃岡大pos機代理,政府治理大數據的共享的知識,也有很多人為大家解答關于黃岡大pos機代理的問題,今天pos機之家(www.tonybus.com)為大家整理了關于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
黃岡大pos機代理
政府治理大數據的共享、集成與融合
金澈清1, 陳晉川2, 劉威3, 張召1
1 華東師范大學數據科學與工程學院
2 中國人民大學信息學院
3 中山大學數據科學與計算機學院
摘要:為支持政府治理方法科學化、過程智能化、結果精細化,政府治理大數據共享、集成與融合不能局限于提供數據訪問接口,而是要從語義層面發現實體、找出關聯關系以及演化過程。然而,政府治理大數據的多源、異構、動態、海量、孤島化特性卻使之面臨嚴峻挑戰。系統性回顧了大規模分布式異構數據共享、集成、融合的基礎理論和方法,并指出了構建面向政府治理大數據的高可信共享、高精準集成、高效率融合技術的迫切性。
1 引言政府治理是指政府行政系統與其他相關主體一道對社會公共事務的治理。政府治理是在堅持中國特色社會主義制度的前提下,破除不適應生產力發展的制度,釋放生產力和社會活力。傳統的政府管理模式強調政府基于科層制體系而形成的垂直型結構,政府作為單部門封閉式行政;而政府治理模式則強調政府與其他主體(包括企事業單位、行業協會等)之間緊密配合,協作式行政。參與治理的主體之間保持信息溝通順暢,能真實、客觀、全面地描述事態現狀,預測發展方向,從而使治理方法科學化、過程智能化、結果精細化。
政府治理大數據泛指支持政府治理行為的所有數據,而非單指政務大數據。政府治理大數據改變人們的思維方式和決策過程,為政府治理能力和治理體系現代化提供強大驅動力。在過去相當長的時間內,政府部門在進行決策時能夠采用的數據相對有限,而且準確度較低,因而在決策過程中會融入較多主觀因素,不夠精準。進入21世紀以來,數據采集方式更加豐富,采集范圍更加廣闊,經由各個渠道匯集而成的海量行為信息深刻而生動地刻畫了治理對象。例如,城市的手機信令數據能夠反映出城市的整體交通狀況,特別是擁堵路段的位置,交通管理部門可據此優化交通路線;再例如,我國不同地區的能源消耗總量以及工業用電、居民用電的占比能夠反映出該地區的工業和經濟發展活力,為宏觀調控提供依據。這些行為數據規模宏大、到達速度快、類型多樣,基于這些數據的分析結果有助于決策者從多層面、多角度洞察和理解社會現象,以進行科學決策。政府治理大數據的出現改變了以往認為人類行為難以預測的舊觀點,可以通過電子蹤跡監測和預測人類的行為習慣,使政府能夠提前進行科學決策,并為用戶提供便利、快捷、無縫集成的一體化服務。
有效匯集不同來源的數據能幫助政府從不同維度審視治理對象。例如,當人們衡量一個商圈的活力時,需要了解該商圈的人流量(電信信令數據)、消費水平(支付寶、微信支付、銀聯刷卡數據)、口碑(互聯網、社交媒體)等,而這些數據由不同機構采集和維護,并不隸屬于單一機構。因此,政府治理過程是一個多治理主體共同參與的協作式治理。盡管眾多企事業單位已經在過去幾十年的信息化建設中累積了大量數據,但是由于行政管理和信息技術等方面的障礙,存在嚴重的信息孤島現象,大量數據無法被共享使用以支持政府治理。2016年5月,李克強總理在全國推進簡政放權放管結合優化服務改革電視電話會議上指出:“目前我國信息數據資源80%以上掌握在各級政府部門手里,‘深藏閨中’是極大浪費?!薄稄V東省“數字政府”建設總體規劃(2018—2020年)》指出:省直單位現有政務信息系統1 068個,其中省級垂直系統475個,建設20個以上系統的單位21個,其中存在37個網絡孤島、44個機房孤島和超過4 000類數據孤島。
數據孤島意味著數據沒有被充分共享、難以有效集成、有待深度融合。表1總結了數據孤島現象帶來的3個問題以及擬達成的目標。
(1)政府治理大數據沒有充分共享
數據共享機制描述數據發布者、使用者(有些場景下還包括監管者)之間的交互規則,使信息能夠順利流轉。常用的文件共享機制支持在不同實體之間以文件形式共享信息,但是忽視了各參與實體的其他訴求。例如,數據發布者想對數據進行確權,充分了解數據的傳播過程,并可在必要時限制數據傳播;數據使用者想確保所獲取的數據是真實、完整、一致的;而數據監管者則期望能確保相關數據共享規章制度被嚴格貫徹、認真遵循。當前,由于數據未充分共享而造成的治理疏漏并不少見。例如,由于各省間的婚姻系統不聯網,2019年1月江蘇男子張某被曝分別與3位女士登記結婚。
(2)政府治理大數據難以有效集成
數據規模、來源和質量均深刻影響著數據集成的難度。政府治理場景面向的治理對象涉及面廣,與之相關的數據規模宏大,來源廣泛。為了使場景描述更加準確,部分政府治理場景使用互聯網上的開放數據,這使得信息來源更加復雜,數據源的挑選愈加困難;由于數據平臺構建的歷史因素、數據采集設備的精度因素、人工錄入因素、不同業務領域導致數據標準存在差異,政府治理大數據的質量不高、規格不一,有效集成的難度很大。
(3)政府治理大數據有待深度融合
將低價值密度的大數據通過數據融合轉換為高價值密度的知識是政府治理大數據管理的宗旨,而精準發現大數據中的實體及其語義關聯是提升大數據價值特征的核心。例如,中國人民銀行為國內的法人單位建立資信評級時需要融合多源信息,并挖掘深層的語義關系。行為數據會隨著時間增加而動態變化,在某些場景下甚至會急劇變化。例如,信用評級機構基于日常行為數據對法人(或自然人)評級;但在極端情況下(例如經營不善等),法人(或自然人)可能會表現出與其當前等級明顯不符的行為。例如,2019年出現多起網貸平臺跑路事件,如果能預先將數據進行深度融合,將能有效對網貸平臺的信用度進行預警,從而防范社會風險。
近幾年來,我國在加快數據開放與共享、推進政府治理創新方面已經前進了一大步。一方面,各地方政府積極推出便民平臺,改進工作流程,讓數據多跑路,讓群眾少跑腿,使得用戶只需要訪問一個平臺就能夠辦理多項業務,例如廣東省的“粵省事”、上海市的“一網通辦”、浙江省的“浙里辦”等App平臺。另一方面,各地積極基于大數據技術構建智慧城市,提升城市治理的智能化水平。例如,浙江省“城市大腦”已經形成了一批成熟應用,整合多源信息,在交通等領域進行了創新??梢钥闯?,盡管政府治理大數據的共享與融合能夠顯著提升政府的治理水平,并且已經在部分地區和領域中有了良好的示范效應,但是還需要努力克服存在的挑戰,以深化政府治理體系和治理能力現代化建設。部分學者也已經意識到大數據融合方面的問題與挑戰,本文聚焦政府治理領域的數據共享與融合。
2 數據共享數據共享旨在破除不同治理實體之間的數字藩籬,搭建數據流通渠道,在共享過程中需要綜合考慮架構、隱私、合規和溯源等因素。首先,不同數據共享架構能夠支持的功能差異顯著,使用方需要結合應用場景理性選取;其次,隱私保護是數據共享的基礎訴求之一,為了鼓勵用戶共享數據以推進協作,必須要確保用戶隱私安全;再次,整個共享過程的合規化操作可避免其他主觀因素的影響,增強整體可信度;最后,溯源機制在多方參與的機制中起到事中監管、事后追責的作用,維護整個過程正常推進。
2.1 數據共享架構按照數據發布者和使用者構成的網絡拓撲不同,可將數據共享架構劃分成3種。
第一種也是最常用的數據共享架構是集中式架構。參與政府治理的所有主體之間預先約定好一個公共服務器,繼而主動將數據傳送到該服務器。服務器設定數據訪問規則,允許參與治理的主體以不同權限訪問服務器上的數據,例如Web服務器或者文件傳輸協議(file transfer protocol,FTP)服務器。盡管這種架構的結構簡單,但是仍然存在明顯的不足之處。首先,在網絡部署上可能引發爭議。若治理實體之間存在上下級關系,則上級實體可以通過行政手段決定網絡部署方式;而若治理實體之間是平級關系(無隸屬關系),則服務器由哪個單位進行管理會成為焦點議題。其次,這種集中式架構還存在單點故障和性能缺陷,一旦由于黑客攻擊、軟硬件故障等原因導致服務器宕機,則所有數據訪問服務均會被迫中止,且整個系統的數據訪問能力受限于服務器的性能,當大量數據訪問請求同時到達時,系統性能會急劇降低。最后,這種架構無法確保數據的可信性,具有管理員權限的治理實體成為強勢的一方,具備數據修改的能力,而不具備管理員權限的治理實體則處于相對弱勢的一方(通常不將管理員權限賦予所有實體,以保障系統安全性)。
第二種架構基于對等網絡,將數據分散部署在整個網絡中,該網絡中沒有特定的服務器節點,所有節點既可提供數據,又可消費數據。由于(多副本)數據分散在不同網絡節點,而非單一節點上,因此可避免單點故障缺陷,且可擴展性更強。對等網絡的共享方式包括非結構化對等網絡和結構化對等網絡2種。非結構化對等網絡較為簡單,對節點之間的拓撲結構并無特別約定,只需要記錄鄰接節點信息,但是無法保證以低時間復雜度來處理數據查詢請求,典型系統如Gnutella。結構化對等網絡則對網絡節點進行精心部署,使用分布式哈希表(distributed Hash table, DHT)來提升數據訪問效率,典型的結構化對等網絡包括Chord。與第一種架構相比,這種架構的最大優勢是能夠克服單點故障,然而這種架構仍然無法確保數據的可信性,不排除數據在共享過程中被篡改的可能。
第三種架構通過區塊鏈來實現數據共享。區塊鏈技術利用共識機制在不可信網絡中為各參與方構建信任關系,確保數據不易被篡改。區塊鏈系統通??梢员粍澐譃楣墟満驮S可鏈。公有鏈面向全網公開,無用戶授權機制,如比特幣、以太坊(Ethereum) 等;許可鏈有用戶授權機制,僅允許授權的用戶和節點加入,如超級賬本(Fabric) 等。由于現有區塊鏈系統的數據管理能力較弱,一些學者嘗試將區塊鏈與數據庫技術結合,提升數據管理性能,華東師范大學提出的師大鏈數據庫(semantics empowered blockchain database,SEBDB)就是構建于許可鏈之上的區塊鏈數據庫系統。典型的共識協議包括工作量證明(proof of work, POW)、權益證明(proof of stake,POS)和實用拜占庭協議(practical Byzantine fault tolerance,PBFT)及其變種。工作量證明機制根據各節點的計算資源進行投票,并要求可信節點控制的計算資源多于一半;權益證明機制根據各用戶擁有的權益比重進行投票;實用拜占庭協議能夠在n≥3f+1(n是網絡節點數,f是不可信節點數)的條件下解決拜占庭將軍問題。
表2列舉了3種數據共享架構及其特點。
2.2 數據隱私保護政府治理大數據共享必須重視隱私保護。我國早已立法明確政府信息公開中“保護個人隱私”的原則。《中華人民共和國政府信息公開條例》中第十四條規定:行政機關不得公開涉及國家秘密、商業秘密、個人隱私的政府信息。但是,經權利人同意公開或者行政機關認為不公開可能對公共利益造成重大影響的涉及商業秘密、個人隱私的政府信息,可以予以公開。由于用戶隱私泄露而造成負面社會效應的案例屢見不鮮。在大數據背景下,當來自不同數據源的數據經過整合之后,數據相互關聯就會揭示更多知識。例如,2006年8月,美國在線(American Online,AOL)公布了大量舊的搜索查詢數據(數據已經經過脫敏處理,包括用戶名稱和地址等個人信息),《紐約時報》在幾天內綜合分析“60歲的單身男性”“有益健康的茶葉”“利爾本的園丁”等搜索記錄之后,發現第4417749號代表是佐治亞州利爾本的一位62歲的寡婦塞爾瑪·阿諾德。典型的隱私保護技術包括匿名化、加密處理和多方隱私技術等。匿名化技術將數據的關鍵部分模糊化處理,從而保護用戶隱私,例如,k-匿名技術就是將當前數據項與其他至少k-1個數據項進行模糊化處理,使得這k個數據項之間不可區分。加密處理將明文轉化為密文,以保護私密信息。多方隱私保護下的數據集成技術(或稱多方PPRL)還處于起步階段,主要支持精確匹配,例如將各個數據源的記錄編碼,然后傳入另一方進行對比。參考文獻提出了一種基于安全多方計算的精確匹配方法,參考文獻提出一種基于k-匿名的支持多約束條件的隱私保護方法。
除了上述以軟件和算法的方式來保護用戶隱私之外,還可以通過構建細粒度的訪問控制以及基于可信執行環境(trusted execution environment,TEE)來保障數據隱私。鑒于政府治理大數據分別屬于不同治理實體,且不同治理實體的訪問權限不同,可以借鑒面向對象設計(objectoriented design,OOD)的思想,設定多層級訪問權限,包括開放可訪問、敏感不可訪問、部分用戶可訪問等。通過分級權限來限制對數據的訪問。TEE可保護敏感而又無法脫敏的數據。軟件防護擴展(software guard extensions,SGX)是典型的TEE,它將敏感數據和操作轉移至Enclave(即SGX的可信內存)中進行處理,而數據和操作在其他地方以密文的方式存在。借助于可信硬件的數據保護方式比同態加密、零知識證明等傳統密碼學方法更靈活和高效。
2.3 共享流程合規化數據共享流程由多個治理主體共同參與,并遵循特定管理制度。程序透明增強了共享流程的公平性。為確保整個流程自動化執行,避免人為干預,可將相關規章制度預先編制成可自動運行的程序。當外部條件滿足時,該程序自動被觸發運行,整體上流程不需要人工介入。智能合約就是一段自動運行、可驗證的程序,以數字化方式讓各參與方履行特定承諾。在基于智能合約的數據共享流程自動化機制中,行政部門將數據共享的管理制度轉化為智能合約代碼,采用形式化方式嚴格定義各參與主體的義務,明確每條義務的實施主體、前提條件、具體內容以及完成期限;同時,定義一項義務的各種狀態,如激活、就緒、滿足、過期以及違約等,并分析各狀態之間的轉換條件。當某個參與主體未及時履行預先約定的義務時,管理部門作為實施主體對該參與主體進行處罰。管理制度的運行實例可等價為一個有窮狀態機,其運行機制由組成此制度的所有義務共同決定。管理部門可使用圖形化建模工具來制定制度,將規章制度自動生成對應的狀態機,并展現制度的運行過程,自動分析并顯示異常的運行狀態,為管理部門對制度改進提供決策支持。
2.4 數據溯源施政效果評估和責任追究是政府治理的重要內容。基于政府治理行為大數據開展溯源分析,能夠評估施政效果和責任認定。數據溯源是指數據產生并隨時間推移而演變的過程。2017年,國家食品藥品監督管理總局發布了《關于食品生產經營企業建立食品安全追溯體系的若干規定》,推動食品生產經營企業建立食品安全追溯體系。基于關系數據庫的溯源系統有DBNotes、Perm、Trio等。DBNotes系統基于關系數據庫對溯源標注信息進行管理。Perm系統利用查詢重寫規則改寫SQL查詢,以追蹤數據溯源信息。Trio系統是一個不確定數據庫上的數據世系管理系統,將數據不確定性和溯源信息緊密整合在一起。區塊鏈系統將所有操作按照時間順序進行存儲,難以篡改,且新數據只能以添加的方式加入區塊鏈 系統之中,能有效提供數據溯源功能。參考文獻[17]研究了如何基于區塊鏈設計食品安全溯源體系。
3 數據集成政府治理大數據來源豐富、領域多樣、發展歷程迥異,因而不同來源的數據格式不一,且存在質量問題。數據集成旨在以統一模式訪問不同數據,包括數據源選擇和數據模式匹配2個方面。
3.1 數據源選擇精準選擇數據源是實現數據集成結果準確的前提。當數據源數量較少時,使用人工方式就能夠較為有效地篩選出合適的數據源。而當數據來源較多時,難以借助人工方式有效地挑選出合適的數據源。特別地,如果嘗試結合互聯網數據進行治理,則數據源的數量就急劇增多,需要設計算法來高效、精準地選擇數據源,以解決應用需求。由于政府治理大數據包含大量行為數據,在選擇數據源時不僅需要考慮更加廣泛的質量維度,以解決面向實體和行為數據的集成,還要根據目標模式自動構建候選模式集成處理路徑。數據源選擇方法可分為按需驅動的選擇方法和基于多質量維度的選擇方法2種。
(1)按需驅動的數據源選擇方法
這種方法在目標模式和數據源模式之間匹配關聯信息,反向構建出包含多個模式集成處理路徑的候選集合,并最終找出滿足集成需求的數據源模式結構與集成方式。目標模式通常是一個以實體為核心的關聯數據整體,其結構可以映射到共享數據的模式關聯圖上。首先,基于共享數據生成模式關聯圖,采用基于圖結構的查詢方法尋找與目標模式匹配的候選模式集合。然后,基于候選數據模式間的匹配關系,利用數據集成算子創建由集成操作構成的有向無環圖集合。最后,進一步提出約簡策略,以減少不必要的操作,降低數據集成的運算代價。
(2)基于多質量維度的數據源選擇方法
這種方法通過面向數據質量的數據源選擇策略管理參與數據集成的數據源,從而保證集成結果在完整性、精確性和時效性等維度上的質量需求。首先,從數據源的多質量維度(同一性、完備性、精確性、時效性以及綜合質量)構建數據源質量評價模型,用于獨立評價數據源的各維度質量;其次,定義多維度的綜合評價模型和數據源集成代價評估模型;最后,構建利益代價模型,并以此選擇集成數據源。參考文獻意識到數據準確性的重要性,提出了面向數據融合的數據源選擇方法,從數據質量和集成代價的平衡上選擇數據源。參考文獻進一步提出了融合覆蓋率、新鮮性和準確性質量等多個維度的數據源選擇方法,并在此基礎上實現了數據源選擇系統SourceSight。
3.2 數據模式匹配數據模式匹配內容豐富,包括基于實例的匹配、基于模式信息的匹配、混合匹配等。近期有部分工作采用機器學習特別是深度學習來提高模式匹配的效果,包括采用概率推理方法從所有候選模式中找出最優結果。
數據模式匹配的一個難點在于部分數據源質量低下、缺乏表頭信息、規模龐大且增長迅速,無法精確匹配模式。在此情況下,可以采用概率模式匹配方法篩選出潛在的匹配模式,并評估其可信度。當數據源的數目較多時,簡單羅列出所有潛在的模式匹配組合及其發生概率的計算開銷太大,需要靈活運用剪枝策略縮小搜索空間,構造出一個包含少量模式匹配組合的候選集合,并最終生成概率模式。參考文獻提出了一種基于概率模型的全局數據模式生成方法。另外,為解決開放數據規模龐大的問題,還可以劃分原始數據,將任務分攤到不同節點之中,采用分布式架構提升效率。例如,以Spark為代表的通用并行處理框架具備良好的水平擴展能力,可支持海量開放數據的模式匹配。
4 數據融合數據融合指將來自政府治理中不同數據源的同一實體(如企業、個人)的不同表象融合成單一表象,消除潛在的數據沖突。數據融合包括實體匹配、實體鏈接與關聯、動態數據的語義關聯3個方面。首先,通過實體匹配在多個數據源中找出指向同一實體的記錄;其次,需要明確實體之間的鏈接與關聯關系;最后,實體本身以及實體之間的關聯關系都會隨著時間推移而不斷演化。
4.1 實體匹配實體匹配也被稱為記錄連接、重復數據刪除,旨在找出存在于多個數據源中但指向同一實體的記錄集合。例如,同一企業對應的地址信息在政府的不同數據源中,往往存在多種表述方式。通過實體匹配不僅可以減少數據的冗余,而且拼接碎片化數據可以提高數據質量。當前基于實體局部結構特性(實體屬性或實體間關系)進行匹配的方法具有復雜性較高的缺點。
此外,還可以充分利用數據間豐富的關聯關系從以下3個方面提升實體匹配的準確性和效率。其一,利用圖能夠有效表示數據對象間拓撲關系的能力,可以將共享集成的結構化數據集構建為數據對象關系圖,再基于圖迭代進行實體匹配;對象之間的相似度可以綜合屬性相似度、結構相似度、語義路徑相似度來計算;針對復雜數據記錄匹配,可以依據數據之間的關聯關系構建有向依賴圖,按依賴關系確定匹配順序,減少匹配次數。其二,可以綜合采用哈希方法和位計算提高匹配準確性和效率。針對快速到來的時序數據,采用哈希方法對數據記錄進行快速分塊,不僅具有高效率和高準確性,且不需要進行全局數據排序??蓛炏冗x擇識別度高的屬性進行哈希處理,提高分塊中候選匹配對的數量,對于塊可匹配估計方法,可以結合哈希計算和位計算提高塊中可匹配候選對的準確性和效率。優先選擇塊匹配冗余度高的分塊進行實體匹配,從而在最短時間內獲得更多的匹配對。其三,可以通過分布式架構提高實體匹配的效率。在利用分布式并行處理平臺的同時,盡量減少通信代價,可以采用多屬性哈希實現更精準的分塊;均衡分布節點上的處理任務,降低總匹配時間,可以通過構建分層的分塊模型和優化組合來均衡不同處理節點上的匹配任務。
4.2 實體鏈接與關聯政府治理中的同一實體通常并不僅僅在一個系統中出現,而是存在于多個系統中,且互相鏈接與關聯。例如,同一企業法人的信息既有來自工商管理部門系統的基本信息,又有蘊含于開放的互聯網中的大量交互行為信息。為了更全面地刻畫企業的誠信特征,需要將互聯網中的多個記錄與工商管理部門知識庫中的該實體鏈接起來。實體鏈接技術通過基于屬性的模型和基于關系的模型在不同系統中找出針對同一實體的描述記錄,從而形成更加全面的實體信息,其中,涉及實體鏈接、消除實體歧義和復雜數據之間實體關聯。實體鏈接與關聯通過建立知識庫中的知識條目與待消歧實體的對應關系實現消歧,它包含2個步驟:候選集生成、候選實體消歧。候選集生成的方法主要有基于信息檢索的方法、基于查詢表述上下文的方法等。參考文獻提出了一種減少候選集規模的方法。候選實體消岐方法大致有2類:基于相似度計算的實體鏈接方法、基于有監督學習的實體鏈接方法。其中,基于有監督學習的實體鏈接方法在性能上有進一步改進。由于實體語義模糊和異構網絡知識有限,Shen W等人考慮了實體的流行度,提出了基于概率鏈接模型的知識流行度算法,將鏈接模型以高可靠性映射到上下文信息,迭代豐富網絡實體,從而提高鏈接性能。
為了提升實體鏈接和關聯的效率,可以從以下3個方面進行改進。其一,考慮政府領域、跨系統語料變化和社交媒體短文本等特點,基于用戶行為特征進行實體關聯,即將用戶行為特征抽象為時間、地點和主題三維模型,通過學習訓練用戶行為數據的多維度特征,聚類用戶的三維行為特征,完善用戶的行為模式;再構建基于用戶行為聚類特征的相似度度量模型,改善基于用戶行為特征的用戶匹配準確性。其二,為克服復雜文本、噪聲數據和半結構化數據的挑戰,可以通過深度學習方法研究跨系統結構化和非結構化數據之間實體關聯技術,提高實體關聯模型的魯棒性和擴展性。其三,利用政府治理領域知識和機器學習方法、結構化數據相似性判別技術,聚類同一實體的所有記錄,保證高內聚、低歧義。在跨系統實體鏈接和關聯過程中存在數據沖突,可基于各系統的數據源質量解決沖突問題。
4.3 動態數據的語義關聯在政府治理場景中,實體會隨著時間推移而變化,需要準確關聯用戶行為,以捕獲序列事件的演化規律。例如,一個法人(用戶)的信用會隨著時間的推移而發生改變,盡快檢測到語義變化有助于及時制定應對措施。實體的屬性值會隨時間變化,同一實體對應的多條記錄會出現不一致的情況,為了發掘動態數據中的語義關聯,需要細粒度地分析變化。文本詞語會隨著時間發生語義變化,參考文獻提出了動態統計模型以學習時間感知的詞語表示,獲取動態數據中語義關聯。尤其是隨著移動社交網絡的發展,同一實體在空間和時間上會有多樣記錄,參考文獻提出了基于K-L散度的關聯模型鏈接兩類數據源中的時空記錄,并通過時間和空間過濾機制降低匹配的搜索空間。針對高動態性及實效敏感的數據源,參考文獻提出了擴散隨機梯度下降算法,對不同樣本分配實效感知權重,增強模型對動態數據的處理能力。在非結構化數據中,傳統詞嵌入方法無法表征語料信息的變化歷史,參考文獻提出了時態詞向量法,可以有效分析實體的演化過程。
為提升動態數據的語義關聯效率,可以從以下3個方面進行改進。首先,可以面向演化數據對實體進行關聯,為精準關聯具有演化特性的同一實體,可定義精準的時間模型和相應的相似度計算算法,并通過基于深度學習的動態分布表示法刻畫語義遷移和涌現,提高關聯演化實體的準確性。其次,針對實體關聯關系的實時演化技術,為結合行為數據準確關聯用戶或事件的演化規律,克服由于實體名稱改變或隱匿造成的實體重復副本,可定義結合實體語義相關性、實體關聯性和實體的時序特征的事件演化模型,為每個實體構建時間活動路徑,通過路徑相似度判別潛在相同實體。最后,為解決現有實體關聯預測技術大多針對靜態數據的問題,可以考慮增量式的動態語義關聯維護技術,通過結合已有匹配結果實現快速計算,從而捕獲用戶的演化特性。
5 案例分析本文成稿之時,正逢新型冠狀病毒引發的肺炎疫情在我國肆虐,疫情兇猛。截至2020年3月1日24時,據31個省(自治區、直轄市)和新疆生產建設兵團報告,累積報告確診病例80 026例,確診病例遠超17年前的非典疫情。全國上下眾志成城、萬眾一心,以極大的努力和決心投入抗擊疫情的工作之中。作為數據科學研究人員,筆者也在深入反思這次抗擊疫情過程中暴露出來的問題是否能夠以更高效的方式解決。以下是政府治理大數據的共享、集成與融合方面面臨的一些實際挑戰。
(1)信息孤島現象依然存在
科學應對疫情的前提是能夠準確了解與疫情相關的關鍵性數據。但是在對抗疫情的過程中,一些關鍵性的數字掌握得不夠及時、準確,例如當地醫療物資的儲備和消耗情況、區域內的醫療物資的生產能力和調撥能力等。相關信息的互聯互通有助于統一決策、統一規劃,以充分利用有限的資源抗擊疫情。
(2)確保共享數據的真實性
疫情暴發之后,網上謠言滿天飛,并且通過社交工具迅速傳播。造謠一張嘴,辟謠跑斷腿。數據的真實性非常重要。如何通過技術手段識別信息的真偽,如何及時發現并切斷虛假的甚至是惡意的信息傳播,如何分析謠言傳播的路徑等,都非常值得進一步探討。
(3)確保共享數據可追溯,提升可信性
由于疫情暴發具有突然性,這使得醫療物資(例如口罩)成為緊俏物資,不少廠商紛紛加大生產力度,支援抗疫一線。但是在這種緊急情況下,仍然有不法商家生產假冒偽劣產品,借以牟利,造成了惡劣的社會影響。在此,如果能夠構建基于區塊鏈技術的物資數據可溯源平臺,則能夠排除偽劣產品,保障物資安全。另外,在本次疫情中,世界各地的愛心人士捐款捐物,非常踴躍。捐贈系統中數據的透明性和可信性能夠極大地影響捐贈熱忱。
(4)綜合多個數據來源的數據集成將不同來源的數據集成起來能夠增加對整體事件的透視性。在抗擊疫情過程中,數據來源眾多,及時集成相關數據才可客觀評判事態發展。在2020年1月29日中央指導組派出督查組趕赴黃岡市進行督查核查時,黃岡市衛生健康委員會主任對黃岡市定點醫院收治能力、核酸檢測能力的明確數據等均不了解。推而廣之,在政府治理過程中實時匯聚多源數據,可以輔助領導層快速應對突發事件。
(5)實體關聯與融合提升服務民眾
疫情暴發以來,各地政府和機構通過不同渠道發布疫情通報,不僅有病例數據、密切接觸者尋找通知,也有關于公共交通車次的調整信息。這些信息來源雜、數量大、增長快。如果能夠從實體層級匯聚多源信息,并且找出不同實體之間的關聯關系,則能夠更加清晰地表明疫情發展情況。
(6)動態數據的實時演化
疫情的發展隨時間變化而不斷演變,從疫情暴發以來,騰訊、新浪等門戶網站每日實時發布疫情地圖,顯示不同地域確診案例、疑似案例、重癥案例等關鍵信息的變化軌跡。分析動態數據的實時演化過程能夠讓人們更加清晰地了解疫情發展的整個過程以及各項措施所取得的成效,從而不斷調整應對方案。
6 結束語綜上所述,政府治理大數據的共享、集成與融合需要從理論、機制、實踐等方面進行深入的研究。現有的方法都存在一些不足。為了構建面向政府治理大數據的高可信共享模型、高精準集成機制、高效率融合機理,還需要從以下3個方面進行努力。首先,研究政府治理大數據高可靠共享技術,包括可確保所共享數據可信、可驗證的數據證明機制,可復現數據演化過程的數據溯源技術,可確保數據管理制度自動實施的流程合約化機制等。其次,研究政府治理大數據高精度集成技術,包括在數據抽取過程中的持續閉環迭代能力、在數據源選擇過程中基于目標約束的自動優選能力、在模式匹配過程中的劣質數據容忍能力等。最后,研究政府治理大數據高效率融合技術,包括在實體識別階段采用分布式計算機系統提升可擴展性、在跨系統實體鏈接與關聯階段充分結合用戶行為數據提升效率、在實體演化分析方面采用增量式策略提升處理效率等。
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
以上就是關于黃岡大pos機代理,政府治理大數據的共享的知識,后面我們會繼續為大家整理關于黃岡大pos機代理的知識,希望能夠幫助到大家!
