在《數(shù)據(jù)分析師》第81頁關(guān)于數(shù)據(jù)統(tǒng)計與數(shù)據(jù)挖掘的探討中,其核心思想在現(xiàn)代人工智能公共數(shù)據(jù)平臺的構(gòu)建與運營中得到了深刻體現(xiàn)和廣泛應(yīng)用。人工智能公共數(shù)據(jù)平臺,作為匯聚、治理和開放海量公共數(shù)據(jù)資源的基礎(chǔ)設(shè)施,其效能發(fā)揮高度依賴于數(shù)據(jù)統(tǒng)計與數(shù)據(jù)挖掘這兩大支柱技術(shù)的深度融合。
數(shù)據(jù)統(tǒng)計是平臺數(shù)據(jù)治理與價值評估的基石。在平臺層面,需要對匯入的各類公共數(shù)據(jù)(如政務(wù)數(shù)據(jù)、交通數(shù)據(jù)、環(huán)境數(shù)據(jù)、社會經(jīng)濟(jì)數(shù)據(jù)等)進(jìn)行全面的描述性統(tǒng)計分析。這包括數(shù)據(jù)總量、類型分布、更新頻率、完整性、一致性以及數(shù)據(jù)質(zhì)量指標(biāo)的量化評估。通過均值、方差、分布檢驗、相關(guān)性分析等統(tǒng)計方法,平臺能夠清晰刻畫數(shù)據(jù)資源的整體面貌,識別數(shù)據(jù)缺口與異常,為數(shù)據(jù)標(biāo)準(zhǔn)化清洗、元數(shù)據(jù)管理和數(shù)據(jù)資產(chǎn)目錄編制提供科學(xué)依據(jù)。例如,通過對某城市歷年空氣質(zhì)量監(jiān)測數(shù)據(jù)的統(tǒng)計,可以快速掌握污染物濃度的平均水平、波動趨勢及空間差異,為后續(xù)的深度分析奠定基礎(chǔ)。
數(shù)據(jù)挖掘是釋放平臺數(shù)據(jù)潛能、驅(qū)動智能應(yīng)用的關(guān)鍵引擎。在高質(zhì)量統(tǒng)計數(shù)據(jù)的基礎(chǔ)上,數(shù)據(jù)挖掘技術(shù)負(fù)責(zé)從海量、多源的公共數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式、關(guān)聯(lián)規(guī)則和知識。這主要包括:
- 預(yù)測建模:利用回歸分析、時間序列分析、機器學(xué)習(xí)算法等,基于歷史數(shù)據(jù)預(yù)測未來趨勢。例如,結(jié)合氣象、歷史人流、節(jié)假日信息等公共數(shù)據(jù),預(yù)測城市特定區(qū)域未來短時的人流密度或交通擁堵情況。
- 聚類分析:對數(shù)據(jù)進(jìn)行自動分組,發(fā)現(xiàn)內(nèi)在結(jié)構(gòu)。例如,對區(qū)域內(nèi)企業(yè)的公開經(jīng)營數(shù)據(jù)(行業(yè)、規(guī)模、營收等)進(jìn)行聚類,識別不同的產(chǎn)業(yè)發(fā)展集群,為精準(zhǔn)施策提供支持。
- 關(guān)聯(lián)規(guī)則與序列模式挖掘:發(fā)現(xiàn)數(shù)據(jù)項之間的有趣關(guān)聯(lián)或先后順序。例如,在政務(wù)服務(wù)平臺日志數(shù)據(jù)中,挖掘用戶常辦理業(yè)務(wù)的組合順序,優(yōu)化服務(wù)流程和界面設(shè)計。
- 異常檢測:識別與常規(guī)模式顯著偏離的數(shù)據(jù)點。這在公共安全(如金融詐騙監(jiān)測)、基礎(chǔ)設(shè)施運維(如傳感器異常讀數(shù)預(yù)警)等領(lǐng)域至關(guān)重要。
人工智能公共數(shù)據(jù)平臺通過集成先進(jìn)的數(shù)據(jù)挖掘算法和模型,將上述發(fā)現(xiàn)轉(zhuǎn)化為可復(fù)用的分析工具、API服務(wù)或可視化洞察,賦能政府決策、社會治理、科學(xué)研究及商業(yè)創(chuàng)新。平臺本身也通過持續(xù)收集用戶對數(shù)據(jù)服務(wù)的使用反饋數(shù)據(jù),運用統(tǒng)計和挖掘方法進(jìn)行迭代優(yōu)化,提升數(shù)據(jù)服務(wù)的精準(zhǔn)性和易用性。
數(shù)據(jù)統(tǒng)計為人工智能公共數(shù)據(jù)平臺提供了數(shù)據(jù)認(rèn)知的“顯微鏡”和“度量衡”,確保數(shù)據(jù)的可知、可信、可用;而數(shù)據(jù)挖掘則扮演了“探測儀”和“引擎”的角色,深入數(shù)據(jù)內(nèi)部,揭示規(guī)律,創(chuàng)造智能價值。二者的協(xié)同作用,共同推動公共數(shù)據(jù)從靜態(tài)資源向動態(tài)生產(chǎn)要素轉(zhuǎn)變,是構(gòu)建高效、智能、可信公共數(shù)據(jù)生態(tài)的核心技術(shù)路徑。隨著大數(shù)據(jù)、人工智能技術(shù)的進(jìn)一步發(fā)展,數(shù)據(jù)統(tǒng)計與數(shù)據(jù)挖掘在公共數(shù)據(jù)平臺中的應(yīng)用將更加自動化、實時化和智能化,為社會治理和經(jīng)濟(jì)發(fā)展注入更強大的數(shù)據(jù)動能。