數(shù)據(jù)挖掘技術(shù)具有哪些特點?
數(shù)據(jù)挖掘技術(shù)具有哪些特點?
①基于大量數(shù)據(jù)并非說小數(shù)據(jù)量上就不可以進行挖掘,實際上大多數(shù)數(shù)據(jù)挖掘的算法都可以在小數(shù)據(jù)量上運行并得到結(jié)果。但是,一方面過小的數(shù)據(jù)量完全可以通過人工分析來總結(jié)規(guī)律,另一方面來說,小數(shù)據(jù)量常常無法反映出真實世界中的普遍特性。
②非平凡性
所謂非平凡,指的是挖掘出來的知識應(yīng)該是不簡單的,絕不能是類似某****評論員所說的“經(jīng)過我的計算,我發(fā)現(xiàn)了一個有趣的現(xiàn)象,到本場比賽結(jié)束為止,這屆百科***的進球數(shù)和失球數(shù)是一樣的。
非常的巧合!”那種知識。這點看起來勿庸贅言,但是很多不懂業(yè)務(wù)知識的數(shù)據(jù)挖掘新手卻常常犯這種錯誤。
③隱含性
數(shù)據(jù)挖掘是要發(fā)現(xiàn)深藏在數(shù)據(jù)內(nèi)部的知識,而不是那些直接浮現(xiàn)在數(shù)據(jù)表面的信息。常用的BI工具,例如報表和OLAP,完全可以讓用戶找出這些信息。
④新奇性
挖掘出來的知識應(yīng)該是以前未知的,否則只不過是驗證了業(yè)務(wù)專家的經(jīng)驗而已。只有全新的知識,才可以幫助企業(yè)獲得進一步的洞察力。
⑤價值性
挖掘的結(jié)果必須能給企業(yè)帶來直接的或間接的效益。
有人說數(shù)據(jù)挖掘只是“屠龍之技”,看起來神乎其神,卻什么用處也沒有。這只是一種誤解,不可否認的是在一些數(shù)據(jù)挖掘項目中,或者因為缺乏明確的業(yè)務(wù)目標,或者因為數(shù)據(jù)質(zhì)量的不足,或者因為人們對改變業(yè)務(wù)流程的**,或者因為挖掘人員的經(jīng)驗不足,都會導(dǎo)致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,數(shù)據(jù)挖掘的確可以變成提升效益的利器。
3.8.3 數(shù)據(jù)挖掘常用技術(shù)
《系統(tǒng)架構(gòu) 設(shè)計師教程(第4版) 》希賽教育 編著 常用的數(shù)據(jù)挖掘技術(shù)包括關(guān)聯(lián)分析、序列分析、分類、預(yù)測、聚類分析及時間序列分析等。 1.關(guān)聯(lián)分析 關(guān)聯(lián)分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一個事件發(fā)生的同時,另一個事件也經(jīng)常發(fā)生。
關(guān)聯(lián)分析的重點在于快速發(fā)現(xiàn)那些有實用價值的關(guān)聯(lián)發(fā)生的事件。
其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計意義。 對于結(jié)構(gòu)化的數(shù)據(jù),以客戶的購買習慣數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)客戶的關(guān)聯(lián)購買需要。例如,一個開設(shè)儲蓄賬戶的客戶很可能同時進行債券交易和股票交易,購買紙尿褲的男顧客經(jīng)常同時購買啤酒等。利用這種知識可以采取積極的營銷策略,擴展客戶購買的產(chǎn)品范圍,吸引更多的客戶。
通過調(diào)整商品的布局便于顧客買到經(jīng)常同時購買的商品,或者通過降低一種商品的價格來促進另一種商品的銷售等。 對于非結(jié)構(gòu)化的數(shù)據(jù),以空間數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)地理位置的關(guān)聯(lián)性。例如,85%的靠近高速公路的大城鎮(zhèn)與水相鄰,或者發(fā)現(xiàn)通常與高爾夫球場相鄰的對象等。
2.序列分析 序列分析技術(shù)主要用于發(fā)現(xiàn)一定時間間隔內(nèi)接連發(fā)生的事件。這些事件構(gòu)成一個序列,發(fā)現(xiàn)的序列應(yīng)該具有普遍意義,其依據(jù)除了統(tǒng)計上的概率之外,還要加上時間的約束。 3.分類分析 分類分析通過分析具有類別的樣本的特點,得到?jīng)Q定樣本屬于各種類別的規(guī)則或方法。
利用這些規(guī)則和方法對未知類別的樣本分類時應(yīng)該具有一定的準確度。其主要方法有基于統(tǒng)計學的貝葉斯方法、神經(jīng)**方法、決策樹方法及支持向量機(support vector machines)等。 利用分類技術(shù),可以根據(jù)顧客的消費水平和基本特征對顧客進行分類,找出對商家有較大利益貢獻的重要客戶的特征,通過對其進行個性化服務(wù),提高他們的忠誠度。
利用分類技術(shù),可以將大量的半結(jié)構(gòu)化的文本數(shù)據(jù),如WEB頁面、電子郵件等進行分類??梢詫D片進行分類,例如,根據(jù)已有圖片的特點和類別,可以判定一幅圖片屬于何種類型的規(guī)則。對于空間數(shù)據(jù),也可以進行分類分析,例如,可以根據(jù)房屋的地理位置決定房屋的檔次。 4.聚類分析 聚類分析是根據(jù)物以類聚的原理,將本身沒有類別的樣本聚集成不同的組,并且對每一個這樣的組進行描述的過程。
其主要依據(jù)是聚到同一個組中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。 仍以客戶關(guān)系管理為例,利用聚類技術(shù),根據(jù)客戶的個人特征及消費數(shù)據(jù),可以將客戶群體進行細分。例如,可以得到這樣的一個消費群體:女性占91%,全部無子女、年齡在31歲到40歲占70%,高消費級別的占64%,買過針織品的占91%,買過廚房用品的占89%,買過園藝用品的占79%。針對不同的客戶群,可以實施不同的營銷和服務(wù)方式,從而提高客戶的滿意度。
對于空間數(shù)據(jù),根據(jù)地理位置及障礙物的存在情況可以自動進行區(qū)域劃分。例如,根據(jù)分布在不同地理位置的 ATM 機的情況將居民進行區(qū)域劃分,根據(jù)這一信息,可以有效地進行ATM機的設(shè)置規(guī)劃,避免浪費,同時也避免失掉每一個商機。 對于文本數(shù)據(jù),利用聚類技術(shù)可以根據(jù)文檔的內(nèi)容自動劃分類別,從而便于文本的檢索。 5.預(yù)測 預(yù)測與分類類似,但預(yù)測是根據(jù)樣本的已知特征估算某個連續(xù)類型的變量的取值的過程,而分類則只是用于判別樣本所屬的離散類別而已。
預(yù)測常用的技術(shù)是回歸分析。 6.時間序列分析 時間序列分析的是隨時間而變化的事件序列,目的是預(yù)測未來發(fā)展趨勢,或者尋找相似發(fā)展模式或者是發(fā)現(xiàn)周期性發(fā)展規(guī)律。
數(shù)據(jù)挖掘技術(shù)涉及哪些技術(shù)領(lǐng)域
數(shù)據(jù)挖掘的技術(shù)有很多種,按照不同的分類有不同的分類法,大致有十三種常用的數(shù)據(jù)挖掘的技術(shù)。1、統(tǒng)計技術(shù)2、關(guān)聯(lián)規(guī)則3、基于歷史的MBR(Memory-based Reasoning)分析4、遺傳算法GA(Genetic Algorithms)5、聚集檢測6、連接分析7、決策樹8、神經(jīng)**9、粗糙集10、模糊集11、回歸分析12、差別分析13、概念描述由于人們急切需要將存在于數(shù)據(jù)庫和其他信息庫中的數(shù)據(jù)轉(zhuǎn)化為有用的知識,因而數(shù)據(jù)挖掘被認為是一門新興的、非常重要的、具有廣闊應(yīng)用前景和富有挑戰(zhàn)性的研究領(lǐng)域,并應(yīng)起了眾多學科(如數(shù)據(jù)庫、人工智能、統(tǒng)計學、數(shù)據(jù)倉庫、**分析處理、專家系統(tǒng)、數(shù)據(jù)可視化、機器學習、信息檢索、神經(jīng)**、模式識別、高性能計算機等)研究者的廣泛注意。
隨著數(shù)據(jù)挖掘的進一步發(fā)展,它必然會帶給用戶更大的利益。
如果對數(shù)據(jù)挖掘的學習有疑問的話,推薦CDA數(shù)據(jù)分析師的課程,它安排了Sklearn/LightGBM、Tensorflow/PyTorch、Transformer等工具的應(yīng)用實現(xiàn),并根據(jù)輸出的結(jié)果分析業(yè)務(wù)需求,為進行合理、有效的策略優(yōu)化提供數(shù)據(jù)支撐。課程培養(yǎng)學員硬性的數(shù)據(jù)挖掘理論與Python數(shù)據(jù)挖掘算法技能的同時,還兼顧培養(yǎng)學員軟性數(shù)據(jù)治理思維、商業(yè)策略優(yōu)化思維、挖掘經(jīng)營思維、算法思維、預(yù)測分析思維,全方位提升學員的數(shù)據(jù)洞察力。點擊預(yù)約免費試聽課。
數(shù)據(jù)挖掘技術(shù)可以解決我們學習、生活中的什么問題?
數(shù)據(jù)挖掘技術(shù)可以解決牲畜疾病的預(yù)防、改進工藝參數(shù)、疾病診斷等問題。
數(shù)據(jù)挖掘技術(shù)可以根據(jù)歷史生產(chǎn)數(shù)據(jù)來,預(yù)測良品情況,從而改進工藝參數(shù)降低不良率;畜牧業(yè)可以使用數(shù)據(jù)挖掘技術(shù)根據(jù)測量牲畜體溫來預(yù)測牲畜是否生病,從而提前防治;醫(yī)院能使用歷史醫(yī)療記錄基于數(shù)據(jù)挖掘技術(shù)找出規(guī)律,有利于醫(yī)生更好地診斷疾病。
以下是數(shù)據(jù)挖掘技術(shù)方法的相關(guān)介紹:
1、神經(jīng)**
神經(jīng)**由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲和高度容錯等特性非常適合解決數(shù)據(jù)挖掘的問題,用于分類、預(yù)測和模式識別的前饋式神經(jīng)**模型。
2、遺傳算法
遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。
3、決策樹方法
決策樹是一種常用于預(yù)測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價值的,潛在的信息。它的主要優(yōu)點是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。
4、粗集方法
粗集理論是一種研究不**、不確定知識的數(shù)學工具。粗集方法有幾個優(yōu)點:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,易于操作。粗集處理的對象是類似二維關(guān)系表的信息表。