国产色av,短篇公交车高h肉辣全集目录,一个人在线观看免费的视频完整版,最近日本mv字幕免费观看视频

首頁(yè) > 文章中心 > 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)挖掘技術(shù)范文,相信會(huì)為您的寫作帶來(lái)幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)范文第1篇

關(guān)鍵詞:數(shù)據(jù)挖掘;神經(jīng)元;方法;應(yīng)用;發(fā)展

中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 12-0000-02

一、引言

伴隨信息技術(shù)的迅猛發(fā)展,數(shù)據(jù)庫(kù)規(guī)模與應(yīng)用的不斷擴(kuò)大,大量數(shù)據(jù)隨之產(chǎn)生。新增的數(shù)據(jù)包含了重要的信息,人們希望更好地利用這些數(shù)據(jù),并通過(guò)進(jìn)行更高層次的數(shù)據(jù)分析,為決策者提供更寬廣的視野。

現(xiàn)今,很多領(lǐng)域已建立了相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)。但人們無(wú)法辨別隱藏在海量數(shù)據(jù)中有價(jià)信息,傳統(tǒng)的查詢方式無(wú)法滿足信息挖掘的需求。因此,伴隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)不斷發(fā)展并逐漸完善的一種從海量信息中提取有價(jià)潛在信息的嶄新數(shù)據(jù)分析技術(shù)------數(shù)據(jù)挖掘(Data Mining)技術(shù)應(yīng)運(yùn)而生。

二、數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘技術(shù)從1990年左右開(kāi)始,發(fā)展速度很快,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和不斷發(fā)展可使得人們對(duì)當(dāng)今世界的海量數(shù)據(jù)中隱藏著人們所需要的商業(yè)和科學(xué)信息等重要信息進(jìn)行挖掘。數(shù)據(jù)挖掘運(yùn)用到交叉學(xué)科,涉及到,包括Database、AI、Machine Learning、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)、統(tǒng)計(jì)學(xué)(statistics)、模式識(shí)別(Pattern Recognition)、信息檢索(Information Retrieval)和數(shù)據(jù)庫(kù)可視化等,因此數(shù)據(jù)庫(kù)目前還沒(méi)有明確的定義。通常普遍認(rèn)可的數(shù)據(jù)挖掘定義是:從數(shù)據(jù)庫(kù)中抽取隱含的、以前未知的、有潛在應(yīng)用價(jià)值的模型或規(guī)則等有用知識(shí)的復(fù)雜過(guò)程,是一類深層次的數(shù)據(jù)分析方法。

三、數(shù)據(jù)挖掘方法

由于數(shù)據(jù)挖掘技術(shù)研究融合了不同學(xué)科技術(shù),在研究方法上表現(xiàn)為多樣性。從統(tǒng)計(jì)學(xué)角度上劃分,數(shù)據(jù)挖掘技術(shù)模型有:線形/非線形分析、回歸/邏輯回歸分析、單/多變量分析、時(shí)間序列/最近序列分析和聚類分析等方法。通過(guò)運(yùn)用這些技術(shù)可以檢索出異常形式數(shù)據(jù),最后,利用多種統(tǒng)計(jì)和數(shù)學(xué)模型對(duì)上述數(shù)據(jù)進(jìn)行解釋,發(fā)掘出隱藏在海量數(shù)據(jù)后的規(guī)律和知識(shí)。

(一)數(shù)據(jù)挖掘統(tǒng)計(jì)

統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘技術(shù)提供了判別方法與分析方法,經(jīng)常會(huì)用到的有貝葉斯推理(Bayesian reasoning; Bayesian inference)、回歸分析(Regression analysis)、方差分析(Analysis of Variance,簡(jiǎn)稱ANOVA)等分析技術(shù)、貝葉斯推理是在估計(jì)與假設(shè)統(tǒng)計(jì)歸納基礎(chǔ)上發(fā)展的全新推理方法。貝葉斯推理在與傳統(tǒng)統(tǒng)計(jì)歸納推理方法相比較,所得出的結(jié)論不僅根據(jù)當(dāng)前觀察得到的樣本信息,還將根據(jù)推理者過(guò)去相關(guān)的經(jīng)驗(yàn)和知識(shí)來(lái)處理數(shù)據(jù)挖掘中遇到的分類問(wèn)題;回歸分析是通過(guò)輸入變量和輸出變量來(lái)確定變量之間的因果關(guān)系,通過(guò)建立回歸模型,根據(jù)實(shí)測(cè)數(shù)據(jù)求解模型的各參數(shù),若能很好的擬合,則可根據(jù)自變量進(jìn)一步預(yù)測(cè)。統(tǒng)計(jì)方法中的方差分析是通過(guò)分析研究中估計(jì)回歸直線的性能和自變量對(duì)最終回歸的貢獻(xiàn)大小,從而確定可控因素對(duì)研究結(jié)果影響力的大小。

(二)聚類分析(Cluster analysis )

聚類分析(Cluster analysis)是將一組研究對(duì)象分為相對(duì)同質(zhì)的群組(clusters)的統(tǒng)計(jì)分析技術(shù)。 同組內(nèi)的樣本具有較高相似度,常用技術(shù)有分裂/凝聚算法,劃分/增量聚類。聚類方法適用于研究群組內(nèi)的關(guān)系,并對(duì)群組結(jié)構(gòu)做出相應(yīng)評(píng)價(jià)。同時(shí),聚類分析為了更容易地使某個(gè)對(duì)象從其他對(duì)象中分離出來(lái)的方法用于檢測(cè)孤立點(diǎn)。聚類分析已被應(yīng)用于經(jīng)濟(jì)分析(Economic analysis)、模式識(shí)別(Pattern Recognition)、圖像處理(image processing)等多種領(lǐng)域。

(三)機(jī)器學(xué)習(xí)(Machine Learning)

機(jī)器學(xué)習(xí)方法經(jīng)過(guò)多年的研究已相對(duì)完善,通過(guò)建立人類的認(rèn)識(shí)模型、模仿人類的學(xué)習(xí)方法從海量數(shù)據(jù)中提取信息與知識(shí),在很多領(lǐng)域已取得了一些較滿意的成果。因此利用目前比較成熟的機(jī)器學(xué)習(xí)方法可以提供數(shù)據(jù)挖掘效率。

(四)數(shù)據(jù)匯總

數(shù)據(jù)庫(kù)中的數(shù)據(jù)和對(duì)象經(jīng)常包含原始概念層上的詳細(xì)信息,將數(shù)據(jù)集通過(guò)數(shù)據(jù)立方體和面向?qū)ο蟮臍w納方法由低概念層抽象到高概念層,并對(duì)數(shù)據(jù)歸納為更高概念層次信息的數(shù)據(jù)挖掘技術(shù)。

(五)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)

神經(jīng)網(wǎng)絡(luò)是一種模范動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。近年來(lái)在解決數(shù)據(jù)挖掘中遇到的問(wèn)題越來(lái)越受到人們的關(guān)注,源于人工神經(jīng)網(wǎng)絡(luò)具有良好的自組織自適應(yīng)性、并行處理、分布式存儲(chǔ)和高容錯(cuò)等特性,并通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,達(dá)到處理信息的目的。

(六)遺傳算法(Genetic Algorithm)

遺傳算法(Genetic Algorithm)是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過(guò)程的計(jì)算模型,是一種通過(guò)模擬自然進(jìn)化過(guò)程搜索最優(yōu)解的方法,是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。遺傳算法可直接對(duì)結(jié)構(gòu)對(duì)象進(jìn)行操作,不存在求導(dǎo)和函數(shù)連續(xù)性的限定,能自動(dòng)獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向。遺傳算法已被人們廣泛地應(yīng)用于多種學(xué)科領(lǐng)域。

(七)粗糙集

粗糙集是一種刻劃不完整性和不確定性的數(shù)學(xué)工具,能有效地分析不精確,不一致(inconsistent)、不完整(incomplete) 等各種不完備的信息,還可以對(duì)數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律。粗糙集理論應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

四、數(shù)據(jù)挖掘技術(shù)發(fā)展趨勢(shì)

當(dāng)前,數(shù)據(jù)挖掘技術(shù)不斷創(chuàng)新與發(fā)展,數(shù)據(jù)挖掘技術(shù)開(kāi)發(fā)研究人員、系統(tǒng)應(yīng)用人員所面對(duì)的主要問(wèn)題:高效、有效的數(shù)據(jù)挖掘方法和相應(yīng)系統(tǒng)的開(kāi)發(fā);交互和集成的數(shù)據(jù)挖掘環(huán)境的建立以及在實(shí)際應(yīng)用中解決大型問(wèn)題。

五、小結(jié)

數(shù)據(jù)挖掘技術(shù)涉及到多種學(xué)科技術(shù),如:數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、高性能計(jì)算、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索及空間數(shù)據(jù)分析等。因此,數(shù)據(jù)挖掘是非常有前景的研究領(lǐng)域,隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,它將會(huì)廣泛而深入地應(yīng)用到人類社會(huì)的各個(gè)領(lǐng)域。

參考文獻(xiàn):

[1]羅可,蔡碧野.數(shù)據(jù)挖掘及其發(fā)展研究[J].計(jì)算機(jī)工程與應(yīng)用,2002

[2]趙丹群.數(shù)據(jù)挖掘:原理、方法及其應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2000

[3]劉毅勇.情報(bào)分析智能輔助決策方法及其軍事應(yīng)用[M].北京:國(guó)防大學(xué)出版社,2001

[4]唐曉萍.數(shù)據(jù)挖掘技術(shù)及其在指揮控制系統(tǒng)中的應(yīng)用[J].火力與指揮控制,2002

[5]Alex Berson,Stephen J.Smith,Data Warehousing,Data Mining,&OLAP[M], McCraw-Hill Book Co,1997

[6]吳修霆.SAS數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)[J].微電腦世界,2000, Vol.14:pp44-45

[7] INDERPAL BHANDARI, EDWARD COLET, JENNIFER PARKER, ZACHARYPINES, RAJIV PRATAP, KRISHNAKMAR RAMANUJAM. Advanced Scout: Data Mining and Knowledge Discovery in NBA Data. Data Mining and Knowledge Discovery,1997,1:121~125

數(shù)據(jù)挖掘技術(shù)范文第2篇

關(guān)鍵詞:數(shù)據(jù)挖掘;用戶偏好;考試系統(tǒng);入侵檢測(cè)

中圖法分類號(hào):TP274文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2010)22-6231-02

Survey on Data Mining Technology

WANG Wen

(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)

Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.

Key words: data mining; user preference; examination system; intrusion detection system

隨著時(shí)代的發(fā)展,計(jì)算機(jī)科學(xué)在以飛快的速度前進(jìn)著。在計(jì)算機(jī)科學(xué)的眾多領(lǐng)域中,人工智能是最富有挑戰(zhàn)性和創(chuàng)造性的一個(gè)領(lǐng)域。近幾十年來(lái),隨著人工智能技術(shù)的日漸成熟,人們對(duì)人工智能的研究更加深入,對(duì)人工智能更加重視。科學(xué)界對(duì)于人工智能的重要性也已形成共識(shí)。

自進(jìn)入21世紀(jì)以來(lái),電子數(shù)據(jù)獲取與計(jì)算機(jī)技術(shù)方面的不斷發(fā)展以及網(wǎng)絡(luò)的廣泛普及與應(yīng)用,人們?nèi)粘I钪薪邮盏臄?shù)據(jù)和信息較以往正以飛快的速度增加,因而形成了獨(dú)特的知識(shí)爆炸時(shí)代。就在最近幾十年很多超大型數(shù)據(jù)庫(kù)的產(chǎn)生使得整個(gè)社會(huì)發(fā)生著天翻地覆的變化,遍及銀行存款、超級(jí)市場(chǎng)銷售、粒子物理、天文學(xué)、化學(xué)、醫(yī)學(xué)以及政府統(tǒng)計(jì)等領(lǐng)域。在這個(gè)數(shù)字化、信息化時(shí)代,這么大規(guī)模的數(shù)據(jù)庫(kù)以及以后可能誕生的更大規(guī)模的數(shù)據(jù)庫(kù)的數(shù)據(jù)管理問(wèn)題將會(huì)是以后對(duì)數(shù)據(jù)處理的一個(gè)重要關(guān)注點(diǎn)。眾多科技工作者共同關(guān)注的焦點(diǎn)集中在了如何從這些大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)有用的、信息、模式以及如何實(shí)現(xiàn)有效的數(shù)據(jù)處理方法。因而“數(shù)據(jù)挖掘”(Data Mining) 的新領(lǐng)域逐漸走進(jìn)了人們的事業(yè),并且在人們的關(guān)注和不斷研究下飛速發(fā)展,這是一個(gè)與統(tǒng)計(jì)學(xué)、人工智能、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)技術(shù)以及高性能并行計(jì)算等領(lǐng)域都有很大相關(guān)的新學(xué)科,正是計(jì)算機(jī)學(xué)科的一個(gè)研究重點(diǎn)。

1 數(shù)據(jù)挖掘的一般過(guò)程

數(shù)據(jù)挖掘一般分為如下四個(gè)步驟(圖1)。

1.1 數(shù)據(jù)預(yù)處理

收集和凈化來(lái)自各種數(shù)據(jù)源或數(shù)據(jù)倉(cāng)庫(kù)的信息,并加以存儲(chǔ), 一般存于數(shù)據(jù)倉(cāng)庫(kù)中。

1.2 模型搜索

利用數(shù)據(jù)挖掘在數(shù)據(jù)庫(kù)中匹配模型,這個(gè)搜索過(guò)程可以由系統(tǒng)自動(dòng)執(zhí)行,自下而上搜索原始數(shù)據(jù)以發(fā)現(xiàn)它們之間的某種聯(lián)系;也可以進(jìn)行用戶交互,由分析人員發(fā)問(wèn),自頂向下尋找以驗(yàn)證假設(shè)的正確性。一個(gè)問(wèn)題的搜索過(guò)程可能用到許多模型,如神經(jīng)網(wǎng)絡(luò)、基于規(guī)則的系統(tǒng)(決策樹(shù))、機(jī)器學(xué)習(xí)、基于實(shí)例的推理等。

1.3 評(píng)價(jià)輸出結(jié)果

一般來(lái)說(shuō),數(shù)據(jù)挖掘的搜索過(guò)程需要反復(fù)多次,當(dāng)分析人員評(píng)價(jià)輸出結(jié)果后,它們可能會(huì)形成一些新的問(wèn)題,或者要求對(duì)某一方面作更精細(xì)的查詢,通過(guò)反復(fù)的搜索過(guò)程即可滿足分析人員的這種需求。

1.4 生成報(bào)告

知識(shí)的發(fā)現(xiàn)過(guò)程可以由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表示等幾個(gè)步驟組成。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互,把用戶關(guān)心的模式提交給廣大用戶,或作為新的知識(shí)存放在知識(shí)庫(kù)中。

2 數(shù)據(jù)挖掘應(yīng)用

2.1 數(shù)據(jù)挖掘在實(shí)現(xiàn)網(wǎng)站用戶偏好度的應(yīng)用

數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問(wèn)題。使數(shù)據(jù)能夠被更加高效的利用,對(duì)無(wú)用的數(shù)據(jù)加以摒棄,是數(shù)據(jù)挖掘技術(shù)最主要的實(shí)現(xiàn)形式,也是其最重要的應(yīng)用方式。傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)相對(duì)于Web的數(shù)據(jù)而言,其結(jié)構(gòu)性很強(qiáng),是完全結(jié)構(gòu)化的數(shù)據(jù),而半結(jié)構(gòu)化則是Web上的數(shù)據(jù)最大特點(diǎn)。因而,面向單個(gè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘較之面向Web的數(shù)據(jù)挖掘比要簡(jiǎn)單許多。據(jù)統(tǒng)計(jì),網(wǎng)站上的絕大部分內(nèi)容對(duì)絕大部分用戶來(lái)說(shuō)是無(wú)用的信息。事實(shí)是對(duì)于某個(gè)特定用戶來(lái)說(shuō),其關(guān)心的內(nèi)容僅是網(wǎng)站上極小部分的內(nèi)容,而網(wǎng)站上提供的更多的內(nèi)容對(duì)于這個(gè)用戶來(lái)說(shuō)是其不感興趣的,并且過(guò)多的信息往往會(huì)掩蓋有用的信息,使得用戶的查詢效率降低,并且對(duì)于網(wǎng)站也不是一件利事。

對(duì)于Web數(shù)據(jù)挖掘技術(shù)而言,半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問(wèn)題是應(yīng)當(dāng)首要解決的問(wèn)題。解決Web上的異構(gòu)數(shù)據(jù)的集成與查詢問(wèn)題,有一個(gè)模型來(lái)清晰地描述Web上的數(shù)據(jù)是很必要的。因此,針對(duì)數(shù)據(jù)半結(jié)構(gòu)化的Web數(shù)據(jù)的特點(diǎn),尋找一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型至關(guān)重要。并且除此定義一個(gè)半結(jié)構(gòu)化數(shù)據(jù)模型之外,一種半結(jié)構(gòu)化模型抽取技術(shù)(自動(dòng)地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù))也是應(yīng)當(dāng)提出的。因而半結(jié)構(gòu)化模型和半結(jié)構(gòu)化數(shù)據(jù)模型抽取技術(shù)是面向Web的數(shù)據(jù)挖掘?qū)崿F(xiàn)的重要前提。

用戶瀏覽網(wǎng)站上的內(nèi)容時(shí),他會(huì)被很的多因素影響,網(wǎng)頁(yè)的外觀,信息標(biāo)題,網(wǎng)頁(yè)鏈接以及個(gè)人的興趣和習(xí)慣等等。我們可以設(shè)定合理的假設(shè),建立他們之間的模型,利用以上提到的方法解決用戶偏好度的問(wèn)題。

2.2 數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應(yīng)用

數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應(yīng)用最主要體現(xiàn)在題庫(kù)的構(gòu)建,下面分別介紹題庫(kù)的構(gòu)建中數(shù)據(jù)挖掘的應(yīng)用情況。

在設(shè)計(jì)數(shù)據(jù)庫(kù)方面,數(shù)據(jù)庫(kù)主要由題庫(kù)、答案庫(kù)和答案關(guān)鍵字庫(kù)構(gòu)成,題型庫(kù)又涵括科目、題號(hào)、題型、題目、難度、分值等字段;答案庫(kù)中包含科目、題號(hào)、分值、答案以及在同一題中有不同答案時(shí)應(yīng)提供的不同答案序號(hào)等字段;答案關(guān)鍵字庫(kù)中有題號(hào)、答案序號(hào)、權(quán)重和答案關(guān)鍵字。此后在將答案錄入答案庫(kù)。對(duì)于客觀題而言,僅僅需要錄入唯一的答案;但對(duì)于主觀題而言,則需要盡量給出多個(gè)參考答案并將每個(gè)答案的關(guān)鍵字及其所對(duì)應(yīng)的權(quán)值、答案序號(hào)輸入答案關(guān)鍵字庫(kù)。

通常有兩類數(shù)據(jù)挖掘方法:①統(tǒng)計(jì)型,應(yīng)用概率分析、相關(guān)性、聚類分析和判別分析等技術(shù)得以實(shí)現(xiàn);②通過(guò)人工智能中的機(jī)器學(xué)習(xí),經(jīng)過(guò)訓(xùn)練以及學(xué)習(xí)輸入大量的樣品集,以得出需要的模式或參數(shù)。由于每一種方法都根據(jù)其特點(diǎn)都有其優(yōu)勢(shì)以及相應(yīng)的引用領(lǐng)域,最后結(jié)果的質(zhì)量和效果將受到數(shù)據(jù)挖掘技術(shù)選擇的影響,采用多種技術(shù)結(jié)合的方法,其各自的優(yōu)勢(shì)可以達(dá)到互補(bǔ)的要求,從而實(shí)現(xiàn)最佳配置。下面介紹了兩種數(shù)據(jù)挖掘方法: ①?zèng)Q策樹(shù)算法:為每個(gè)問(wèn)題的答案構(gòu)造一個(gè)二叉樹(shù),每個(gè)分支或者是一個(gè)新的決策點(diǎn),或者是一個(gè)葉子節(jié)點(diǎn)。在沿著決策樹(shù)從上到下的遍歷過(guò)程中,對(duì)每個(gè)問(wèn)題的不同回答導(dǎo)致不同的分支,最后到達(dá)一個(gè)葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)都會(huì)對(duì)應(yīng)確定的權(quán)值,通過(guò)對(duì)權(quán)值的計(jì)算判定得分;②模糊論方法:利用模糊集合理論,對(duì)實(shí)際問(wèn)題進(jìn)行模糊判斷、模糊決策、模糊模式識(shí)別、模糊簇聚分析。由于主觀題答案很靈活,答案不可能完全匹配,采用此方法將考生答案與答案庫(kù)中的答案進(jìn)行對(duì)照,以確定答案的正確度,從而更客觀準(zhǔn)確地評(píng)定主觀題分?jǐn)?shù)。

2.3 數(shù)據(jù)挖掘在網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)方面的應(yīng)用

入侵檢測(cè)就是通過(guò)運(yùn)用一些分析方法對(duì)從各種渠道獲得的反映網(wǎng)絡(luò)狀況和網(wǎng)絡(luò)行為的數(shù)據(jù)進(jìn)行分析、提煉,再根據(jù)分析結(jié)果對(duì)這些數(shù)據(jù)進(jìn)行評(píng)價(jià),從而能夠識(shí)別出正常和異常的數(shù)據(jù)或者對(duì)潛在的新型入侵做出預(yù)測(cè),以保證網(wǎng)絡(luò)的安全運(yùn)行。

基于分布式數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)要對(duì)一個(gè)網(wǎng)段上的信息進(jìn)行全面而細(xì)致的監(jiān)測(cè),同時(shí)在網(wǎng)絡(luò)上多個(gè)點(diǎn)進(jìn)行數(shù)據(jù)采集,如網(wǎng)關(guān)和特別需要保護(hù)的服務(wù)器等。整個(gè)系統(tǒng)構(gòu)成分為本地分類器、規(guī)則學(xué)習(xí)模塊和集中分類器三塊基本構(gòu)件。本地分類器負(fù)責(zé)對(duì)從網(wǎng)絡(luò)上各個(gè)點(diǎn)采集到的數(shù)據(jù)通過(guò)預(yù)處理模塊去除掉無(wú)效數(shù)據(jù),并將原始數(shù)據(jù)處理成為以后進(jìn)行數(shù)據(jù)挖掘算法可識(shí)別的格式,以實(shí)現(xiàn)對(duì)數(shù)據(jù)的初步檢測(cè)和處理。本地分類器有2個(gè)輸出:一個(gè)輸出為分類數(shù)據(jù),用于提交給規(guī)則學(xué)習(xí)模塊,另外一個(gè)為數(shù)據(jù)摘要,用于提交給集中分類器。規(guī)則學(xué)習(xí)模塊負(fù)責(zé)對(duì)標(biāo)記過(guò)的分類數(shù)據(jù)進(jìn)行深層次的數(shù)據(jù)挖掘,從而學(xué)習(xí)到新的知識(shí)。學(xué)習(xí)到的知識(shí)被直接錄入到規(guī)則庫(kù)中,這樣保證了規(guī)則庫(kù)可以根據(jù)網(wǎng)上的變化可以隨時(shí)達(dá)到更新的需求。另外一種方式是通過(guò)規(guī)則學(xué)習(xí)模塊實(shí)現(xiàn)人工訓(xùn)練系統(tǒng),從而實(shí)現(xiàn)升級(jí)規(guī)則庫(kù)的需求。最后將分布式數(shù)據(jù)挖掘的結(jié)果形成數(shù)據(jù)摘要發(fā)送給集中分類器,由集中分類器對(duì)各點(diǎn)數(shù)據(jù)摘要進(jìn)行匯集,從而做出綜合判斷,達(dá)到有效地檢測(cè)協(xié)同攻擊的效果,最后將檢測(cè)結(jié)果提交給決策模塊。

3 結(jié)束語(yǔ)

數(shù)據(jù)挖掘技術(shù)是人工智能學(xué)科的一個(gè)重要分支,也是現(xiàn)代計(jì)算機(jī)科學(xué)的一個(gè)研究重點(diǎn)。現(xiàn)在基于數(shù)據(jù)挖掘技術(shù)的科研可以說(shuō)是碩果累累,自從人工智能這個(gè)概念被提出來(lái)之后,其發(fā)展一直是計(jì)算機(jī)學(xué)科的熱門而且其分支廣而泛,都在不同的領(lǐng)域發(fā)揮著十分重要的作用。相信在計(jì)算機(jī)研究人員的不斷努力下數(shù)據(jù)挖掘會(huì)在更多的方面服務(wù)人們,并且期待著新的理論的提出。

參考文獻(xiàn):

[1] 何克抗.建立題庫(kù)的理論[M].長(zhǎng)沙:國(guó)防科技大學(xué)出版社,1995.

[2] 劉波,段麗艷.一個(gè)基于Internet的通用題庫(kù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].華南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2000(1):39-44.

[3] 王實(shí),高文.數(shù)據(jù)挖掘中的聚類方法[J].計(jì)算機(jī)科學(xué),2000,27(4):42-45.

數(shù)據(jù)挖掘技術(shù)范文第3篇

隨著科技的進(jìn)一步發(fā)展,已經(jīng)帶動(dòng)著各大領(lǐng)域的創(chuàng)新和發(fā)展。而我國(guó)在近年來(lái),城市信息化的普及也在不斷推進(jìn),網(wǎng)絡(luò)技術(shù)的改革和發(fā)展也顯得格外重要。而特別很多企業(yè)對(duì)于自身的信息和數(shù)據(jù)儲(chǔ)存、共享以及處理都格外注重,要求技術(shù)本身要包含安全性、便捷性以及可靠性。,而是在大數(shù)據(jù)提出后,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了一種新的主流技術(shù),而研究數(shù)據(jù)挖掘技術(shù)的理念、方法以及應(yīng)用領(lǐng)域,將對(duì)我國(guó)工程施工領(lǐng)域的未來(lái)帶來(lái)更多的機(jī)遇和挑戰(zhàn)。

關(guān)鍵詞:

大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)分析和研究運(yùn)用數(shù)據(jù)挖掘技術(shù),也被稱為數(shù)字處理技術(shù),顧名思義,就是對(duì)于目前各大企業(yè)的內(nèi)部數(shù)據(jù),進(jìn)行整理、調(diào)整、挖掘?qū)嵤┮约霸u(píng)估等一系列處理操作,其主要的目標(biāo)是保證全局?jǐn)?shù)據(jù)都能夠得到充分的優(yōu)化。而大數(shù)據(jù)則是區(qū)分于以往抽樣調(diào)查的方法,而是對(duì)于全局?jǐn)?shù)據(jù)進(jìn)行分析,從而保證分析的全面以及完成。而大數(shù)據(jù)技術(shù)也包含4個(gè)優(yōu)點(diǎn),即高數(shù)量、高速度、多元化以及高價(jià)值。而筆者將通過(guò)本文,就大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用進(jìn)行分析和探討。

1相關(guān)概念的簡(jiǎn)介

1.1大數(shù)據(jù)的概念關(guān)于大數(shù)據(jù)的理念提出,可以追溯到麥肯錫研究院于2011年的《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域》,其中闡述的觀念就涵蓋數(shù)據(jù)方面,即數(shù)據(jù)已經(jīng)融入到了人們的日常生活中,也是生產(chǎn)運(yùn)作的一個(gè)重要因素。而大數(shù)據(jù)的運(yùn)用,對(duì)于消費(fèi)以及生產(chǎn)水平都是一種有效的提升提升,根據(jù)美國(guó)曾經(jīng)的《大數(shù)據(jù)研究和發(fā)展倡議》資料,截至2011年一年,全球總的數(shù)據(jù)就增加了1.8ZB,而進(jìn)行人均計(jì)算,相當(dāng)于每個(gè)人都具有至少200GB的數(shù)據(jù)資源,而且這一數(shù)據(jù)還在呈現(xiàn)出日益增長(zhǎng)的趨勢(shì),根據(jù)統(tǒng)計(jì)計(jì)算,這一數(shù)值將會(huì)按照約為50%/年的速度增長(zhǎng)。

1.2數(shù)據(jù)挖掘作為一個(gè)新型學(xué)科,數(shù)據(jù)挖掘技術(shù)源于20世紀(jì)的80年代,那時(shí)其效用與目前存在本質(zhì)差異,科學(xué)家最初研究大數(shù)據(jù),主要是用于一些人工智能技術(shù)的開(kāi)發(fā)。簡(jiǎn)而言之,技術(shù)層面上,數(shù)據(jù)挖掘就是一個(gè)對(duì)數(shù)據(jù)進(jìn)行發(fā)掘創(chuàng)新的過(guò)程,即要求目標(biāo)數(shù)據(jù)具有隱蔽性、挖掘價(jià)值以及挖掘潛力,而且需要操作者在一堆冗雜的、隨機(jī)的、模糊的數(shù)據(jù)庫(kù)中進(jìn)行挖掘;而對(duì)于商業(yè)層面上來(lái)說(shuō),數(shù)據(jù)挖掘就是在一些大量的數(shù)據(jù)信息中獲得規(guī)律以及價(jià)值信息,從而為決策提供重要的知識(shí)憑據(jù)。

2數(shù)據(jù)挖掘的研究手段

對(duì)于數(shù)據(jù)挖掘而言,不同的研究手段將是其開(kāi)展的重要基礎(chǔ),而研究手段的決定,主要需要依靠科學(xué)的計(jì)算為依據(jù),分析和對(duì)比數(shù)據(jù)中存在的一些不為人知的規(guī)則,然后通過(guò)研究手段的改變?nèi)?yīng)付不同的問(wèn)題,對(duì)于實(shí)際操作來(lái)說(shuō),就是針對(duì)不同的數(shù)據(jù)找出不同的解決方法,而常見(jiàn)數(shù)據(jù)挖掘的研究手段主要可以分為四類,即聚類研究、分類和預(yù)測(cè)以及關(guān)聯(lián)研究。

2.1聚類研究將抽選的數(shù)據(jù)或者對(duì)象的庫(kù)進(jìn)行類似“分類”的聚類劃分,然后再將其中的相同或者相近的數(shù)據(jù)劃分為一個(gè)組類,由此建立起多個(gè)組類開(kāi)展研究的過(guò)程。整個(gè)過(guò)程突出的是一種無(wú)知識(shí)基礎(chǔ)、無(wú)監(jiān)督管控的學(xué)習(xí)過(guò)程。而整個(gè)過(guò)程由于分類研究有本質(zhì)的差異,因?yàn)榫垲愌芯吭谑孪雀緹o(wú)法得到目標(biāo)的重要屬性數(shù)據(jù),而這種分析方法主要可以用于多個(gè)區(qū)域,例如心理、統(tǒng)計(jì)、醫(yī)藥、銷售以及數(shù)據(jù)識(shí)別等,而根據(jù)其隸屬度的取值,有能將其分為兩種研究方法,即硬聚類與模糊聚類,對(duì)于前者來(lái)說(shuō),就是將目標(biāo)按照影響標(biāo)準(zhǔn)進(jìn)行劃分,即目標(biāo)如果屬于某類,必定不屬于其他類;而對(duì)于后者來(lái)說(shuō),主要取決與隸屬度的取值不同。而劃分過(guò)程可能會(huì)將目標(biāo)劃分入多個(gè)聚類中。此外聚類的計(jì)算方法也能分為多種,即包含密度算法、層次算法、劃分算法、網(wǎng)格算法以及模型算法等等。

2.2分類與估測(cè)對(duì)于分類與數(shù)值估測(cè)來(lái)說(shuō),都是屬于是問(wèn)題預(yù)測(cè)方式,其中前者要求估測(cè)各個(gè)類中的標(biāo)號(hào),這些標(biāo)號(hào)都是分散且無(wú)規(guī)律的,而估測(cè)方法可以采用函數(shù)模型,要求模型類型為連續(xù)值函數(shù)。分類估測(cè)作為數(shù)據(jù)挖掘的起始工作,主要需要反應(yīng)已經(jīng)獲知的訓(xùn)練數(shù)據(jù)庫(kù)的特點(diǎn),從而根據(jù)以上基礎(chǔ)完成其中對(duì)每一類的情況以及特點(diǎn)完成相應(yīng)的分類操作,而整個(gè)操作也是受到督促的,對(duì)于一般的分類算法可以有決策樹(shù)、粗糙集、貝葉斯、遺傳等算法,而估測(cè)主要是基于分類以及回歸基礎(chǔ),估測(cè)數(shù)據(jù)將來(lái)的動(dòng)向,即包含局勢(shì)外推、時(shí)間序列以及回歸分析幾類。

2.3關(guān)聯(lián)研究關(guān)聯(lián)研究是源于自然生物間微妙的關(guān)系,而某事情的發(fā)生和發(fā)展也會(huì)引發(fā)連鎖的事情發(fā)展,也就類似所謂“蝴蝶效應(yīng)”的定義。而關(guān)聯(lián)研究的研究目標(biāo)即是研究物與物之間的微妙關(guān)系,包含一些依賴關(guān)系等等,從而找出其中的規(guī)則,基于規(guī)則,分析將來(lái)的動(dòng)向。以購(gòu)物為例,分析購(gòu)物者的心理規(guī)律以及習(xí)慣,可以從他們對(duì)于購(gòu)物的一系列表現(xiàn),例如購(gòu)物籃的物品類型、放置規(guī)律、購(gòu)物消費(fèi)理念、購(gòu)物環(huán)境需求等等,而掌握這些規(guī)律,足以讓一個(gè)銷售企業(yè)獲得巨大的消費(fèi)市場(chǎng)以及商機(jī)。

3大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘的運(yùn)用

3.1數(shù)據(jù)準(zhǔn)備準(zhǔn)備流程需要依附于研究者已經(jīng)建立起長(zhǎng)期且豐富數(shù)據(jù)資源的數(shù)據(jù)庫(kù),而根據(jù)這些無(wú)規(guī)則的原始數(shù)據(jù)進(jìn)行相應(yīng)的挖掘前的準(zhǔn)備的工作,例如數(shù)據(jù)的處理、擇取、清除、推敲以及轉(zhuǎn)變,作為基礎(chǔ)的流程,數(shù)據(jù)準(zhǔn)備操作在整個(gè)流程中起到重要的基礎(chǔ)作用。

3.2數(shù)據(jù)挖掘開(kāi)展數(shù)據(jù)挖掘操作,需要根據(jù)挖掘?qū)ο蟮那闆r擇選最優(yōu)的計(jì)算方法,從而獲取其中的規(guī)律性,例如對(duì)應(yīng)采用決策樹(shù)算法、分類算法、神經(jīng)網(wǎng)絡(luò)算法以及Apriori算法等。

3.3數(shù)據(jù)挖掘的模式評(píng)估研究模式評(píng)估的對(duì)象主要是通過(guò)數(shù)據(jù)挖掘處理過(guò)程數(shù)據(jù),而評(píng)估流程是了解、研究且取得其中數(shù)據(jù)的規(guī)則,然后對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)變“翻譯”成通俗易懂的語(yǔ)言,供人們?nèi)パ芯亢退伎肌?/p>

3.4數(shù)據(jù)挖掘的知識(shí)應(yīng)用知識(shí)應(yīng)用是數(shù)據(jù)挖掘的最后一步,通常知識(shí)運(yùn)用就是一種現(xiàn)實(shí)運(yùn)用的過(guò)程,通過(guò)數(shù)據(jù)準(zhǔn)備、挖掘、研究評(píng)估,最后將結(jié)果數(shù)據(jù)或者規(guī)律用于現(xiàn)實(shí)中,從而體現(xiàn)數(shù)據(jù)的本身的價(jià)值,這就是知識(shí)應(yīng)用的內(nèi)涵。

4大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘的運(yùn)用

4.1市場(chǎng)營(yíng)銷方面市場(chǎng)營(yíng)銷行業(yè)已經(jīng)是目前數(shù)據(jù)挖掘采用最多的行業(yè),數(shù)據(jù)挖掘的作用主要體現(xiàn)在的對(duì)于消費(fèi)者群體的消費(fèi)習(xí)慣以及行為進(jìn)行解析,從而改變銷售方法,提升產(chǎn)品的銷售量,此外,除了一些購(gòu)物消費(fèi)以外,數(shù)據(jù)挖掘技術(shù)以及拓展到了各大金融行業(yè),例如保險(xiǎn)行業(yè)、銀行行業(yè)以及電子商務(wù)行業(yè)等等。例如:在市場(chǎng)營(yíng)銷方面,采用數(shù)據(jù)挖掘中的聚類研究,即客戶一系列無(wú)規(guī)則、無(wú)意識(shí)的行為數(shù)據(jù),對(duì)他們進(jìn)行識(shí)別,即根據(jù)客戶的忠誠(chéng)度、消費(fèi)意識(shí)進(jìn)行分類,幫助企業(yè)尋找其中的潛在客戶以及固定客戶群。

4.2數(shù)據(jù)挖掘的科學(xué)分析科學(xué)本身就是一個(gè)尋找規(guī)律、發(fā)現(xiàn)規(guī)律以及利用規(guī)律的過(guò)程,而且任何科學(xué)研究都是需要基于數(shù)據(jù)作為基礎(chǔ),所以數(shù)據(jù)挖掘?qū)τ诳茖W(xué)領(lǐng)域也具有重要的意義和價(jià)值,特別是針對(duì)一些未知的事物、領(lǐng)域或者知識(shí),通過(guò)數(shù)據(jù)挖掘可以有效展示數(shù)據(jù)規(guī)則。例如對(duì)于太空行星的分析,遺傳基因DNA的數(shù)據(jù)以及遺傳規(guī)律等。

4.3制造業(yè)與其他行業(yè)不同,制造業(yè)運(yùn)用數(shù)據(jù)挖掘的目的主要是產(chǎn)品質(zhì)量檢查方面,例如研究產(chǎn)品的數(shù)據(jù),找出其中規(guī)則。分析整體生產(chǎn)流程,解析其中過(guò)程,找出影響生產(chǎn)質(zhì)量以及效率的問(wèn)題,然后通過(guò)對(duì)這些問(wèn)題進(jìn)行解決,提升企業(yè)經(jīng)濟(jì)效益。對(duì)于制造業(yè)而言,數(shù)據(jù)挖掘運(yùn)用主要體現(xiàn)在決策方面,即首先通過(guò)數(shù)據(jù)篩選,獲取有用的知識(shí)和數(shù)據(jù),然后采用決策樹(shù)算法,統(tǒng)計(jì)決策,然后選擇其中正確的決策,即像根據(jù)目前產(chǎn)品的流行情況,預(yù)測(cè)目前生產(chǎn)產(chǎn)品的受歡迎度,然后決策生產(chǎn)的時(shí)間以及周期。

4.4教育方面對(duì)于教育行業(yè)來(lái)說(shuō),最重要的除了教師的教學(xué)方法以外,學(xué)生的學(xué)習(xí)情況、心理動(dòng)向以及教學(xué)評(píng)估都是十分重要的,采用數(shù)據(jù)挖掘技術(shù),則可以有效將這些數(shù)據(jù)通過(guò)分類、篩選以及處理,得出有效的數(shù)據(jù)規(guī)則,供學(xué)校教學(xué)改革時(shí)進(jìn)行參考。例如:教學(xué)質(zhì)量評(píng)估數(shù)據(jù)挖掘模塊的開(kāi)發(fā),即將教學(xué)質(zhì)量相關(guān)的項(xiàng)目通過(guò)QSLSevrer進(jìn)行整合和存儲(chǔ),例如教學(xué)準(zhǔn)備、教學(xué)內(nèi)容、教學(xué)方式以及教學(xué)態(tài)度等,最后學(xué)生可以進(jìn)行自行瀏覽并且完成評(píng)估,而評(píng)估結(jié)果則會(huì)上傳系統(tǒng)進(jìn)行最后通過(guò)數(shù)據(jù)挖掘,篩選其中有用的信息,再通過(guò)Apr1ori算法挖掘其中關(guān)聯(lián)規(guī)律。

5結(jié)語(yǔ)

雖然數(shù)據(jù)挖掘技術(shù)不是一項(xiàng)新興的技術(shù),但是其還具有較大的研究?jī)r(jià)值與運(yùn)用前景,特別是在特殊領(lǐng)域的運(yùn)用,對(duì)于一系列數(shù)據(jù)進(jìn)行科學(xué)冗雜的處理,然后分析其中規(guī)則價(jià)值,可以有效提升各大行業(yè)的經(jīng)濟(jì)效益。

參考文獻(xiàn)

[1]趙倩倩,程國(guó)建,冀乾宇,戎騰學(xué).大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J].電腦知識(shí)與技術(shù),2014,11(33):7831-7833.

[2]韓英.淺析大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與精細(xì)管理[J].成都航空職業(yè)技術(shù)學(xué)院學(xué)報(bào),2013,12(04):63-71.

數(shù)據(jù)挖掘技術(shù)范文第4篇

關(guān)鍵詞:數(shù)據(jù)挖掘;決策算法;遺傳算法;近鄰算法

中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712 (2013) 04-0065-01

一、數(shù)據(jù)挖掘概念及技術(shù)

數(shù)據(jù)挖掘就是又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-DiscoveryinDatabases,簡(jiǎn)稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性(屬于Associationrulelearning)的信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。其實(shí)實(shí)質(zhì)是一種透過(guò)數(shù)理模式來(lái)分析企業(yè)內(nèi)儲(chǔ)存的大量資料,以找出不同的客戶或市場(chǎng)劃分,分析出消費(fèi)者喜好和行為的方法。其方法如下:

(一)人工神經(jīng)網(wǎng)絡(luò):數(shù)據(jù)挖掘中使用最為廣泛的技術(shù),神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法就是通過(guò)模仿人的神經(jīng)系統(tǒng)來(lái)反復(fù)訓(xùn)練學(xué)習(xí)數(shù)據(jù)集,從待分析的數(shù)據(jù)中發(fā)現(xiàn)用于預(yù)測(cè)和分類的模式。神經(jīng)元網(wǎng)絡(luò)適用于結(jié)果比可理解性更重要的分類和預(yù)測(cè)的復(fù)雜情況,可用于聚類、關(guān)聯(lián)、演變分析和離散點(diǎn)分析。

(二)決策樹(shù)歸納算法:從關(guān)系數(shù)據(jù)庫(kù)中提取關(guān)聯(lián)規(guī)則是主要的數(shù)據(jù)挖掘方法之一,挖掘關(guān)聯(lián)是通過(guò)搜索系統(tǒng)中的所有事物,并從中找到出現(xiàn)條件概率較高的模式,適合于探測(cè)式知識(shí)的發(fā)現(xiàn),廣泛用于醫(yī)學(xué)、制造和生產(chǎn)、金融分析、天文學(xué)和分子生物學(xué)。

(三)遺傳算法:分類和預(yù)測(cè)是數(shù)據(jù)分析的兩種重要形式,可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。主要方法包括:決策樹(shù),判定樹(shù)、貝葉斯法、BP神經(jīng)網(wǎng)絡(luò)算法、遺傳算法、粗糙集、模糊集等。預(yù)測(cè)方法有經(jīng)典的統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等。

(四)近鄰算法。是對(duì)差異和極端特例的描述,揭示事物偏離常規(guī)的異常現(xiàn)象,如標(biāo)準(zhǔn)類外的特例、數(shù)據(jù)聚類外的離群值等。所有這方面知識(shí)都可以在不同的概念層次上被發(fā)現(xiàn),并隨著概念層次的提升,從微觀到宏觀,以滿足不同用戶不同層次決策的需要。

(五)規(guī)則推導(dǎo):屬于無(wú)指導(dǎo)學(xué)習(xí)。對(duì)象應(yīng)該根據(jù)最大化類的相似性、最小化類的相似性的原則進(jìn)行聚類或分組。

(六)復(fù)雜類型的數(shù)據(jù)挖掘:是數(shù)據(jù)挖掘技術(shù)的當(dāng)前一個(gè)重要的研究領(lǐng)域,極大提升了CRM數(shù)據(jù)分析能力的深度和廣度,主要包括:多媒體數(shù)據(jù)挖掘、文本挖掘和web挖掘等。

二、數(shù)據(jù)挖掘的實(shí)施

數(shù)據(jù)挖掘研究具有廣泛的應(yīng)用前景,它可以應(yīng)用于決策支持系統(tǒng),也可以應(yīng)用于數(shù)據(jù)庫(kù)管理系統(tǒng),現(xiàn)在關(guān)鍵問(wèn)題是如何實(shí)施,以下談?wù)摂?shù)據(jù)挖掘步驟如下:

(一)理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源(understanding)。

(二)獲取相關(guān)知識(shí)與技術(shù)(acquisition)。

(三)整合與檢查數(shù)據(jù)(integrationandchecking)。

(四)去除錯(cuò)誤或不一致的數(shù)據(jù)(datacleaning)。

(五)建立模型和假設(shè)(modelandhypothesisdevelopment)。

(六)實(shí)際數(shù)據(jù)挖掘工作(datamining)。

(七)測(cè)試和驗(yàn)證挖掘結(jié)果(testingandverification)。

(八)解釋和應(yīng)用(interpretationanduse)。

由上述步驟可看出,數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與規(guī)劃工作,事實(shí)上許多專家都認(rèn)為整套數(shù)據(jù)挖掘的過(guò)程中,有80%的時(shí)間和精力是花費(fèi)在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接。可見(jiàn),在進(jìn)行數(shù)據(jù)挖掘技術(shù)的分析之前,還有許多準(zhǔn)備工作要完成。

三、數(shù)據(jù)挖掘應(yīng)用現(xiàn)狀和存在的問(wèn)題

數(shù)據(jù)挖掘所有處理的問(wèn)題就是在龐大的數(shù)據(jù)庫(kù)中找出有價(jià)值的隱藏事件,并且加以分析,獲取有意義的消息,歸納出有用的結(jié)構(gòu),作為企業(yè)決策的依據(jù)。在零售業(yè)中商家從顧客購(gòu)買商品發(fā)現(xiàn)一定的關(guān)系,提供打折購(gòu)物卷等;保險(xiǎn)金融行業(yè)利用數(shù)據(jù)挖掘可以辨別出欺詐行為;在企業(yè)中,半導(dǎo)體生產(chǎn)和測(cè)試過(guò)程差生大量數(shù)據(jù),可以分析提高產(chǎn)品質(zhì)量;可以電子商務(wù)網(wǎng)站進(jìn)行分析,識(shí)別用戶的行為模式,優(yōu)化網(wǎng)站,提供個(gè)性化服務(wù)。當(dāng)前引用最廣的領(lǐng)域包括:數(shù)據(jù)庫(kù)營(yíng)銷、交叉分析的市場(chǎng)分析行為,客戶流失性分析、客戶信用記分、欺詐發(fā)現(xiàn)、客戶群體區(qū)分。

目前面臨的問(wèn)題:(1)數(shù)據(jù)挖掘的基本問(wèn)題是數(shù)據(jù)的數(shù)量和維數(shù),數(shù)據(jù)結(jié)構(gòu)非常復(fù)雜。(2)面對(duì)龐大的數(shù)據(jù),現(xiàn)有的統(tǒng)計(jì)方法等都遇到了問(wèn)題。(3)面對(duì)海量數(shù)據(jù),對(duì)數(shù)據(jù)變化的情況匯總分析做出考量和評(píng)價(jià)。(4)對(duì)于各種不同的模型應(yīng)用,其應(yīng)用效果進(jìn)行有效的評(píng)價(jià)。(5)如何對(duì)互聯(lián)網(wǎng)等非標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行分析。(6)數(shù)據(jù)挖掘過(guò)程中必須保證涉及到了數(shù)據(jù)安全性和隱私性,加強(qiáng)防護(hù)措施。(7)數(shù)據(jù)挖掘結(jié)果必須和專業(yè)知識(shí)結(jié)合。

四、數(shù)據(jù)挖掘未來(lái)發(fā)展的前景

數(shù)據(jù)挖掘基于關(guān)系模式、DBMS系統(tǒng)、SQL查詢等語(yǔ)言的方法理論為基礎(chǔ),涉及多學(xué)科技術(shù)的集成,包括數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)高性能計(jì)算、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、信息檢索、圖像與信號(hào)處理以及空間或時(shí)間數(shù)據(jù)分析。有專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言;尋求數(shù)據(jù)挖掘中的可視化方法;在英特網(wǎng)上建立數(shù)據(jù)挖掘服務(wù)器并與數(shù)據(jù)庫(kù)服務(wù)器配合,實(shí)現(xiàn)數(shù)據(jù)挖掘;加強(qiáng)對(duì)非結(jié)構(gòu)化的數(shù)據(jù)挖掘如文本、圖形視屏、圖像、聲音乃至于多媒體數(shù)據(jù)挖掘技術(shù)。交互發(fā)現(xiàn)、提供交互、個(gè)性化服務(wù);能夠自動(dòng)完成知識(shí)的維護(hù)和更新。

參考文獻(xiàn):

數(shù)據(jù)挖掘技術(shù)范文第5篇

關(guān)鍵詞 數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;典型關(guān)聯(lián);Apriori算法

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-7597(2014)15-0030-03

當(dāng)今社會(huì)人們對(duì)計(jì)算機(jī)應(yīng)用提出了更高要求,如今人們慢慢的意識(shí)到關(guān)系數(shù)據(jù)庫(kù)有很多缺點(diǎn)和限制,這種問(wèn)題又推動(dòng)了數(shù)據(jù)庫(kù)在更深領(lǐng)域上的研究。當(dāng)前專家們對(duì)數(shù)據(jù)庫(kù)的研究?jī)?nèi)容主要是把數(shù)據(jù)庫(kù)技術(shù)與其他技術(shù)相結(jié)合,然后應(yīng)用到特定領(lǐng)域中,這種研究現(xiàn)在已經(jīng)取得了驕人的成績(jī)。

1 數(shù)據(jù)挖掘技術(shù)

1.1 數(shù)據(jù)挖掘概念

從數(shù)據(jù)挖掘的本質(zhì)上說(shuō)它是一種具有更高商業(yè)價(jià)值的新型信息處理技術(shù),數(shù)據(jù)挖掘技術(shù)的作用是對(duì)數(shù)據(jù)的應(yīng)用來(lái)說(shuō)的,其目的是使人們從低層次的聯(lián)機(jī)查詢過(guò)渡到對(duì)數(shù)據(jù)決策支持分析預(yù)測(cè)上,從而成為更高層次的應(yīng)用。

1.2 數(shù)據(jù)挖掘技術(shù)的分類

關(guān)于數(shù)據(jù)挖掘針對(duì)其挖掘的對(duì)象,大致的可以做出以下分類,具體分為時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、關(guān)系數(shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)(Object-Oriented Database)、空間數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)以及web等比較具有針對(duì)性的挖掘?qū)ο蟆a槍?duì)數(shù)據(jù)挖掘的方法大致的可以歸納為:計(jì)算機(jī)學(xué)習(xí)法、數(shù)理統(tǒng)計(jì)法、信息聚類分析法、遺傳算法Genetic Algorithm、神經(jīng)網(wǎng)絡(luò)Neural Network探索性分析法、不確定性推理和近似推理法、數(shù)據(jù)分析法、證據(jù)理論和元模式法、數(shù)據(jù)集成方法、當(dāng)代數(shù)學(xué)分析法等。

根據(jù)數(shù)據(jù)挖掘技術(shù)的知識(shí)類型可以分為:廣義范圍的知識(shí)挖掘、差異范圍的知識(shí)挖掘、關(guān)聯(lián)范圍的知識(shí)挖掘、預(yù)測(cè)范圍的知識(shí)挖掘等。

1.3 數(shù)據(jù)挖掘的應(yīng)用分析

根據(jù)麻省理工學(xué)院內(nèi)部數(shù)據(jù)整理其科技評(píng)論雜志對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用分析提出了10大新興的科學(xué)技術(shù)數(shù)據(jù)挖掘能夠在未來(lái)5年對(duì)人類的生產(chǎn)生活帶來(lái)重大影響。根據(jù)種種數(shù)據(jù)分析所表明的問(wèn)題我們不難發(fā)現(xiàn)數(shù)據(jù)挖掘技術(shù)面向?qū)嶋H應(yīng)用方面不是一時(shí)的,隨著時(shí)代的發(fā)展社會(huì)信息化進(jìn)程不斷加劇各行業(yè)的業(yè)務(wù)操作也隨之逐漸向現(xiàn)代化流程轉(zhuǎn)變,這一轉(zhuǎn)變促使企業(yè)在處理業(yè)務(wù)時(shí)產(chǎn)生大量的業(yè)務(wù)信息數(shù)據(jù)。對(duì)于一般地企業(yè)內(nèi)部的業(yè)務(wù)信息數(shù)據(jù)來(lái)說(shuō),其主要是由企業(yè)進(jìn)行商業(yè)運(yùn)作而產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)的量一般比較少。這是都是企業(yè)為了獲得市場(chǎng)分析而進(jìn)行收集的,關(guān)于此類的數(shù)據(jù)挖掘的應(yīng)用終將成為企業(yè)進(jìn)行高層次數(shù)據(jù)分析,為行政決策提供技術(shù)支持的骨干技術(shù)。

1.4 數(shù)據(jù)挖掘技術(shù)和方法

1)統(tǒng)計(jì)方法。統(tǒng)計(jì)就是查找事物的數(shù)量或規(guī)律,數(shù)據(jù)挖掘技術(shù)中使用統(tǒng)計(jì)方法主要目的就是從事物的數(shù)量上來(lái)推斷其規(guī)律,通常都是在事物的數(shù)據(jù)上來(lái)找線索,然后根據(jù)這些線索進(jìn)行假設(shè),然后根據(jù)這些假設(shè)去驗(yàn)證其可行性,這種方法最大的優(yōu)點(diǎn)就是精確性。

2)模糊集。模糊集顧名思義就是不清楚,沒(méi)有針對(duì)性。模糊集的數(shù)據(jù)處理分為兩個(gè)方面一個(gè)方面是不完整的數(shù)據(jù),另一個(gè)方面就是不確定的數(shù)據(jù)。模糊數(shù)據(jù)主要處理這兩種數(shù)據(jù),在這兩種數(shù)據(jù)的處理上要比以往的數(shù)據(jù)處理更加方便有效。

3)支持向量機(jī)。向量機(jī)就是一些數(shù)學(xué)理論,支持向量機(jī)就是建立在某些數(shù)學(xué)理論上的結(jié)構(gòu)風(fēng)險(xiǎn)。它主要的思想就是在一個(gè)高空的多維空間中找一個(gè)超平面,利用這個(gè)超平面把這兩類進(jìn)行隔開(kāi),這樣就可以保證最小分類的錯(cuò)誤率。它的一個(gè)很重要的優(yōu)點(diǎn)就是可以處理一些線性問(wèn)題。

4)規(guī)則歸納。規(guī)則的歸納就是對(duì)數(shù)據(jù)進(jìn)行相關(guān)的統(tǒng)計(jì),其主要反映數(shù)據(jù)項(xiàng)中的一些屬性和集合,其中用的最多的歸納算法就是AQ法,它是歸納法中比較典型的,數(shù)據(jù)挖掘技術(shù)是目前計(jì)算機(jī)信息技術(shù)領(lǐng)域比較前言的研究方向,數(shù)據(jù)挖掘技術(shù)可以從數(shù)據(jù)庫(kù)中找出一些潛在的、位置的信息和知識(shí)。

2 時(shí)態(tài)約束關(guān)聯(lián)規(guī)則挖掘問(wèn)題及算法

2.1 聚焦挖掘任務(wù),提高挖掘效率

數(shù)據(jù)挖掘理論最初的研究側(cè)重點(diǎn)是模型的建立以及算法的設(shè)計(jì)。隨著應(yīng)用于不同的場(chǎng)合,得出的結(jié)果證明單純而又孤立的挖掘工具效果并不理想。傳統(tǒng)的數(shù)據(jù)挖掘項(xiàng)目中,會(huì)進(jìn)行詳盡而反復(fù)的調(diào)研分析,并根據(jù)用戶的需求制定細(xì)致的任務(wù)計(jì)劃,最終的結(jié)果卻并不理想,不能得到想要的結(jié)果。在算法中,如果想要得到用戶的挖掘目標(biāo),除了算法之外,還需要有特定的實(shí)現(xiàn)機(jī)制,使得我們的挖掘計(jì)劃能夠轉(zhuǎn)變成對(duì)一個(gè)系統(tǒng)工作的控制,這樣才能使得挖掘項(xiàng)目能有期望的結(jié)果。這樣的約束,不需要局限于某一個(gè)挖掘數(shù)據(jù)的階段,在任何階段都可以實(shí)現(xiàn)。而這樣的算法機(jī)制,也是交互式數(shù)據(jù)挖掘算法的基本形式,通過(guò)這樣的過(guò)程,來(lái)達(dá)到更好以及快速地完成挖掘任務(wù)。

2.2 保證挖掘的精確性

從數(shù)據(jù)挖掘的算法也可以看出,結(jié)果具有不可預(yù)測(cè)性,而正因此,對(duì)于算法運(yùn)行的過(guò)程中,遇到的問(wèn)題也是難以把握的,所以算法還需要加上反饋機(jī)制,通過(guò)這樣的反饋,來(lái)進(jìn)行驗(yàn)證結(jié)果并修正算法中的數(shù)據(jù),如果這個(gè)過(guò)程中,挖掘到的數(shù)據(jù)是正確的,但也未必是用戶所側(cè)重的,所以數(shù)據(jù)挖掘的結(jié)果不僅要具有邏輯上的正確性,還要能夠滿足用戶的主觀偏好;也就是既要準(zhǔn)確,還要可信且符合用戶需求。而約束就是這樣實(shí)現(xiàn)的,通過(guò)約束發(fā)現(xiàn)算法中的問(wèn)題并及時(shí)校正算法,以最終能夠滿足各項(xiàng)需求。

2.3 控制系統(tǒng)的使用規(guī)模

數(shù)據(jù)挖掘算法的實(shí)現(xiàn)過(guò)程容易陷入一個(gè)誤區(qū),只側(cè)重由一個(gè)系統(tǒng)處理所出現(xiàn)的問(wèn)題,而忽略了對(duì)于控制系統(tǒng)的規(guī)模大小的考慮,這樣的結(jié)果就是適得其反,問(wèn)題并不會(huì)得到很好地解決。而約束數(shù)據(jù)挖掘的原理在于,系統(tǒng)的增量式擴(kuò)充得到實(shí)現(xiàn),確定了用戶的需求和目標(biāo)之后,通過(guò)約束參數(shù)的形式,來(lái)實(shí)現(xiàn)對(duì)一些有待解決的問(wèn)題的驗(yàn)證,而這些數(shù)值的確定,可以通過(guò)實(shí)驗(yàn)的交互式輸入實(shí)現(xiàn),以找到較優(yōu)值。而這樣的約束過(guò)程,可以在數(shù)據(jù)挖掘的不同階段加以實(shí)現(xiàn);而在數(shù)據(jù)的預(yù)處理過(guò)程中,設(shè)置的約束個(gè)數(shù)既要能夠保證挖掘的最終結(jié)果,又要注意保持?jǐn)?shù)據(jù)的規(guī)模;在數(shù)據(jù)挖掘的過(guò)程中,對(duì)于整個(gè)項(xiàng)目的細(xì)分之后的子目標(biāo),也可以加上約束,以能夠快速達(dá)到約束的目的;當(dāng)然也可以對(duì)不同類型的問(wèn)題加以不同的約束條件,以更好地解決問(wèn)題;尤其是對(duì)于層級(jí)較多或者維度較高的數(shù)據(jù),可以選擇合適的約束來(lái)達(dá)到問(wèn)題的轉(zhuǎn)化或者簡(jiǎn)化。對(duì)于約束類型,時(shí)態(tài)約束下的關(guān)聯(lián)規(guī)則指的是,一次數(shù)據(jù)庫(kù)掃描挖掘算法,可以在一定程度上,減少I/O的個(gè)數(shù),但是在數(shù)據(jù)量不斷上升的過(guò)程中,對(duì)于計(jì)算機(jī)內(nèi)存的占用也越來(lái)越大,而且是線性地增加,所以怎樣很好地控制ISS的容量變得很有必要,而且這樣也能夠一定程度上減少對(duì)CPU的占用。為了這個(gè)問(wèn)題的有效改善,我們使用了兩種方法,一個(gè)是有效地約束時(shí)態(tài)數(shù)據(jù)庫(kù),用戶所不感興趣的時(shí)間范圍內(nèi)的信息去除;二是待處理的數(shù)據(jù)要進(jìn)行分批處理,經(jīng)過(guò)一定的數(shù)據(jù)結(jié)構(gòu)進(jìn)入內(nèi)存,這樣有效地將數(shù)據(jù)進(jìn)行組織。而對(duì)于沒(méi)有重疊部分的時(shí)區(qū),可以生成獨(dú)立的關(guān)聯(lián)規(guī)則,減少了對(duì)計(jì)算機(jī)硬件資源的占用,而且很好地改善了精確度

問(wèn)題。

3 數(shù)據(jù)分割下的挖掘問(wèn)題及算法

對(duì)于理論基礎(chǔ)比較成熟的算法―Apriori算法,研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟?wèn)題,人們也提出了各種的改進(jìn)算法,本文選區(qū)幾種比較有代表性的加以介紹。

3.1 減少事務(wù)的個(gè)數(shù)

這樣的原理在于,當(dāng)需要處理的事務(wù)不包含長(zhǎng)度為k的大項(xiàng)集,那么也一定不包含長(zhǎng)度為k+1的大項(xiàng)集。在算法處理的過(guò)程中,就可以將這樣的事務(wù)濾去,在下輪掃描過(guò)程中,就可以不需要那么多的事務(wù)集。

3.2 基于劃分的方法

這類算法比較典型的是頻繁項(xiàng)目生成算法,該算法原理在于:把數(shù)據(jù)庫(kù)分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個(gè)分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項(xiàng)目集;而對(duì)于怎樣將數(shù)據(jù)進(jìn)入存儲(chǔ)中,可以把需要處理的分塊放入計(jì)算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對(duì)于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。

3.3 基于hash的方法

在上述的發(fā)現(xiàn)頻繁項(xiàng)目集的算法中,有人提出了改進(jìn)算法,基于雜(hash)技術(shù)產(chǎn)生頻繁項(xiàng)目集。而這也是他們?cè)趯?shí)驗(yàn)基礎(chǔ)上提出的,因?yàn)閷?shí)驗(yàn)中,他們發(fā)現(xiàn)頻繁項(xiàng)目集的產(chǎn)生過(guò)程中,計(jì)算量主要集中在2-頻繁項(xiàng)目集上,他們通過(guò)雜湊技術(shù)來(lái)對(duì)這個(gè)問(wèn)題加以解決,把需要掃描的項(xiàng)目分發(fā)于不同的Hash桶,而對(duì)于每對(duì)項(xiàng)目來(lái)說(shuō),最多只可能在一個(gè)特定的桶內(nèi),然后通過(guò)實(shí)驗(yàn)分析,可以有效地降低了候選集的產(chǎn)生。

3.4 基于采樣的方法

基于抽樣技術(shù)的產(chǎn)生頻繁項(xiàng)目集的算法的原理在于:通過(guò)對(duì)數(shù)據(jù)庫(kù)進(jìn)行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過(guò)數(shù)據(jù)庫(kù)的未被抽樣數(shù)據(jù),進(jìn)行檢驗(yàn),這些關(guān)聯(lián)規(guī)則是否有效。其實(shí)這個(gè)算法本身相對(duì)比較容易實(shí)現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過(guò)程中所付出的I/O代價(jià),而不利的地方在于,抽樣數(shù)據(jù)的隨機(jī)性以及由此帶來(lái)的結(jié)果的偏差比較大。抽樣原理是統(tǒng)計(jì)學(xué)常用方法,雖然其得到的結(jié)果精確性可能并不盡人意;如果能被運(yùn)用恰當(dāng)?shù)脑挘梢栽诰确弦蟮那闆r下使得挖掘效率大大地提高。

3.5 盡量減少數(shù)據(jù)庫(kù)的掃面次數(shù)

早在1997年,Brin等一些研究人員就提出了一種用來(lái)減少數(shù)據(jù)庫(kù)掃面次數(shù)的算法,這種算法實(shí)際上就是通過(guò)下層分析方法來(lái)提前處理。換句話說(shuō),當(dāng)我們正在運(yùn)行k-項(xiàng)集時(shí),如果發(fā)現(xiàn)(k+1)-項(xiàng)集有極大可能會(huì)是頻繁項(xiàng)目集,那么我們就直接將兩者進(jìn)行并行運(yùn)算,進(jìn)而得出(k+1)-項(xiàng)集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫(kù)掃描次數(shù),從而在運(yùn)行效率上要優(yōu)于Apriori算法。

3.6 并行挖掘

數(shù)據(jù)分布技術(shù)的出現(xiàn)使得我們可以對(duì)數(shù)據(jù)子集進(jìn)行深層次挖掘,而且在不同子集之間我們還可以開(kāi)展并行計(jì)算。多層次關(guān)聯(lián)規(guī)則挖掘就是并行挖掘中的關(guān)鍵技術(shù)之一,所謂多層次關(guān)聯(lián)規(guī)則可以用上圖來(lái)進(jìn)行描述。在很多事務(wù)數(shù)據(jù)庫(kù)中,某些項(xiàng)所隱含的概念有很多層次。

4 案例分析

這里我們以《天道》項(xiàng)目為例進(jìn)行流失用戶預(yù)警分析,通過(guò)其8、9兩個(gè)月的相關(guān)數(shù)據(jù)來(lái)判斷12月《天道》所有登陸用戶的流失可能性和對(duì)應(yīng)的流失概率。

序號(hào) 名稱

1 單月總在線時(shí)長(zhǎng)onlinetime

2 單月總登陸次數(shù)times

3 賬戶累計(jì)登陸總時(shí)長(zhǎng)totalonlinetime

4 首登時(shí)間firstlogintime

5 月充值金額

6 當(dāng)前等級(jí)playerlevel

7 陣營(yíng)

8 游戲幣總額

注:如若條件允許,能加入玩家的當(dāng)前經(jīng)驗(yàn),玩家的游戲社交屬性值,活躍度,及玩家的客服記錄,玩家的來(lái)源廣告媒體等信息將會(huì)使此模型的研究更有價(jià)值。

模型評(píng)估是運(yùn)用Clementine的分析節(jié)點(diǎn)對(duì)已建立的客戶流失預(yù)測(cè)模型進(jìn)行精確性分析,評(píng)價(jià)指標(biāo)為對(duì)未經(jīng)分類處理的測(cè)試數(shù)據(jù)進(jìn)行正確分類的。準(zhǔn)確率,即“預(yù)測(cè)正確率= 正確預(yù)測(cè)個(gè)數(shù)/測(cè)試樣本數(shù)×100%”。通過(guò)分析計(jì)算我們可以明確的看出(如下圖所示),訓(xùn)練樣本的精確度為81.42%,測(cè)試樣本的精確度為81.46%,此模型的精確度已較理想,不過(guò)我們還可以通過(guò)增加樣本容量(取三個(gè)月的游戲玩家信息,或者半年的游戲玩家信息),調(diào)整模型中的參數(shù)來(lái)提高模型的正確率。

基于上述分析,我們建立模型并分析:

分析結(jié)果顯示:

1)3890

2)onlinetime>220363,樣本權(quán)重為9%,流失275個(gè),比例為7%,雖然比例較小,但這個(gè)部分的賬戶應(yīng)是非常有價(jià)值的用戶,若采取個(gè)性化的服務(wù),應(yīng)會(huì)帶來(lái)更大的價(jià)值。

3)796

4)796

5)0

6)88

5 結(jié)論

數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡(jiǎn)單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價(jià)值的研究成果。

參考文獻(xiàn)

[1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場(chǎng)的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2013(01):8-11.

[2]陸新慧,吳陳,楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(05):26-29,33.

相關(guān)期刊更多

數(shù)據(jù)

省級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

北京市統(tǒng)計(jì)局

大數(shù)據(jù)

統(tǒng)計(jì)源期刊 審核時(shí)間1個(gè)月內(nèi)

工業(yè)和信息化部

數(shù)據(jù)通信

部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

信息產(chǎn)業(yè)部

主站蜘蛛池模板: 蒙山县| 云林县| 含山县| 泸西县| 开化县| 夹江县| 芦山县| 美姑县| 焦作市| 浦东新区| 固镇县| 灵寿县| 南昌县| 将乐县| 西丰县| 固安县| 元朗区| 玛沁县| 甘孜县| 威海市| 故城县| 六枝特区| 阳山县| 汪清县| 江川县| 开鲁县| 庄浪县| 平果县| 明水县| 隆子县| 高青县| 宁强县| 建阳市| 元阳县| 五峰| 洪雅县| 建昌县| 菏泽市| 隆子县| 藁城市| 永泰县|