本站小編為你精心準(zhǔn)備了小型電子商務(wù)挖掘模型參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
[摘要]已有的數(shù)據(jù)挖掘模型大多是針對(duì)大型商務(wù)網(wǎng)站設(shè)計(jì)的,成本高,技術(shù)復(fù)雜,難于實(shí)現(xiàn)。本文針對(duì)為數(shù)眾多的小型電子商務(wù)網(wǎng)站,將粗糙集與數(shù)據(jù)挖掘結(jié)合起來,建立了一個(gè)切實(shí)可行的參考模型,該模型能夠有效地、自主地挖掘電子商務(wù)網(wǎng)站的運(yùn)營狀況和潛在的經(jīng)濟(jì)規(guī)律,從而為小型電子商務(wù)運(yùn)營者提供決策參考。
[關(guān)鍵詞]數(shù)據(jù)挖掘;粗糙集;小型電子商務(wù)
一、引言
數(shù)據(jù)挖掘應(yīng)用于小型電子商務(wù),可發(fā)現(xiàn)客戶新的購買傾向,設(shè)計(jì)投資戰(zhàn)略,在會(huì)計(jì)系統(tǒng)中探測(cè)未經(jīng)認(rèn)可的開支,增加銷售業(yè)務(wù)等,其目標(biāo)為揭示小型電子商務(wù)網(wǎng)站的運(yùn)營狀況以及潛在的經(jīng)濟(jì)活動(dòng)。然而,為數(shù)眾多的中小電子商務(wù)網(wǎng)站由于自身規(guī)模小、商業(yè)伙伴多、客戶雜而多、產(chǎn)品周期短、可利用資金少等特點(diǎn),很難實(shí)現(xiàn)針對(duì)大型商務(wù)網(wǎng)站設(shè)計(jì)的數(shù)據(jù)挖掘模型。故建立一個(gè)適合于小型電子商務(wù)網(wǎng)站的切實(shí)可行的數(shù)據(jù)挖掘模型非常必要。
通常,一個(gè)簡(jiǎn)單的小型電子商務(wù)系統(tǒng)包括以下幾個(gè)基本功能:
1.客戶注冊(cè)??蛻敉ㄟ^該功能提交相應(yīng)的客戶信息??蛻粢话憧煞譃閮深悾浩胀蛻艉蜁?huì)員客戶。他們享有不同的權(quán)限,通常會(huì)員客戶將享受一些優(yōu)惠的價(jià)格、被邀請(qǐng)參加一些網(wǎng)站舉辦的活動(dòng)等。
2.客戶登錄。主要進(jìn)行客戶身份認(rèn)證,以確保是合法的客戶。
3.在線商品瀏覽??蛻艨闪私馍唐返脑敿?xì)情況。商品陳列如現(xiàn)實(shí)中超市的貨架一樣。好的分類以及好的擺放次序都將影響銷售業(yè)務(wù)。
4.購物車。實(shí)現(xiàn)超市購物車的功能??蛻粢贿厼g覽網(wǎng)站一邊將欲購買的商品放入購物車。
5.生成訂單(購物單)。當(dāng)客戶選好商品后,系統(tǒng)按照客戶購物車中的商品生成購物單。
6.訂單確認(rèn)。網(wǎng)站按照訂單,計(jì)算出本次購買的購買清單和總金額后,讓客戶確認(rèn)是否真的購買。
7.在線支付。當(dāng)客戶確認(rèn)訂單后,可通過信用卡在線支付,支付成功后系統(tǒng)生成一份永久訂單,并提交給訂單處理系統(tǒng)。
8.成交確認(rèn)。當(dāng)客戶成功實(shí)現(xiàn)支付后,站點(diǎn)向客戶發(fā)送E-mail以確認(rèn)交易成功。
以上是電子商務(wù)的基本功能,除此之外,更需要一個(gè)高效、安全的數(shù)據(jù)挖掘工具,挖掘潛在的、深層次的經(jīng)濟(jì)活動(dòng),為網(wǎng)站決策者提供各種分析數(shù)據(jù)和參考決策,如自動(dòng)生成日?qǐng)?bào)表、月報(bào)表等統(tǒng)計(jì)報(bào)表,以及客戶行為變化、商品銷售預(yù)測(cè)等。
電子商務(wù)環(huán)境下,供應(yīng)商、倉儲(chǔ)物流伙伴、客戶之間要進(jìn)行物流、信息流和資金流等經(jīng)濟(jì)活動(dòng),數(shù)據(jù)挖掘可對(duì)物流數(shù)據(jù)、信息流數(shù)據(jù)、資金流數(shù)據(jù)進(jìn)行綜合挖掘。
二、基于粗糙集的小型電子商務(wù)挖掘模型
數(shù)據(jù)挖掘的一般過程包括:數(shù)據(jù)采集、數(shù)據(jù)清洗、挖掘算法確定、數(shù)據(jù)挖掘、模式解釋及知識(shí)評(píng)價(jià)。從理論研究到應(yīng)用實(shí)現(xiàn),涉及的技術(shù)主要有分類技術(shù)、聚類技術(shù)、粗糙集技術(shù)、統(tǒng)計(jì)技術(shù)和關(guān)聯(lián)規(guī)則技術(shù)等。
粗糙集技術(shù)是處理知識(shí)的有效方法,已在眾多領(lǐng)域得到廣泛的應(yīng)用。這里,結(jié)合粗糙集,建立如圖1所示的挖掘模型。從圖1中看到,采用的主要技術(shù)是粗糙集技術(shù)。以下對(duì)其中的關(guān)鍵步驟作進(jìn)一步的分析。
三、小型電子商務(wù)網(wǎng)站的數(shù)據(jù)采集
數(shù)據(jù)采集是數(shù)據(jù)挖掘的基礎(chǔ)。電子商務(wù)網(wǎng)站的數(shù)據(jù)分布在服務(wù)器端、端和客戶端。理論上講,應(yīng)采集到所有三處的數(shù)據(jù),才能得到最完整的數(shù)據(jù)。但在實(shí)際中,由于實(shí)際情況的限制,幾乎是不可能實(shí)現(xiàn)的。具體分析如下:
1.服務(wù)器端數(shù)據(jù)采集。在服務(wù)器端客戶的行為可以被TCP/IP包監(jiān)測(cè)器跟蹤,以提取客戶的請(qǐng)求信息。服務(wù)器主要以Web日志的形式記錄客戶每一次的網(wǎng)頁請(qǐng)求信息。主要包括:客戶標(biāo)識(shí)、遠(yuǎn)程IP、請(qǐng)求日期和時(shí)間等,并且可以記錄COOKIES和查詢參數(shù)來描述各個(gè)不同客戶的行為。其優(yōu)點(diǎn)是:能夠?qū)崟r(shí)采集數(shù)據(jù);來自不同服務(wù)器的數(shù)據(jù)能被整合到唯一的日志中。
服務(wù)器端數(shù)據(jù)采集的缺點(diǎn)是:如果客戶使用本地CACHE和(Proxy),則Web服務(wù)器僅能獲取信息,而得不到客戶的真正信息;同樣,Web環(huán)境中有各種CACHE,Web日志記錄可能不準(zhǔn)確。這些都將導(dǎo)致信息的不完整以及信息量的不足。
2.端數(shù)據(jù)采集。許多網(wǎng)絡(luò)服務(wù)商通過CACHE為客戶提高導(dǎo)航速度,它通過海量的WebServers來采集客戶數(shù)據(jù)。不僅可以采集多個(gè)客戶的行為,還可以采集多個(gè)網(wǎng)站的行為。端數(shù)據(jù)采集適合有大量靜態(tài)頁面的網(wǎng)站。
端數(shù)據(jù)采集的缺點(diǎn)是:多個(gè)客戶使用同一個(gè)服務(wù)器的環(huán)境下,如何標(biāo)識(shí)某個(gè)客戶,如何識(shí)別屬于該客戶的會(huì)話和使用記錄,此問題在很大程度上影響挖掘質(zhì)量。
3.客戶端數(shù)據(jù)采集。客戶端通過JavaScript、JavaApplets或修改過的瀏覽器記錄數(shù)據(jù)。但JavaScript不能記錄客戶所有的行為,而JavaApplets可以記錄客戶的所有行為,但效率低。
客戶端數(shù)據(jù)采集的缺點(diǎn)是:客戶可能會(huì)在瀏覽器設(shè)置中關(guān)閉JavaScript、JavaApplets功能;涉及客戶的個(gè)人隱私信息,需要客戶配合。
綜上所述,對(duì)于電子商務(wù)網(wǎng)站而言,盡管有多種數(shù)據(jù)采集源,但實(shí)現(xiàn)起來比較困難,而且所得數(shù)據(jù)是很不完整的。
基于以上分析,在建立電子商務(wù)網(wǎng)站時(shí),除客戶注冊(cè)表、商品表等表外,應(yīng)在服務(wù)器端維持兩個(gè)基本表:客戶行為表和商業(yè)行為表??蛻粜袨楸碛涗浛蛻舻男袨?,如:登錄、查詢、添加商品到購物車、瀏覽等行為。商業(yè)行為表記錄客戶的實(shí)際購物情況,如所購商品、數(shù)量、日期等。
表的基本結(jié)構(gòu)包含如下一些基本字段:
客戶行為表:CustomerNo,CustomerType,Date,LoginTime,ExitTime,Home,Browse,Search,Login,Pay,Register,AddtoCart,Select
其中,CustomerType為客戶類別:0-普通客戶,1-會(huì)員客戶。
商業(yè)行為表:CustomerNo,Merchandises,Number,Date,Time
可見,上述兩個(gè)表格記錄了挖掘所需的基本數(shù)據(jù),使得數(shù)據(jù)采集更易于完成。
四、粗糙集數(shù)據(jù)清洗
利用粗糙集的約簡(jiǎn)算法對(duì)數(shù)據(jù)進(jìn)行清洗。主要是計(jì)算知識(shí)的約簡(jiǎn)、核、上近似及下近似(正域)。以決策規(guī)則為例。表1是某電子商店的購物記錄,P,Q,R,S代表4種商品;CustomerNo.為客戶號(hào)。是:表示購買了某商品;否:表示沒有購買某商品。
以下對(duì)表1進(jìn)行粗糙集數(shù)據(jù)清洗。
根據(jù)粗糙集理論,論域U={t1,t2,t3,t4,t5,t6,t7,t8},條件屬性集C={P,Q,R},決策屬性集D={S}。容易計(jì)算:
U關(guān)于等價(jià)關(guān)系C的劃分U/C={X1,X2,X3,X4,X5},其中,X1={t1},X2={t2,t3},X3={t4},X4={t5,t7},X5={t6,t8}。
U關(guān)于等價(jià)關(guān)系D的劃分U/D={Y1,Y2},其中,Y1={t2,t3,t6,t7,t8},Y2={t1,t4,t5}。
類似地,U/{P}={{t1,t2,t3},{t4,t5,t6,t7,t8}},U/{Q}={{t1,t2,t3,t4,t6,t8},{t5,t7}},U/{R}={{t2,t3,t5,t6,t7,t8},{t1,t4}},U/{P,Q}={{t1,t2,t3},{t4,t6,t8},{t5,t7}},U/{P,R}={{t1},{t2,t3},{t4},{t5,t6,t7,t8}},U/{Q,R}={{t1,t4},{t2,t3,t6,t8},{t5,t7}}
以下計(jì)算正域:
posC(D)={t1,t2,t3,t4,t6,t8}
pos(C-{P})(D)={t1,t4,t2,t3,t6,t8}=posC(D)
pos(C-{Q})(D)={t1,t2,t3,t4}≠posC(D)
pos(C-{R})(D)=φ≠posC(D)
pos(C-{P,Q})(D)={t1,t4}≠posC(D)
pos(C-{P,R})(D)=φ≠posC(D)
pos(C-{Q,R})(D)=φ≠posC(D)
因此,C的D約簡(jiǎn)為{Q,R}。故表1經(jīng)過粗糙集數(shù)據(jù)清洗后得到表2。
五、決策規(guī)則的提取
定義決策規(guī)則為:
rij:des(Xi)→des(Yj),Xi∩Yj≠?準(zhǔn)。
其中,des()為對(duì)等價(jià)類的描述。
定義規(guī)則rij的確定性因子μ(Xi,Yj)=|Xi∩Yj|/|Xi|。顯然,0<μ(Xi,Yj)≤1。
當(dāng)μ(Xi,Yj)=1時(shí),rij是確定的;當(dāng)0<μ(Xi,Yj)<1時(shí),rij是不確定的。
這樣,可得以下確定性規(guī)則:
r12:(購買Q)且(不購買R)→(不購買S)
r21:(購買Q)且(購買R)→(購買S)
r32:(購買Q)且(不購買R)→(不購買S)
r51:(購買Q)且(購買R)→(購買S)
不確定性規(guī)則為:
r41:(不購買Q)且(購買R)→(購買S),μ(X4,Y1)=0.5
r42:(不購買Q)且(購買R)→(不購買S),μ(X4,Y2)=0.5
六、模式解釋及知識(shí)評(píng)價(jià)
經(jīng)過挖掘可得到大量的模式和規(guī)則,需對(duì)規(guī)則作進(jìn)一步的篩選、合并。上述例子經(jīng)合并后最終得到兩條確定性規(guī)則:
1.(購買Q)且(購買R)→(購買S)
2.(購買Q)且(不購買R)→(不購買S)
基于上述規(guī)則,可作決策:在電子商店中,可將商品P,Q,R按順序相鄰擺放在一起。可提高銷售。
對(duì)于不確定規(guī)則,可作參考或直接刪除均可。
七、結(jié)束語
通過以上分析,所建立的基于粗糙集的小型電子商務(wù)挖掘模型是有效、可行的。已經(jīng)提出很多可行的粗糙集算法,在實(shí)現(xiàn)挖掘時(shí)可參考。上述只舉出決策規(guī)則的例子,根據(jù)電子商務(wù)的實(shí)際,開發(fā)挖掘系統(tǒng)時(shí)可確定更多的挖掘目標(biāo),從而揭示小型電子商務(wù)網(wǎng)站的運(yùn)營狀況以及潛在的經(jīng)濟(jì)活動(dòng)及規(guī)律。
主要參考文獻(xiàn)
[1]MehmedKantardzic.DATAMININGConcept,Models,Methods,andAlgorithms[M].北京:清華大學(xué)出版社,2003.
[2]張文修等.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.