本站小編為你精心準(zhǔn)備了數(shù)據(jù)挖掘技術(shù)的紅酒評分預(yù)測設(shè)計(jì)分析參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:隨著現(xiàn)代社會的快速發(fā)展,紅酒行業(yè)已慢慢走向全球化與大眾化,更多的紅酒品牌和品種也逐漸被世人所知。然而,紅酒品質(zhì)也分三六九等,如何判斷一款紅酒是優(yōu)是劣?利用SPSS,Excel等軟件,使用回歸、決策樹、聚類等經(jīng)典機(jī)器學(xué)習(xí)算法,對紅酒的價(jià)格、評分、產(chǎn)地等因素進(jìn)行統(tǒng)計(jì)與分析。最終得出紅酒的原產(chǎn)國,省份以及品種基本可以決定紅酒的優(yōu)劣。
關(guān)鍵詞:紅酒;數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí)
1前言
紅酒,是一種有著漫長歷史的飲品。早在公元前1000年,紅酒就在地中海沿岸大部分地區(qū)繁衍傳播,并逐漸發(fā)展成為高檔飲品。在全世界的基督教信徒的眼中,紅酒被視為耶穌的血液,這一點(diǎn)也促進(jìn)了紅酒的平民化。紅酒不僅僅給人以高雅和浪漫的感覺,在很多女性心中還有美容駐顏的功效,隨著時(shí)間的推移,社會也在快速發(fā)展,人們生活水平逐步提升,紅酒市場目前擁有著巨大的發(fā)展?jié)摿土己玫陌l(fā)展前景,紅酒也將逐漸走向全球化與大眾化,讓越來越多的人有機(jī)會去品嘗。近年來,越來越多的人更加講究紅酒的品質(zhì),傳統(tǒng)紅酒的品鑒,要考慮紅酒的香氣、口感、結(jié)構(gòu)、釀造工藝、風(fēng)土和價(jià)格等綜合因素。但這些復(fù)雜的品鑒技術(shù)需要積年累月的品酒經(jīng)驗(yàn),對于大多數(shù)普通人來說,學(xué)習(xí)這門技術(shù)并不容易。因此,人們對于紅酒的品質(zhì)界定十分地模糊,并不清楚哪些紅酒檔次較高,而哪些紅酒檔次相對較低。為了幫助人們通過更簡單直接的方法去了解紅酒的品質(zhì),本文根據(jù)Kaggle網(wǎng)站上WineReviews專題提供的129970組數(shù)據(jù),使用決策樹,聚類等經(jīng)典機(jī)器學(xué)習(xí)算法,分析數(shù)據(jù)規(guī)律,建立了根據(jù)紅酒產(chǎn)地、品種、制造商等因素預(yù)測紅酒品質(zhì)的模型;并探索了影響紅酒檔次的最主要因素。該模型可以為喜歡紅酒的人們提供參考,從而使他們對于紅酒品質(zhì)有著更加清晰的認(rèn)識。
2數(shù)據(jù)介紹和預(yù)處理
本文使用的WineReviews數(shù)據(jù)集的原始出處是WineEnthusiast網(wǎng)站上不同國家用戶對眾多紅酒的評論。本數(shù)據(jù)集主要包含了129970款紅酒的產(chǎn)地國(Country)、省份(Province)、城市(Region)、評分(Points)、描述(Description)、制造商(Winery)、品種(Variety)、價(jià)格(Price)等重要因素。數(shù)據(jù)集中,評分和價(jià)格都是數(shù)值型屬性,為了構(gòu)建決策樹模型,在預(yù)處理過程中,要對這兩個(gè)屬性進(jìn)行離散化處理。本文根據(jù)分?jǐn)?shù)的高低初步劃分這些紅酒的檔次,大于等于90分的為高等(High),大于等于85分,小于90分的為中等(Medium),小于85分的則為低等(Low)。同時(shí),本文對價(jià)格進(jìn)行排序,將紅酒的價(jià)格劃分為三個(gè)檔次:大于等于500美元的為貴(Expen-sive),大于等于100美元,小于500美元的為普通(Normal),小于100美元的為便宜(Cheap)。同時(shí)在這129970組數(shù)據(jù)當(dāng)中,缺失部分?jǐn)?shù)據(jù)的紅酒樣本會對計(jì)算產(chǎn)生影響,為消除這部分影響,本文刪除了部分?jǐn)?shù)值或資料缺失的樣本,保證紅酒數(shù)據(jù)的完整性,為后文中的預(yù)測模型的準(zhǔn)確性提供更加科學(xué)的依據(jù)。
3單因素?cái)?shù)據(jù)分析
3.1原產(chǎn)國、價(jià)格與評分
首先,本文將對129970款紅酒按照國家(country)分類,分別求出不同國家紅酒的平均價(jià)格和平均評分。使用了Excel的“分類匯總”功能,將國家作為“分類字段”,將“價(jià)格”和“評分”作為“匯總方式”,使用“平均值”作為匯總項(xiàng)。得到分類匯總的結(jié)果后,本文使用“定位”功能,將匯總結(jié)果單獨(dú)取出,使用EXCEL圖表中的“組合圖”,分別用柱形圖表示“評分”,用折線圖表示“價(jià)格”,得到結(jié)果如圖1所示。通過比較每個(gè)國家紅酒的平均價(jià)格與平均評分,我們可以判斷哪些國家的紅酒更加物美價(jià)廉。根據(jù)圖1我們分析得出,法國、匈牙利、盧森堡、德國、意大利等這些我們熟知的紅酒發(fā)展歷史悠久的歐洲國家的紅酒性價(jià)比反而比較低。反而,如印度、摩洛哥、阿爾巴尼亞、塞爾維亞、智利、土耳其等國家,其紅酒擁有不俗的品質(zhì),但是價(jià)格并不高,他們出產(chǎn)的紅酒往往是性價(jià)比高的選擇。其次,我們重點(diǎn)觀察了高品質(zhì)紅酒的原產(chǎn)地。紅酒平均得分最高的五個(gè)國家均在歐洲,分別是英國、奧地利、法國、德國和意大利。在亞洲國家中,評分最高的三個(gè)國家是土耳其、印度和以色列。韓國、中國、黑山共和國的紅酒的平均評分是最差的。由此可見,原產(chǎn)國對于紅酒的評分與價(jià)格或多或少產(chǎn)生了一定的影響,本文會將在多因素分析中進(jìn)一步解釋與說明。
3.2省份、價(jià)格與評分
本文使用同3.1相似的辦法,對各個(gè)原產(chǎn)國中不同省區(qū)(province)的性價(jià)比進(jìn)行了計(jì)算,發(fā)現(xiàn)每個(gè)原產(chǎn)國都會有至少一個(gè)較大的紅酒產(chǎn)區(qū)。這些較大的紅酒產(chǎn)區(qū)出產(chǎn)的紅酒評分都相對較高,同時(shí)價(jià)格也相對較昂貴。例如,我們熟知的法國波爾多紅酒產(chǎn)區(qū),其紅酒的平均得分在所有的省份中并不算很高,但紅酒的平均價(jià)格高達(dá)57.3美元(約合372.45元人民幣)。由此可見,出自著名產(chǎn)區(qū)的紅酒并不一定都是性價(jià)比可行的紅酒。同樣,本文將會在多因素分析中運(yùn)用決策樹算法進(jìn)一步研究省份對于價(jià)格與評分的影響。
3.3描述、價(jià)格與評分
如何預(yù)測一款紅酒的價(jià)格與評分,評價(jià)者們對紅酒的描述(description)也成為了一個(gè)不可或缺的因素。我們使用pythonNLTKpackage對描述中詞進(jìn)行解析統(tǒng)計(jì)。其中,出現(xiàn)頻率最高的Top10名詞是:wine,flavor,fruit,acid,cherri,aroma,tannin,palat,spice,間接說明了描述的內(nèi)容主要是以紅酒的氣味、口味為主,“果味”、“香料”、“酸甜度”都是評價(jià)一款紅酒很重要的因素。為了簡單分析紅酒描述對于價(jià)格和評分的影響,本文主要提取了6個(gè)不同方面的關(guān)鍵詞:絲滑(Smooth),純正(Pure),余味(Aftertaste),百分百(100%),顏色(Color)和新鮮(Fresh),并計(jì)算出含有這些高頻詞匯的紅酒平均價(jià)格與平均評分的關(guān)系。在性價(jià)比方面含有“新鮮”關(guān)鍵詞的紅酒性價(jià)最低,含有“百分百”關(guān)鍵詞的紅酒性價(jià)比最高。在評分方面,平均得分最高的是描述中含有“純正”關(guān)鍵詞的紅酒,為90.41;但這些紅酒價(jià)格不菲,平均價(jià)格為51.12美元。同時(shí)我們發(fā)現(xiàn),性價(jià)比相對較低的紅酒組平均得分也不是很高。由于描述眾多,不便于統(tǒng)計(jì),并且經(jīng)過初步分析,描述對于紅酒的性價(jià)比影響并不是很大,因此在下面的多因素分析中將暫時(shí)不作為自變量進(jìn)行分析。
3.4品種、價(jià)格與評分
如何更加全面準(zhǔn)確地預(yù)測紅酒的評分,紅酒的品種也是一個(gè)不可或缺的重要因素。本文運(yùn)用Excel當(dāng)中的“分類匯總”功能,將紅酒的性價(jià)比根據(jù)紅酒的種類進(jìn)行分類匯總并進(jìn)行比較。其中Nebbiolo的性價(jià)比最高,為0.68;最低的是Rosé,為0.20。而Nebbiolo品種的紅酒得分普遍較高,為90.22分,但價(jià)格也較為昂貴,平均價(jià)格為61.70美元(約合401.05人民幣),總體來看,評分較高的紅酒品種價(jià)格都相對較高,評分較低的紅酒品種也相對較便宜,因此紅酒的品種對于紅酒評分的預(yù)測基本呈正相關(guān),即越高檔的品種,預(yù)測的評分也會越高。3.5綜述在單因素?cái)?shù)據(jù)分析中,本文主要通過比較平均價(jià)格與平均得分的比值,初步對各個(gè)影響因素進(jìn)行初步的分析。本文初步認(rèn)為,原產(chǎn)國有可能會成為預(yù)測紅酒得分、價(jià)格模型中一個(gè)較為重要的評分標(biāo)準(zhǔn);描述也會有所影響,但是由于描述眾多,暫不作為預(yù)測紅酒評分的標(biāo)準(zhǔn)之一。本文將會在下一章中,運(yùn)用決策樹等經(jīng)典機(jī)器學(xué)習(xí)算法,進(jìn)一步分析各個(gè)因素對于紅酒品質(zhì)的影響,構(gòu)建評分預(yù)測模型。
4多因素?cái)?shù)據(jù)分析
為使該模型更加簡潔,本文通過計(jì)數(shù)的方式將48個(gè)國家分為US,F(xiàn)rance,Italy,Spain,Chile,Argentina,Portugal,Australia和Others九大類,其中前八類占總數(shù)據(jù)的90.75%;將446個(gè)省區(qū)分為California,Wash-ington,Tuscany,NorthernSpain,MendozaProvince,Oregon,Burgundy,Veneto,SouthAustralia,Piedmont,Bordeaux,NewYork,Sicily&Sardinia和Others十四類,其中前十三類占總數(shù)據(jù)的68.14%;將620個(gè)紅酒品種分為Chardonnay,WhiteBlend等和Others共二十類,其中除Others以外的其他類別占總數(shù)據(jù)的73.16%。這樣的提取基本可以為下面紅酒評分預(yù)測系統(tǒng)的測試提供可靠的規(guī)律。進(jìn)行該處理后,本文在每條數(shù)據(jù)后添加隨機(jī)數(shù)函數(shù)RAND,生成一個(gè)所在行的隨機(jī)數(shù),根據(jù)隨機(jī)數(shù)的大小對樣本進(jìn)行重新排序,并選取其中最先出現(xiàn)的20000款紅酒的數(shù)據(jù),作為我們的隨機(jī)樣本數(shù)據(jù),建立決策樹模型進(jìn)行分類和預(yù)測。在該決策樹模型中,本文以得分作為因變量,原產(chǎn)國,省區(qū)和品種作為自變量,價(jià)格為影響變量。選取這20000款中70%作為訓(xùn)練樣本,剩余的30%作為測試樣本。訓(xùn)練樣本的決策樹模型如圖2所示。根據(jù)計(jì)算結(jié)果分析,該決策樹模型的正確率約為87.8%,樹的深度為6,共有43個(gè)節(jié)點(diǎn)。其中,來自Tuscany,Burgundy,Bordeaux,Piedmont和SouthAus-tralia的Merlot,Syrah和Bordeaux-StyleWhiteBlend品種紅酒的預(yù)測得分最高,為93.602;來自Chil-e,Argentina,Spain和Portugal的Zinfandel,Sau-vignonBlanc,WhiteBlend,Rosé,Merlot,Nebbiolo和Shiraz品種的紅酒預(yù)測得分最低,為85.100.大多數(shù)紅酒的分?jǐn)?shù)都在87分至92分之間。據(jù)此,該模型基本可以準(zhǔn)確根據(jù)紅酒的原產(chǎn)國,省區(qū)和紅酒的品種對紅酒的評分進(jìn)行預(yù)測。
5總結(jié)
本文首先單因素分析了原產(chǎn)國,產(chǎn)地和品種對紅酒的價(jià)格與評分進(jìn)行了簡單的分析,之后以此為基礎(chǔ),運(yùn)用決策樹算法,建立了較為簡單的紅酒評分預(yù)測系統(tǒng)的模型。從實(shí)驗(yàn)結(jié)果來看,該系統(tǒng)的準(zhǔn)確率較高,因此基本可以說明紅酒的原產(chǎn)國,省份以及品種大致決定了紅酒的評分。但是,該紅酒評分預(yù)測系統(tǒng)也有一定的局限性。首先,隨機(jī)選取的樣本當(dāng)中不排除平均數(shù)值較實(shí)際數(shù)值偏低或偏高的情況,因此不一定能夠準(zhǔn)確地反映一款紅酒的整體水平;其次,該紅酒評分預(yù)測模型也只是通過分析紅酒的原產(chǎn)國、省份和品種而建立的,忽略了酒廠,描述以及品牌對于預(yù)測紅酒評分的影響,因此有可能會錯(cuò)誤地預(yù)測紅酒的評分。雖然有一定的局限性,但是該紅酒評分預(yù)測系統(tǒng)提供的數(shù)據(jù)依然有值得參考的價(jià)值,人們可以通過這個(gè)系統(tǒng)初步了解一款紅酒的得分,從而了解這款紅酒處于什么樣的檔次。同時(shí)隨著服務(wù)業(yè)的快速發(fā)展,該紅酒評分預(yù)測系統(tǒng)也將具有根據(jù)人們的需求為人們推薦評分較高或性價(jià)比較高的紅酒的功能,同時(shí)也會根據(jù)用戶對于這款紅酒的評論不斷更新紅酒的評分,使該紅酒評分預(yù)測系統(tǒng)更加完善。然而,無論該紅酒評分預(yù)測系統(tǒng)有多么地完善,真正評分高的紅酒,依然需要專業(yè)的品酒師進(jìn)行品鑒,提供更可靠,更科學(xué)的結(jié)論。
參考文獻(xiàn)
[1]尚朝軒.基于類決策樹分類的特征層融合識別算法[J].控制與決策,2016,31(6):1009-1014.
作者:王柏 單位:蘇州市第一中學(xué)校