在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網 資料文庫 數據挖掘在電子閱讀營銷中的應用范文

數據挖掘在電子閱讀營銷中的應用范文

本站小編為你精心準備了數據挖掘在電子閱讀營銷中的應用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

數據挖掘在電子閱讀營銷中的應用

閱讀是人類獲取知識的一種方式。人們可以根據自己的興趣愛好來選擇相關的內容進行閱讀。在過去的時候我們主要是以閱讀紙質的圖書為主,比如圖書、報紙、雜志等紙質讀物。但是隨著信息技術的發展,尤其網絡通信技術和智能移動終端技術的不斷創新和發展使得人們的閱讀方式在原有的基礎上發生了重大的改變即誕生了電子書。電子書以其容量大、體積小、攜帶方便等優點受到了廣大消費者的歡迎。隨著人們的對電子書的閱讀體驗要求越來越高。而且從互聯網中搜索讀者感興趣的資料,如大海撈針既盲目又浪費了好多寶貴時間。因此需要付費的電子書或相關的網站便應運而生。付費閱讀也因其質優價廉的服務深受廣大讀者的喜愛。隨著閱讀電子書的群體不斷壯大,所以付費閱讀的市場也在隨著不斷變大。因此存在著大量的潛在客戶。如何從這些潛在的客戶中挖掘出自己真正的客戶從而來增加收入成為了擺在提供付費閱讀公司的面前的一個難題。本文則根據讀者的行為數據借助數據挖掘的方法,從大量的未付費的讀者中找出極有可能付費的讀者,從而根據他們的興趣愛好采取相關的營銷策略,使他們轉化為付費讀者。從而達到精準營銷[3]的目的。

1.數據挖掘

數據挖掘[2]作為一種多學科綜合的產物,綜合利用人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,自動分析數據并從中得到潛在隱含的知識,從而幫助決策者做出合理并正確的決策。

1.1數據挖掘的功能目前數據挖掘的主要功能包括概念描述、關聯分析、分類、聚類和偏差檢測等。概念描述主要用于描述對象內涵并且概括對象相關特征,概念描述分為特征性描述和區別性描述,特征性描述描述對象的相同特征,區別性描述描述對象的不同特征;關聯分析主要用來發現數據庫中相關的知識以及數據之間的規律,關聯分為簡單關聯、時序關聯、因果關聯;分類和聚類就是根據需要訓練相應的樣本來對數據分類和合并;偏差分析用于對對象中異常數據的檢測。

1.2數據挖掘過程數據挖掘主要分3個階段:數據準備、數據挖掘、結果的評價和表達。數據準備主要是完成對大量數據的選擇、凈化、推測、轉換、數據的縮減,數據準備階段的工作好壞將影響到數據挖掘的效率和準確度以及最終模式的有效性,在數據準備階段可以消除在挖掘過程中無用的數據,從而提高數據挖掘的效率和準確度;數據挖掘的工作首先需要選擇相應的挖掘實施算法,例如決策樹、分類、聚類、粗糙集、關聯規則、神經網絡、遺傳算法等,然后對數據進行分析,從而得到知識的模型;結果評價和表達主要是確定知識的模式模型是否有效以便發現有意義的模型

數據挖掘分類算法分類[1]是一種重要的數據挖掘技術。分類的目的是根據數據集的特點構造一個分類函數或分類模型(也常常稱作分類器),該模型能把未知類別的樣本映射到給定類別中的某一個。分類和回歸都可以用于預測。和回歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出是連續或有序值。構造模型的過程一般分為訓練和測試兩個階段。在構造模型之前,要求將數據集隨機地分為訓練數據集和測試數據集。在訓練階段,使用訓練數據集,通過分析由屬性描述的數據庫元組來構造模型,假定每個元組屬于一個預定義的類,由一個稱作類標號屬性的屬性來確定。在測試階段,使用測試數據集來評估模型的分類準確率,如果認為模型的準確率可以接受,就可以用該模型對其它數據元組進行分類。常用的分類算法有決策樹、K-NN[5]、樸素貝葉斯[6]等算法。

2.相關工作

2.1數據理解拿到讀者閱讀的行為數據后,首先要看一下數據具有哪些屬性,各個屬性都代表什么含義。有些屬性的信息我們可以從數據的屬性名稱中獲得,有的則需要我們進一部分析其含義。除此之外在看到數據后我們要明確我們要拿這些數據干什么。在明確了以上幾點后我們要看看數據的完整性和合理性。是否存在異常值和缺失值。如果存在以上問題的話我們要采用相應的方法進行處理。以下閱讀數據各個字段的名稱由于涉及讀者隱私我們將屬性中的電話一列刪除。

2.2.K-NN算法

2.2.1K-NN算法原理k-NN算法的核心思想:如果一個樣本在特征空間中的k個最鄰近的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。k-NN方法在類別決策時,只與極少量的相鄰樣本有關。圖中正方形要被決定賦予哪個類,是三角形還是圓形?如果k=3,我們從圖中找出與正方形距離最近的三個圖形。由于三角形所占比例為2/3,那么我們則認為正方形和三角形屬于一類,如果k=7,由于圓形的比例為4/7,因此我們認為正方形和圓形屬于一類。

2.2.2K-NN算法步驟算法步驟:(1)初始化距離為最大距離(2)計算未知樣本和每個訓練樣本的距離dist(3)得到目前k個最臨近樣本中的最大距離maxdist(4)如果dist小于maxdist,則將該訓練樣本作為K-最近鄰樣本(5)重復步驟2、3、4,直到未知樣本和所有訓練樣本的距離都算完(6)統計K-最近鄰樣本中每個類標號出現的次數(7)選擇出現頻率最大的類標號作為未知樣本的類標號

2.2.3距離計算計算各數據集各數據對象之間的距離即“親疏程度”時可以根據實際的需要選擇歐氏距離(EuclideanDistance)、切比雪夫距離(ChebyshevDistance)、Block距離等。由于k-NN算法所處理的變量為數值類型的,因此本文采用歐氏距離進行計算,即數據點x和y之間的歐氏距離是兩點的P個變量值之差的平方和的平方根,數學定義為:

3實驗和分析

3.1實驗(1)數據來源:本文來源于某個提供電子閱讀服務的網站,從中隨機的抽取400百條作為實驗數據,其中300條做作為模型訓練數據,剩下的100條作為模型的測試數據。(2)實驗工具:SDABASDM[4](3)實驗設計:數據信息如上表表1所示。我們將數據中的付費屬性作為每條數據的標簽屬性。由于表中的付費屬性波動比較大,這里我們人為的將該屬性設置為yes/no(付費用戶為yes未付費用戶為no)處理后數據如下表所示。利用訓練數據創建模型,并用測試數據進行驗證,同時采用準確率和召回率兩個指標來判斷模型的好壞。

3.2分析當k=3得到如下結果觀察當k取3和5兩個不同值時的結果,我們可以發現當k=3是的準確率為76%當k=5準確率為78%;當k=3時,兩個類別的召回率分別為81.25%和55.00%,當k=5時兩個類別的召回率分別為83.25%和55.00%。從上面的兩個指標比較發現將k值設置為5的時,模型的準確率較高,故模型效果較好。上面的兩個實驗我們把所有的數據屬性都用于建模,但是實際情況中并不是所有的屬性對建模有用,里面可能存在一些和建模無關的屬性,所以我們需要適當的刪除一些對建模沒用的屬性。通過分析數據我們認為下載次數、城市ID、是否為新用戶、訂閱次數、記錄日期、閱讀章節數這幾個屬性對創建模型影響不大,不將這些屬性用于建模。那么剩下的用于建模的屬性為總登陸數、點擊次數、移動設備登陸次數。由于這三個屬性都是數值型的數據,離散程度比較大,所以我們將這三個屬性的數據離散為幾個等級然后用于建模。等級的個數我們用n表示。觀察上面的結果當k=3,n=3時accuracy:82.00%,classre-call分別為82.50%和80.00%;當k=5,n=3時accuracy:74.00%,classrecall分別為82.50%和80.00%;同過比較準確率和召回率我們可以發現將參數k和n的值都設定為3時,模型的效果比較好。當k=5,n=3時有一個召回率的值為0,不符合實際。故將模型參數設置為k=3,n=5。

4結束語

通過利用訓練數據和測試數據,我們采用數據挖掘分類算法中的K-NN算法,應用SDABAS-DM軟件構建了讀者的分類模型,我們可以從大量的未付費讀者的數據中,利用該分類模型從中找出可能付費的潛在讀者。從而有目的的采取相應的營銷手段來增加付費用戶的數量。另外隨著數據量的積累越來越多,我們將會采用更多具有代表性的數據集來作為訓練數據,這樣分類模型將更加合理和完善從而達到精準營銷的目的。

作者:藺曉棟 劉博 殷旭 單位:北京信息科技大學

主站蜘蛛池模板: 国产一区免费在线观看 | 亚洲视频2 | 成人四虎| 亚洲精品综合久久中文字幕 | 九九视频在线看精品 | 国产精品久久免费视频 | 亚洲爽视频 | 亚洲福利视频一区二区 | 中文免费观看视频网站 | 欧美在线观看第一页 | 男人的天堂网在线 | 亚洲视频在线一区二区三区 | 亚洲狠狠干 | 色五五月| 一区二区久久 | 亚洲不卡av不卡一区二区 | 导航福利大全 | 久久免费视频精品 | 亚洲第一区精品观看 | 欧美精品久久久久久久久大尺度 | 四虎网站网址 | 成人区精品一区二区不卡亚洲 | 免费羞羞网站 | 久久综合免费视频 | 亚洲天堂伊人 | 婷婷国产天堂久久综合五月 | 亚洲福利视频一区二区 | 亚洲欧美在线观看首页 | 亚洲高清自拍 | 伊人久久天堂 | 香蕉视频禁18 | 亚洲爱爱爱 | 最近的中文字幕 | 羞羞动漫在线免费观看 | 亚洲人成一区二区三区 | 亚洲欧美偷拍视频 | 久久久久久久国产精品视频 | 亚洲一区二区三区麻豆 | 国产精品久久久久久一区二区 | 精品视频网 | 久久精品国产波多野结衣 |