亚洲午夜在线一区,一级a性色生活片久久毛片,亚洲综合色丁香婷婷六月图片

本站小編為你精心準(zhǔn)備了大數(shù)據(jù)的競(jìng)爭(zhēng)情報(bào)系統(tǒng)的研究參考范文，愿這些范文能點(diǎn)燃您思維的火花，激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

大數(shù)據(jù)的競(jìng)爭(zhēng)情報(bào)系統(tǒng)的研究

《廣東工業(yè)大學(xué)學(xué)報(bào)》2014年第二期

1系統(tǒng)總體設(shè)計(jì)

1．1系統(tǒng)目標(biāo)利用Hadoop平臺(tái)對(duì)大數(shù)據(jù)的處理能力，對(duì)系統(tǒng)采集的信息用基于Hadoop的KNN算法進(jìn)行處理分析，使得處理后的競(jìng)爭(zhēng)情報(bào)信息可以快速、準(zhǔn)確地顯示在用戶操作界面，讓用戶可以及時(shí)了解到自己所關(guān)注的信息．管理員通過(guò)系統(tǒng)，可以及時(shí)進(jìn)行信息的采集，并對(duì)信息進(jìn)行處理，普通用戶通過(guò)系統(tǒng)可以個(gè)性化的訂制競(jìng)爭(zhēng)對(duì)手的信息情報(bào)，并進(jìn)行檢索．

1．2系統(tǒng)總體架構(gòu)系統(tǒng)總體架構(gòu)如圖1所示．1）應(yīng)用層．在頂層提供統(tǒng)一信息門戶，為客戶提供各種信息和知識(shí)服務(wù)的窗口，同時(shí)也是平臺(tái)管理的入口．2）支撐層．提供文本挖掘和智能分析，以及基于MapReduce并行計(jì)算等功能模塊，支持對(duì)海量數(shù)據(jù)的檢索、挖掘、分析和服務(wù)等功能．3）數(shù)據(jù)層．?dāng)?shù)據(jù)層匯聚行業(yè)資源信息，形成統(tǒng)一規(guī)劃的數(shù)據(jù)庫(kù)，便于應(yīng)用服務(wù)．4）采集層．建立各種數(shù)據(jù)源相應(yīng)的數(shù)據(jù)適配器，實(shí)現(xiàn)對(duì)各種數(shù)據(jù)源的數(shù)據(jù)在線檢測(cè)和自動(dòng)采集．5）數(shù)據(jù)源．?dāng)?shù)據(jù)源是平臺(tái)建設(shè)的重要外部資源，是平臺(tái)體系架構(gòu)的一個(gè)虛擬層次，包括大量的行業(yè)信息源、用戶錄入企業(yè)信息等數(shù)據(jù)來(lái)源．6）身份認(rèn)證和安全體系。平臺(tái)安全系統(tǒng)設(shè)計(jì)除了包含計(jì)算機(jī)網(wǎng)絡(luò)、主機(jī)、應(yīng)用系統(tǒng)等進(jìn)行安全規(guī)劃之外，系統(tǒng)運(yùn)行的安全設(shè)計(jì)也是安全規(guī)劃的重要內(nèi)容之一．7）運(yùn)行維護(hù)保障體系．運(yùn)行維護(hù)保障機(jī)制包含統(tǒng)一性和標(biāo)準(zhǔn)性、公眾服務(wù)性、專業(yè)性、權(quán)威性．因此，運(yùn)行維護(hù)機(jī)制要把握3個(gè)要素：（1）要保持“庫(kù)”的內(nèi)容最新的現(xiàn)勢(shì)程度；（2）要適應(yīng)社會(huì)對(duì)“庫(kù)”多樣化的服務(wù)要求；（3）要提供簡(jiǎn)便、規(guī)范、暢通的基礎(chǔ)數(shù)據(jù)輸入／輸出手段．

2系統(tǒng)功能設(shè)計(jì)

主要運(yùn)用文本挖掘技術(shù)，將文本挖掘算法在MapReduce上實(shí)現(xiàn)并行化，提高信息的分析處理效率，以期可以迅速地提供市場(chǎng)行情信息的綜合分析結(jié)果．系統(tǒng)主要功能模塊如圖2所示．

3系統(tǒng)實(shí)現(xiàn)關(guān)鍵技術(shù)

3．1信息采集爬蟲技術(shù)本系統(tǒng)采用的是聚焦爬蟲，與通用爬蟲區(qū)別為不追求大范圍的覆蓋，而是將目標(biāo)設(shè)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè)，進(jìn)而為面向主題的用戶準(zhǔn)備數(shù)據(jù)來(lái)源［5］．通用的爬蟲是從一個(gè)或者多個(gè)初始的URL開始進(jìn)行爬取，在獲得初始URL抓取網(wǎng)頁(yè)內(nèi)容的過(guò)程中，不斷從當(dāng)前的網(wǎng)頁(yè)中抽取新的URL并放入隊(duì)列，直到滿足系統(tǒng)設(shè)定的爬取深度條件后停止．聚焦爬蟲的工作相比較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾去除與主題無(wú)關(guān)的URL，存儲(chǔ)有用的并將之放入等待隊(duì)列中，然后根據(jù)搜索條件從中選取下一步要爬取得URL，重復(fù)直到滿足停止條件為止［6］．同時(shí)，所有被爬蟲爬取過(guò)的網(wǎng)頁(yè)將會(huì)被存儲(chǔ)起來(lái)，然后通過(guò)分析、過(guò)濾并建立索引，以便后續(xù)的查詢和檢索．這個(gè)過(guò)程所得到的分析結(jié)果還可以對(duì)之后的抓取過(guò)程給出指導(dǎo)反饋．聚焦爬蟲工作流程如圖3所示．

3．2KNN分類算法最近鄰算法是模式識(shí)別中廣泛使用的分類方法，是模式識(shí)別非參數(shù)法中最重要的方法之一．K近鄰算法是最近鄰算法的一個(gè)推廣，當(dāng)k＝1時(shí)，就是最近鄰算法．NN強(qiáng)調(diào)最近點(diǎn)的重要性，而KNN是從總體考慮，是一種更普遍的方法．KNN的分類思想是給定一個(gè)未知文本，在訓(xùn)練數(shù)據(jù)中找出與其最相似的K個(gè)訓(xùn)練文本，即是這個(gè)未知樣本的K個(gè)近鄰．然后根據(jù)這K個(gè)近鄰來(lái)確定未知樣本所屬的類別，可以把未知樣本分到K個(gè)近鄰最公共的類中，也可以分到K個(gè)近鄰中權(quán)重最大的類中．K近鄰算法的簡(jiǎn)單示意圖如圖2所示。

3．3KNN分類算法的MapReduce并行化方法KNN算法盡管原理比較簡(jiǎn)單，但是其計(jì)算量很大，對(duì)其空間和時(shí)間要求都比較高［9］，所以提出將KNN算法運(yùn)用到MapReduce上進(jìn)行并行化計(jì)算，以提高運(yùn)行效率。MapReduce技術(shù)最開始是被Google用于大數(shù)據(jù)并行處理［10］，基本思想是將大數(shù)據(jù)集分割成無(wú)數(shù)的小數(shù)據(jù)集，然后每個(gè)數(shù)據(jù)集分別有集群中的一個(gè)Map函數(shù)執(zhí)行計(jì)算任務(wù)，生成中間結(jié)果，從而作為Reduce函數(shù)的輸入執(zhí)行計(jì)算任務(wù)，得到結(jié)果．MapReduce的編程模型［11］如圖5所示．

3．3．1文檔特征空間和相似度計(jì)算本系統(tǒng)采用向量空間模型［12］來(lái)描述所收集的情報(bào)信息文檔，每個(gè)輿情文檔都可以表示成一個(gè)特征向量其中tN為特征項(xiàng)，即為特征詞，wN為在D中的權(quán)值，特征權(quán)值計(jì)算公式采用TFIDF算法，如式（1）所示：中TF表示一個(gè)特征詞與某個(gè)文檔的相關(guān)性，IDF表示一個(gè)特征詞表示文檔主題的權(quán)重大?。瓺K為特征詞在文檔出現(xiàn)的次數(shù)，Aik為文檔所有特征詞數(shù)．N為訓(xùn)練集的文檔總數(shù)，Nk為出現(xiàn)特征詞的文檔數(shù)．計(jì)算出TFIDF后，對(duì)于海量數(shù)據(jù)，其包含的特征詞數(shù)目比較多，所以必須進(jìn)行降維，通過(guò)對(duì)計(jì)算出的TFIDF值排序然后設(shè)定閥值，選取若干個(gè)特征詞，同時(shí)，利用Hadoop平臺(tái)的MapReduce進(jìn)行架構(gòu)從而實(shí)現(xiàn)對(duì)TFIDF的并行計(jì)算，進(jìn)而有效地提高運(yùn)行效率，但是在Hadoop平臺(tái)中，數(shù)據(jù)經(jīng)過(guò)Map函數(shù)處理后默認(rèn)是按照key值升序排序的，因此可以按照1／TFIDF值得方法取得升序排列的前若干位數(shù)值即TFIDF按照降序排序的相應(yīng)若干較大值［16］．當(dāng)計(jì)算兩個(gè)網(wǎng)頁(yè)的相似度時(shí)，需要計(jì)算兩個(gè)文檔間的相似度．本文采用的是余弦相似度，如式（2）所示：通過(guò)對(duì)di和dj兩篇文檔的特征向量進(jìn)行計(jì)算，可以得到文檔間的相似度．相似度越大，說(shuō)明兩篇文本相關(guān)程度越高，反之，相關(guān)程度越低．相似度在［0，1］之間取值，當(dāng)兩篇文本無(wú)關(guān)時(shí)，相似度為0，相似性越高，則相似度趨向于1．

3．3．2KNN分布式計(jì)算KNN算法根據(jù)不同文檔之間計(jì)算的余弦相似度進(jìn)而通過(guò)選取適當(dāng)?shù)腒值，可以求出最近鄰的K個(gè)文檔．由于任意兩篇文檔間的相似度計(jì)算和排序都互不相關(guān)，所以可以并行進(jìn)行．求任一類中的文本在不是自己本身類別中的n個(gè)最近鄰的文檔．所有的Map節(jié)點(diǎn)讀取余弦相似度結(jié)果，并根據(jù)每個(gè)文本的類別，選出與自身類別不同的文本相似度并進(jìn)行格式轉(zhuǎn)換，結(jié)果輸出為（（filenamei，Simij），filenamej：typej）．其中Simij表示文本間的相似度，typej表示測(cè)試文本分到的類別．Map輸出結(jié)果中的key值是一個(gè)自定義的數(shù)組形式Key（String，float），MapReduce框架中Map過(guò)程和Reduce過(guò)程之間根據(jù)Key值進(jìn)行排序，即按照f(shuō)ilename排序，但因?yàn)樾鑼⑼粋€(gè)filename相關(guān)的Sim分配到同一個(gè)Reduce節(jié)點(diǎn)，所以要將相同filename的Sim值進(jìn)行降序排列．經(jīng)過(guò)兩次排序后，Map的輸出作為Reduce的輸入，即（（filenamei，Simij），filenamej：typej），根據(jù)排序的結(jié)果，選擇每個(gè)文檔的前K個(gè)最近鄰文檔，從而將測(cè)試文檔歸入到type類中．

4運(yùn)行結(jié)果

本系統(tǒng)沒有針對(duì)某一特定行業(yè)，實(shí)驗(yàn)主要通過(guò)網(wǎng)上爬蟲采集網(wǎng)頁(yè)內(nèi)容來(lái)進(jìn)行，如計(jì)算機(jī)類、體育類等．對(duì)于某一具體行業(yè)只要將相關(guān)的分類信息做修改配置即可．

4．1用戶界面用戶界面分為管理員界面和企業(yè)用戶界面，管理員界面比普通企業(yè)用戶界面多一個(gè)后臺(tái)管理模塊．企業(yè)用戶主要的操作功能是查詢結(jié)果、對(duì)競(jìng)爭(zhēng)情報(bào)的信息錄入以及用戶信息的相關(guān)操作等，而管理員則除了具備企業(yè)用戶的功能外，還可以對(duì)信息處理，如定期爬取用戶訂制的情報(bào)內(nèi)容，對(duì)爬去內(nèi)容進(jìn)行預(yù)處理并做分類處理，同時(shí)將結(jié)果保存起來(lái)以備用戶查詢．

4．2查看初步結(jié)果通過(guò)用戶操作模塊可以查看用戶所關(guān)注的競(jìng)爭(zhēng)對(duì)手的情況，也可以查看系統(tǒng)自整理的信息．當(dāng)用戶選擇自己關(guān)注的選項(xiàng)時(shí)，可以查看整理歸納后的信息，了解自定義的信息．當(dāng)選擇查看系統(tǒng)自整理信息時(shí)，企業(yè)用戶可以看到除了自定義的領(lǐng)域外，系統(tǒng)其他用戶所共同關(guān)注的信息，了解多點(diǎn)信息，拓寬自己的領(lǐng)域．

4．3查看詳細(xì)的內(nèi)容企業(yè)用戶點(diǎn)擊經(jīng)過(guò)分類后的信息，可以查看信息的具體內(nèi)容，內(nèi)容顯示在彈出框中．如需查看信息的網(wǎng)頁(yè)的初始內(nèi)容，點(diǎn)擊信息的URL可以跳轉(zhuǎn)到信息的原頁(yè)面．同時(shí)也可以看到該信息被歸納后的類別．

4．4分析可視化界面通過(guò)對(duì)情報(bào)信息的一系列操作后，根據(jù)結(jié)果生成關(guān)于某一具體類別的技術(shù)網(wǎng)絡(luò)圖，通過(guò)技術(shù)網(wǎng)絡(luò)圖可以幫助企業(yè)了解信息間的關(guān)聯(lián)，從而更好地作出決策，網(wǎng)絡(luò)圖如圖6所示。5結(jié)束語(yǔ)對(duì)大數(shù)據(jù)的處理不僅僅對(duì)企業(yè)競(jìng)爭(zhēng)決策起到重要作用，也可以提高企業(yè)的競(jìng)爭(zhēng)力．而競(jìng)爭(zhēng)情報(bào)系統(tǒng)更能為企業(yè)在大數(shù)據(jù)環(huán)境下提供有效的決策和有價(jià)值的信息．本文提出將基于Hadoop的KNN算法用于企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)中，從而可以緩解對(duì)于競(jìng)爭(zhēng)情報(bào)的傳統(tǒng)處理方式帶來(lái)的弊端，降低系統(tǒng)運(yùn)行的時(shí)間和空間復(fù)雜度，進(jìn)而使本系統(tǒng)更加有效地適應(yīng)當(dāng)今大數(shù)據(jù)環(huán)境．

作者：王勇許鐘濤王瑛單位：廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院

在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

大數(shù)據(jù)的競(jìng)爭(zhēng)情報(bào)系統(tǒng)的研究范文

擴(kuò)展閱讀

推薦期刊

數(shù)據(jù)

大數(shù)據(jù)

大數(shù)據(jù)時(shí)代

文獻(xiàn)與數(shù)據(jù)學(xué)報(bào)

精品推薦