在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網(wǎng) 資料文庫(kù) 大數(shù)據(jù)的競(jìng)爭(zhēng)情報(bào)系統(tǒng)的研究范文

大數(shù)據(jù)的競(jìng)爭(zhēng)情報(bào)系統(tǒng)的研究范文

本站小編為你精心準(zhǔn)備了大數(shù)據(jù)的競(jìng)爭(zhēng)情報(bào)系統(tǒng)的研究參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

大數(shù)據(jù)的競(jìng)爭(zhēng)情報(bào)系統(tǒng)的研究

《廣東工業(yè)大學(xué)學(xué)報(bào)》2014年第二期

1系統(tǒng)總體設(shè)計(jì)

1.1系統(tǒng)目標(biāo)利用Hadoop平臺(tái)對(duì)大數(shù)據(jù)的處理能力,對(duì)系統(tǒng)采集的信息用基于Hadoop的KNN算法進(jìn)行處理分析,使得處理后的競(jìng)爭(zhēng)情報(bào)信息可以快速、準(zhǔn)確地顯示在用戶操作界面,讓用戶可以及時(shí)了解到自己所關(guān)注的信息.管理員通過(guò)系統(tǒng),可以及時(shí)進(jìn)行信息的采集,并對(duì)信息進(jìn)行處理,普通用戶通過(guò)系統(tǒng)可以個(gè)性化的訂制競(jìng)爭(zhēng)對(duì)手的信息情報(bào),并進(jìn)行檢索.

1.2系統(tǒng)總體架構(gòu)系統(tǒng)總體架構(gòu)如圖1所示.1)應(yīng)用層.在頂層提供統(tǒng)一信息門戶,為客戶提供各種信息和知識(shí)服務(wù)的窗口,同時(shí)也是平臺(tái)管理的入口.2)支撐層.提供文本挖掘和智能分析,以及基于MapReduce并行計(jì)算等功能模塊,支持對(duì)海量數(shù)據(jù)的檢索、挖掘、分析和服務(wù)等功能.3)數(shù)據(jù)層.?dāng)?shù)據(jù)層匯聚行業(yè)資源信息,形成統(tǒng)一規(guī)劃的數(shù)據(jù)庫(kù),便于應(yīng)用服務(wù).4)采集層.建立各種數(shù)據(jù)源相應(yīng)的數(shù)據(jù)適配器,實(shí)現(xiàn)對(duì)各種數(shù)據(jù)源的數(shù)據(jù)在線檢測(cè)和自動(dòng)采集.5)數(shù)據(jù)源.?dāng)?shù)據(jù)源是平臺(tái)建設(shè)的重要外部資源,是平臺(tái)體系架構(gòu)的一個(gè)虛擬層次,包括大量的行業(yè)信息源、用戶錄入企業(yè)信息等數(shù)據(jù)來(lái)源.6)身份認(rèn)證和安全體系。平臺(tái)安全系統(tǒng)設(shè)計(jì)除了包含計(jì)算機(jī)網(wǎng)絡(luò)、主機(jī)、應(yīng)用系統(tǒng)等進(jìn)行安全規(guī)劃之外,系統(tǒng)運(yùn)行的安全設(shè)計(jì)也是安全規(guī)劃的重要內(nèi)容之一.7)運(yùn)行維護(hù)保障體系.運(yùn)行維護(hù)保障機(jī)制包含統(tǒng)一性和標(biāo)準(zhǔn)性、公眾服務(wù)性、專業(yè)性、權(quán)威性.因此,運(yùn)行維護(hù)機(jī)制要把握3個(gè)要素:(1)要保持“庫(kù)”的內(nèi)容最新的現(xiàn)勢(shì)程度;(2)要適應(yīng)社會(huì)對(duì)“庫(kù)”多樣化的服務(wù)要求;(3)要提供簡(jiǎn)便、規(guī)范、暢通的基礎(chǔ)數(shù)據(jù)輸入/輸出手段.

2系統(tǒng)功能設(shè)計(jì)

主要運(yùn)用文本挖掘技術(shù),將文本挖掘算法在MapReduce上實(shí)現(xiàn)并行化,提高信息的分析處理效率,以期可以迅速地提供市場(chǎng)行情信息的綜合分析結(jié)果.系統(tǒng)主要功能模塊如圖2所示.

3系統(tǒng)實(shí)現(xiàn)關(guān)鍵技術(shù)

3.1信息采集爬蟲技術(shù)本系統(tǒng)采用的是聚焦爬蟲,與通用爬蟲區(qū)別為不追求大范圍的覆蓋,而是將目標(biāo)設(shè)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè),進(jìn)而為面向主題的用戶準(zhǔn)備數(shù)據(jù)來(lái)源[5].通用的爬蟲是從一個(gè)或者多個(gè)初始的URL開始進(jìn)行爬取,在獲得初始URL抓取網(wǎng)頁(yè)內(nèi)容的過(guò)程中,不斷從當(dāng)前的網(wǎng)頁(yè)中抽取新的URL并放入隊(duì)列,直到滿足系統(tǒng)設(shè)定的爬取深度條件后停止.聚焦爬蟲的工作相比較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾去除與主題無(wú)關(guān)的URL,存儲(chǔ)有用的并將之放入等待隊(duì)列中,然后根據(jù)搜索條件從中選取下一步要爬取得URL,重復(fù)直到滿足停止條件為止[6].同時(shí),所有被爬蟲爬取過(guò)的網(wǎng)頁(yè)將會(huì)被存儲(chǔ)起來(lái),然后通過(guò)分析、過(guò)濾并建立索引,以便后續(xù)的查詢和檢索.這個(gè)過(guò)程所得到的分析結(jié)果還可以對(duì)之后的抓取過(guò)程給出指導(dǎo)反饋.聚焦爬蟲工作流程如圖3所示.

3.2KNN分類算法最近鄰算法是模式識(shí)別中廣泛使用的分類方法,是模式識(shí)別非參數(shù)法中最重要的方法之一.K近鄰算法是最近鄰算法的一個(gè)推廣,當(dāng)k=1時(shí),就是最近鄰算法.NN強(qiáng)調(diào)最近點(diǎn)的重要性,而KNN是從總體考慮,是一種更普遍的方法.KNN的分類思想是給定一個(gè)未知文本,在訓(xùn)練數(shù)據(jù)中找出與其最相似的K個(gè)訓(xùn)練文本,即是這個(gè)未知樣本的K個(gè)近鄰.然后根據(jù)這K個(gè)近鄰來(lái)確定未知樣本所屬的類別,可以把未知樣本分到K個(gè)近鄰最公共的類中,也可以分到K個(gè)近鄰中權(quán)重最大的類中.K近鄰算法的簡(jiǎn)單示意圖如圖2所示。

3.3KNN分類算法的MapReduce并行化方法KNN算法盡管原理比較簡(jiǎn)單,但是其計(jì)算量很大,對(duì)其空間和時(shí)間要求都比較高[9],所以提出將KNN算法運(yùn)用到MapReduce上進(jìn)行并行化計(jì)算,以提高運(yùn)行效率。MapReduce技術(shù)最開始是被Google用于大數(shù)據(jù)并行處理[10],基本思想是將大數(shù)據(jù)集分割成無(wú)數(shù)的小數(shù)據(jù)集,然后每個(gè)數(shù)據(jù)集分別有集群中的一個(gè)Map函數(shù)執(zhí)行計(jì)算任務(wù),生成中間結(jié)果,從而作為Reduce函數(shù)的輸入執(zhí)行計(jì)算任務(wù),得到結(jié)果.MapReduce的編程模型[11]如圖5所示.

3.3.1文檔特征空間和相似度計(jì)算本系統(tǒng)采用向量空間模型[12]來(lái)描述所收集的情報(bào)信息文檔,每個(gè)輿情文檔都可以表示成一個(gè)特征向量其中tN為特征項(xiàng),即為特征詞,wN為在D中的權(quán)值,特征權(quán)值計(jì)算公式采用TFIDF算法,如式(1)所示:中TF表示一個(gè)特征詞與某個(gè)文檔的相關(guān)性,IDF表示一個(gè)特征詞表示文檔主題的權(quán)重大?。瓺K為特征詞在文檔出現(xiàn)的次數(shù),Aik為文檔所有特征詞數(shù).N為訓(xùn)練集的文檔總數(shù),Nk為出現(xiàn)特征詞的文檔數(shù).計(jì)算出TFIDF后,對(duì)于海量數(shù)據(jù),其包含的特征詞數(shù)目比較多,所以必須進(jìn)行降維,通過(guò)對(duì)計(jì)算出的TFIDF值排序然后設(shè)定閥值,選取若干個(gè)特征詞,同時(shí),利用Hadoop平臺(tái)的MapReduce進(jìn)行架構(gòu)從而實(shí)現(xiàn)對(duì)TFIDF的并行計(jì)算,進(jìn)而有效地提高運(yùn)行效率,但是在Hadoop平臺(tái)中,數(shù)據(jù)經(jīng)過(guò)Map函數(shù)處理后默認(rèn)是按照key值升序排序的,因此可以按照1/TFIDF值得方法取得升序排列的前若干位數(shù)值即TFIDF按照降序排序的相應(yīng)若干較大值[16].當(dāng)計(jì)算兩個(gè)網(wǎng)頁(yè)的相似度時(shí),需要計(jì)算兩個(gè)文檔間的相似度.本文采用的是余弦相似度,如式(2)所示:通過(guò)對(duì)di和dj兩篇文檔的特征向量進(jìn)行計(jì)算,可以得到文檔間的相似度.相似度越大,說(shuō)明兩篇文本相關(guān)程度越高,反之,相關(guān)程度越低.相似度在[0,1]之間取值,當(dāng)兩篇文本無(wú)關(guān)時(shí),相似度為0,相似性越高,則相似度趨向于1.

3.3.2KNN分布式計(jì)算KNN算法根據(jù)不同文檔之間計(jì)算的余弦相似度進(jìn)而通過(guò)選取適當(dāng)?shù)腒值,可以求出最近鄰的K個(gè)文檔.由于任意兩篇文檔間的相似度計(jì)算和排序都互不相關(guān),所以可以并行進(jìn)行.求任一類中的文本在不是自己本身類別中的n個(gè)最近鄰的文檔.所有的Map節(jié)點(diǎn)讀取余弦相似度結(jié)果,并根據(jù)每個(gè)文本的類別,選出與自身類別不同的文本相似度并進(jìn)行格式轉(zhuǎn)換,結(jié)果輸出為((filenamei,Simij),filenamej:typej).其中Simij表示文本間的相似度,typej表示測(cè)試文本分到的類別.Map輸出結(jié)果中的key值是一個(gè)自定義的數(shù)組形式Key(String,float),MapReduce框架中Map過(guò)程和Reduce過(guò)程之間根據(jù)Key值進(jìn)行排序,即按照f(shuō)ilename排序,但因?yàn)樾鑼⑼粋€(gè)filename相關(guān)的Sim分配到同一個(gè)Reduce節(jié)點(diǎn),所以要將相同filename的Sim值進(jìn)行降序排列.經(jīng)過(guò)兩次排序后,Map的輸出作為Reduce的輸入,即((filenamei,Simij),filenamej:typej),根據(jù)排序的結(jié)果,選擇每個(gè)文檔的前K個(gè)最近鄰文檔,從而將測(cè)試文檔歸入到type類中.

4運(yùn)行結(jié)果

本系統(tǒng)沒有針對(duì)某一特定行業(yè),實(shí)驗(yàn)主要通過(guò)網(wǎng)上爬蟲采集網(wǎng)頁(yè)內(nèi)容來(lái)進(jìn)行,如計(jì)算機(jī)類、體育類等.對(duì)于某一具體行業(yè)只要將相關(guān)的分類信息做修改配置即可.

4.1用戶界面用戶界面分為管理員界面和企業(yè)用戶界面,管理員界面比普通企業(yè)用戶界面多一個(gè)后臺(tái)管理模塊.企業(yè)用戶主要的操作功能是查詢結(jié)果、對(duì)競(jìng)爭(zhēng)情報(bào)的信息錄入以及用戶信息的相關(guān)操作等,而管理員則除了具備企業(yè)用戶的功能外,還可以對(duì)信息處理,如定期爬取用戶訂制的情報(bào)內(nèi)容,對(duì)爬去內(nèi)容進(jìn)行預(yù)處理并做分類處理,同時(shí)將結(jié)果保存起來(lái)以備用戶查詢.

4.2查看初步結(jié)果通過(guò)用戶操作模塊可以查看用戶所關(guān)注的競(jìng)爭(zhēng)對(duì)手的情況,也可以查看系統(tǒng)自整理的信息.當(dāng)用戶選擇自己關(guān)注的選項(xiàng)時(shí),可以查看整理歸納后的信息,了解自定義的信息.當(dāng)選擇查看系統(tǒng)自整理信息時(shí),企業(yè)用戶可以看到除了自定義的領(lǐng)域外,系統(tǒng)其他用戶所共同關(guān)注的信息,了解多點(diǎn)信息,拓寬自己的領(lǐng)域.

4.3查看詳細(xì)的內(nèi)容企業(yè)用戶點(diǎn)擊經(jīng)過(guò)分類后的信息,可以查看信息的具體內(nèi)容,內(nèi)容顯示在彈出框中.如需查看信息的網(wǎng)頁(yè)的初始內(nèi)容,點(diǎn)擊信息的URL可以跳轉(zhuǎn)到信息的原頁(yè)面.同時(shí)也可以看到該信息被歸納后的類別.

4.4分析可視化界面通過(guò)對(duì)情報(bào)信息的一系列操作后,根據(jù)結(jié)果生成關(guān)于某一具體類別的技術(shù)網(wǎng)絡(luò)圖,通過(guò)技術(shù)網(wǎng)絡(luò)圖可以幫助企業(yè)了解信息間的關(guān)聯(lián),從而更好地作出決策,網(wǎng)絡(luò)圖如圖6所示。5結(jié)束語(yǔ)對(duì)大數(shù)據(jù)的處理不僅僅對(duì)企業(yè)競(jìng)爭(zhēng)決策起到重要作用,也可以提高企業(yè)的競(jìng)爭(zhēng)力.而競(jìng)爭(zhēng)情報(bào)系統(tǒng)更能為企業(yè)在大數(shù)據(jù)環(huán)境下提供有效的決策和有價(jià)值的信息.本文提出將基于Hadoop的KNN算法用于企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)中,從而可以緩解對(duì)于競(jìng)爭(zhēng)情報(bào)的傳統(tǒng)處理方式帶來(lái)的弊端,降低系統(tǒng)運(yùn)行的時(shí)間和空間復(fù)雜度,進(jìn)而使本系統(tǒng)更加有效地適應(yīng)當(dāng)今大數(shù)據(jù)環(huán)境.

作者:王勇許鐘濤王瑛單位:廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院

主站蜘蛛池模板: 自拍偷拍欧美视频 | 国产成人久久综合二区 | 亚洲成人在线网站 | 在线视频一区二区三区三区不卡 | 小 视频 黄| 中文精品久久久久国产网址 | 羞羞视频免费网站 | 国产精品九九免费视频 | 制服丝袜天堂 | 羞羞影院男女午夜爽爽影视 | 久久免费视频观看 | 2021国产麻豆剧传媒官网 | 亚洲国产片| 色偷偷男人天堂 | 欧美人成一本免费观看视频 | 成人毛片一区二区三区 | 最新1024国产在线观看你懂的 | 中文字幕一区二区三区久久网站 | 午夜啪啪福利视频 | 亚洲欧美一区二区三区蜜芽 | 国产亚洲一欧美一区二区三区 | 久久66久这里精品99 | 中文国产成人精品久久久 | 亚洲午夜精品国产电影在线观看 | 怡春院欧美一区二区三区免费 | 国产羞羞视频在线播放 | 操三八男人的天堂 | 伊人狠狠色丁香婷婷综合下载 | 在线成人国产 | 亚洲男人的天堂成人 | 久久久久国产成人精品亚洲午夜 | 亚洲午夜电影在线观看高清 | 在线你懂得 | 亚洲一区二区三区免费看 | 五月亭亭免费高清在线 | 国产亚洲女人久久久久久 | 激情影院a| 六月婷婷在线 | 亚洲国产精品成人综合久久久 | 国内精品久久久久影院6 | 亚洲精品国产综合久久一线 |