如何使用改進(jìn)后的K-Means進(jìn)行網(wǎng)絡(luò)自媒體空間數(shù)據(jù)挖掘概述
資料介紹
在手機(jī)、平板電腦等電子媒介的人均持有率大于一的今天,網(wǎng)絡(luò)自媒體的傳播達(dá)到了前所未有的巔峰。本文通過基于Hadoop平臺(tái)的mahout數(shù)據(jù)挖掘框架,選用經(jīng)過Canopy算法優(yōu)化后的K-means聚類分析算法,對(duì)數(shù)據(jù)進(jìn)行聚類分析,對(duì)內(nèi)涵眾多信息的網(wǎng)絡(luò)自媒體推文進(jìn)行數(shù)據(jù)挖掘,以發(fā)現(xiàn)微博數(shù)據(jù)中蘊(yùn)含的與當(dāng)下社會(huì)和生活相關(guān)的熱點(diǎn)詞,后通過ArcGIS,對(duì)文本類簇進(jìn)行核密度分析,再做漁網(wǎng)柵格化分析,使離散的類簇樣本具備鄰接性,能在可視化中直觀地看到類簇主題的主要分布情況,以研究人們?nèi)粘I钪械牧?xí)慣、了解單一個(gè)人的喜好,以及對(duì)某個(gè)社會(huì)事件的評(píng)價(jià)等日常生活中隱含著關(guān)于社會(huì)和生活相關(guān)的信息。
在互聯(lián)網(wǎng)技術(shù)快速發(fā)展的今天,網(wǎng)絡(luò)自媒體在近些年得到了爆炸式的增長(zhǎng),它以病毒傳播的形式快速地滲透到了各行各業(yè)中,給予了所有人展示自我和了解他人的途徑[1]。新浪微博作為國內(nèi)大型網(wǎng)絡(luò)自媒體平臺(tái)之一,它具有龐大的用戶基礎(chǔ),以及由這基數(shù)龐大的用戶群體所產(chǎn)生的與個(gè)人生活或社會(huì)現(xiàn)象等與各行各業(yè)相關(guān)的大量信息;隨著Web2.0 時(shí)代的發(fā)展成熟,微博除了基于常規(guī)數(shù)據(jù)的數(shù)據(jù)挖掘以外,還有大量的包含有經(jīng)緯度位置屬性的數(shù)據(jù);這些空間位置數(shù)據(jù)可以很好地將我們的信息挖掘結(jié)果通過各大地圖的前端API 很直觀地展示出來,讓我們能很好地發(fā)現(xiàn)各種個(gè)人生活或社會(huì)現(xiàn)象等與各行各業(yè)、個(gè)人相關(guān)的話題或者感興趣的商品等事物的空間分布規(guī)律等的空間信息,因此基于微博的數(shù)據(jù)挖掘研究是十分有價(jià)值的科研方向。
空間數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(SDMKD, Spatial Data Mining and Knowledge Discovery)是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的分支學(xué)科,它通過對(duì)空間數(shù)據(jù)集進(jìn)行一系列的處理,最終得到空間特征規(guī)則、空間聚類規(guī)則以及空間分布規(guī)律等能夠直觀展現(xiàn)空間實(shí)體的信息。最早開始關(guān)注、了解空間數(shù)據(jù)挖掘這一領(lǐng)域的人,是李德仁院士,他曾經(jīng)在二十世紀(jì)末期召開的國際地理信息系統(tǒng)學(xué)術(shù)會(huì)議上,由他首次提出空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)理論,且研究并提出了空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的理論框架。在現(xiàn)存的空間數(shù)據(jù)庫里蘊(yùn)含著巨量的信息,其中包括山高、河寬等可以使用地理信息系統(tǒng)的查詢工具發(fā)現(xiàn)的淺層信息;但除了淺層信息以外還有很多深層次的,如空間分類規(guī)則、空間偏差等信息則難以利用地理信息系統(tǒng)的查詢方法來獲取,只能通過運(yùn)算或者挖掘等手段才能夠發(fā)現(xiàn)這些信息。
由于云計(jì)算的迅速崛起,為我們?cè)诮鉀Q機(jī)器學(xué)習(xí)中的聚類問題時(shí)面臨的復(fù)雜、大量的迭代計(jì)算提供了出色的解決方案;其中在眾多的分布式計(jì)算框架中,開源框架Hadoop 以其穩(wěn)定的性能和廉價(jià)的成本被眾多企業(yè)和科研機(jī)構(gòu)所青睞,與傳統(tǒng)并行框架相比,它具有高效、高可用、易部署等特點(diǎn);apache 組織在該平臺(tái)基礎(chǔ)上開發(fā)了一個(gè)針對(duì)機(jī)器學(xué)習(xí)算法的計(jì)算框架——mahout;本文將以使用mahout 加上Hadoop組成的平臺(tái)為基礎(chǔ):Hadoop 生態(tài)中的HDFS 為數(shù)據(jù)存儲(chǔ)系統(tǒng);Hadoop 生態(tài)中的MapReduce 為分布式計(jì)算框架;然后選用Canopy 算法優(yōu)化后的K-means 聚類分析算法,利用搭載在Hadoop 集群上的Mahout數(shù)據(jù)挖掘框架來實(shí)現(xiàn)并行的聚類算法操作,最后,使用可視化分析的手段,將帶有主題的類簇展示在地圖上,用這種更直觀的方式來分析這些微博數(shù)據(jù)所蘊(yùn)含的信息,以研究網(wǎng)絡(luò)輿論中隱含著關(guān)于社會(huì)和生活中相關(guān)的信息,為社會(huì)的和諧、穩(wěn)定的發(fā)展提供支持。
- 基于Oracle-Spatial空間數(shù)據(jù)共享系統(tǒng)設(shè)計(jì)
- 如何使用數(shù)據(jù)庫技術(shù)實(shí)現(xiàn)空間數(shù)據(jù)共享系統(tǒng)的設(shè)計(jì) 13次下載
- 海量空間數(shù)據(jù)庫應(yīng)該如何進(jìn)行實(shí)施策略 4次下載
- 如何使用K-Means聚類算法改進(jìn)的特征加權(quán)算法詳細(xì)資料概述 10次下載
- 如何使用多維網(wǎng)格空間進(jìn)行改進(jìn)K-means聚類算法資料概述 1次下載
- 什么是空間數(shù)據(jù)庫?有什么特點(diǎn)?如何進(jìn)行空間數(shù)據(jù)庫的設(shè)計(jì)? 21次下載
- 基于ORDB的空間數(shù)據(jù)庫的研究 0次下載
- GML空間數(shù)據(jù)壓縮技術(shù)研究 0次下載
- 論空間數(shù)據(jù)處理與空間數(shù)據(jù)挖掘 0次下載
- 改進(jìn)的k-means聚類算法在供電企業(yè)CRM中的應(yīng)用
- 基于Agent的分布式空間數(shù)據(jù)挖掘系統(tǒng)
- 基于MapObjcts的空間數(shù)據(jù)歷史管理研究
- 空間數(shù)據(jù)插件技術(shù)研究
- 基于改進(jìn)演化算法的空間數(shù)據(jù)聚類方法
- 面向網(wǎng)絡(luò)的海量影像空間數(shù)據(jù)在線分發(fā)技術(shù)
- 深入理解 Sora 的技術(shù)原理 1989次閱讀
- GIS可處理非地理空間數(shù)據(jù)嗎 609次閱讀
- 賦能現(xiàn)代時(shí)空數(shù)據(jù):PIE-Engine Server全面支持STAC時(shí)空資產(chǎn)目錄規(guī)范 1751次閱讀
- 基于距離的聚類算法K-means的設(shè)計(jì)實(shí)現(xiàn) 2348次閱讀
- 基于GIs和webGIS技術(shù)實(shí)現(xiàn)區(qū)域空間資源綜合管理系統(tǒng)的子系統(tǒng)設(shè)計(jì) 1407次閱讀
- 基本的k-means算法流程 1.9w次閱讀
- 基于FPGA上的仿真分析確定適合空間應(yīng)用的AES算法設(shè)計(jì)詳解 980次閱讀
- K-Means算法的簡(jiǎn)單介紹 4934次閱讀
- Python無監(jiān)督學(xué)習(xí)的幾種聚類算法包括K-Means聚類,分層聚類等詳細(xì)概述 3w次閱讀
- K-means算法原理理論+opencv實(shí)現(xiàn) 6154次閱讀
- K-means的優(yōu)缺點(diǎn)及改進(jìn) 3.2w次閱讀
- k-means算法原理解析 8362次閱讀
- 關(guān)聯(lián)規(guī)則挖掘——Apriori算法的基本原理以及改進(jìn) 9439次閱讀
- 怎么學(xué)習(xí)數(shù)據(jù)挖掘_如何系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘 4805次閱讀
- 什么叫數(shù)據(jù)挖掘_數(shù)據(jù)挖掘技術(shù)解析 1.9w次閱讀
下載排行
本周
- 1貼片三極管上的印字與真實(shí)名稱的對(duì)照表詳細(xì)說明
- 0.50 MB | 87次下載 | 1 積分
- 2802.11_Wireless_Networks
- 4.17 MB | 12次下載 | 免費(fèi)
- 33D AD庫文件
- 16.96 MB | 2次下載 | 免費(fèi)
- 4BDR6121G直流電機(jī)驅(qū)動(dòng)芯片中文手冊(cè)
- 0.54 MB | 1次下載 | 免費(fèi)
- 5ANT8817 1%3.5W/3.7V,同步自適應(yīng)升壓,超長(zhǎng)續(xù)航,H類防破音單聲道音頻功放中文手冊(cè)
- 1.11 MB | 1次下載 | 免費(fèi)
- 610K-100K B3950-B3435NTC熱敏電阻快速查詢對(duì)照表
- 0.10 MB | 1次下載 | 1 積分
- 7ANT8825S內(nèi)置同步升壓,防破音,AB/D類雙模立體聲音頻功放中文手冊(cè)
- 1.29 MB | 次下載 | 免費(fèi)
- 8ANT3270 2×75W/2×38W+75W,免電感,低EMI,D類音頻功率放大器中文手冊(cè)
- 1.33 MB | 次下載 | 免費(fèi)
本月
- 1AI智能眼鏡產(chǎn)業(yè)鏈分析
- 4.43 MB | 311次下載 | 免費(fèi)
- 2蘇泊爾電磁爐線路的電路原理圖資料合集
- 2.02 MB | 286次下載 | 5 積分
- 3長(zhǎng)虹液晶電視R-HS310B-5HF01的電源板電路原理圖
- 0.46 MB | 87次下載 | 5 積分
- 4貼片三極管上的印字與真實(shí)名稱的對(duì)照表詳細(xì)說明
- 0.50 MB | 87次下載 | 1 積分
- 5U盤一鍵制作
- 23.84 MB | 41次下載 | 免費(fèi)
- 6AO4803A雙P通道增強(qiáng)型場(chǎng)效應(yīng)晶體管的數(shù)據(jù)手冊(cè)
- 0.11 MB | 28次下載 | 2 積分
- 7長(zhǎng)虹液晶彩電LS29機(jī)芯的技術(shù)資料說明
- 3.42 MB | 16次下載 | 2 積分
- 8802.11_Wireless_Networks
- 4.17 MB | 12次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935127次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420064次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233089次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191387次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183342次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81586次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73815次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
評(píng)論