資料介紹
??? 網(wǎng)頁去重處理是提高檢索質(zhì)量的有效途徑,本文給出了一個(gè)基于特征碼的網(wǎng)頁去重算法,介紹了算法的具體實(shí)現(xiàn)步驟,采用二叉排序樹實(shí)現(xiàn)。算法有較高的判斷正確率,在信息檢索中有較好的應(yīng)用前景。
關(guān)鍵字:網(wǎng)頁去重; 網(wǎng)頁特征碼; 二叉排序樹
??? 隨著網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的一個(gè)重要途徑?,F(xiàn)有的搜索引擎面臨的最大一個(gè)問題就是返回的結(jié)果集中包含大量重復(fù)的信息。如何更有效地幫助用戶獲取所需要的信息,能夠快速、準(zhǔn)確地為用戶提供信息,是網(wǎng)絡(luò)信息服務(wù)面臨的新課題。優(yōu)化搜索結(jié)果可以采用多種手段,如通過提取網(wǎng)頁的特征進(jìn)行基于內(nèi)容的信息檢索,利用用戶反饋的信息進(jìn)一步精確檢索結(jié)果,將結(jié)果集中的重復(fù)信息盡可能地消除等。
由于網(wǎng)絡(luò)信息分布的特點(diǎn),網(wǎng)站上的信息存在相互轉(zhuǎn)載及鏡像站點(diǎn)等情況。出現(xiàn)相同網(wǎng)頁主要有以下幾種情形:網(wǎng)頁的URL 完全相同;網(wǎng)頁的URL 形式不同,但網(wǎng)站域名所對(duì)應(yīng)的IP 是相同的;URL雖然不同,但網(wǎng)頁內(nèi)容完全相同;URL 不同,為不同的網(wǎng)頁形式,但網(wǎng)頁上主要內(nèi)容是相同的。本文主要討論對(duì)于網(wǎng)頁內(nèi)容重復(fù)性的消除。
- 可提高跨模態(tài)行人重識(shí)別算法精度的特征學(xué)習(xí)框架 9次下載
- 一種融合人臉跟蹤和聚類的人臉圖像去重方法 7次下載
- 基于工控協(xié)議功能碼特征的同源攻擊分析方法 11次下載
- 16位CRC驗(yàn)證碼生成VI工具下載 55次下載
- 基于局部區(qū)域特征選擇的內(nèi)容一致性行人重識(shí)別算法 5次下載
- 使用Python實(shí)現(xiàn)對(duì)excel文檔去重及求和的方法和代碼說明 16次下載
- 基于數(shù)據(jù)路由的分布式備份數(shù)據(jù)去重系統(tǒng) 1次下載
- 基于XML特征的網(wǎng)頁文本抽取方法 0次下載
- 基于圖片特征的并行化海量圖片快速去重技術(shù) 2次下載
- 基于網(wǎng)頁文件代碼分類的惡意代碼檢測(cè)系統(tǒng) 4次下載
- 基于視覺特征的網(wǎng)頁正文提取方法研究 0次下載
- 蠕蟲病毒特征碼自動(dòng)提取原理與設(shè)計(jì)
- 靜態(tài)網(wǎng)頁設(shè)計(jì)教程,下載 0次下載
- 基于SHA-1的郵件去重算法
- 基于小世界現(xiàn)象的網(wǎng)頁消重和排序
- sim卡pin碼怎么設(shè)置 pin碼和puk碼有什么區(qū)別 4977次閱讀
- Python 字典組成的數(shù)組怎么進(jìn)行去重 491次閱讀
- 什么是網(wǎng)頁應(yīng)用程序測(cè)試? 861次閱讀
- 用Python寫個(gè)小工具網(wǎng)頁 1330次閱讀
- Python字典組成的數(shù)組如何進(jìn)行去重? 923次閱讀
- 結(jié)構(gòu)光|格雷碼解碼方法 1283次閱讀
- 什么是BCD碼 1.6w次閱讀
- 如何從網(wǎng)頁控制arduino? 4186次閱讀
- 網(wǎng)頁無法打開的解決辦法 1.1w次閱讀
- 電腦打不開網(wǎng)頁的解決方法 6823次閱讀
- 如何將視頻轉(zhuǎn)換生成二維碼掃碼觀看 1.2w次閱讀
- 解析無線遙控器中固定碼與學(xué)習(xí)碼之間的區(qū)別 2.3w次閱讀
- 一文解析段碼LCD液晶屏驅(qū)動(dòng)方法 5.1w次閱讀
- pin碼初始密碼是多少 8.5w次閱讀
- 余3碼至8421BCD碼的轉(zhuǎn)換_8421BCD碼轉(zhuǎn)換成余3碼 19.3w次閱讀
下載排行
本周
- 1DC電源插座圖紙
- 0.67 MB | 2次下載 | 免費(fèi)
- 2AN158 GD32VW553 Wi-Fi開發(fā)指南
- 1.51MB | 2次下載 | 免費(fèi)
- 3AN148 GD32VW553射頻硬件開發(fā)指南
- 2.07MB | 1次下載 | 免費(fèi)
- 4AN111-LTC3219用戶指南
- 84.32KB | 次下載 | 免費(fèi)
- 5AN153-用于電源系統(tǒng)管理的Linduino
- 1.38MB | 次下載 | 免費(fèi)
- 6AN-283: Σ-Δ型ADC和DAC[中文版]
- 677.86KB | 次下載 | 免費(fèi)
- 7SM2018E 支持可控硅調(diào)光線性恒流控制芯片
- 402.24 KB | 次下載 | 免費(fèi)
- 8AN-1308: 電流檢測(cè)放大器共模階躍響應(yīng)
- 545.42KB | 次下載 | 免費(fèi)
本月
- 1ADI高性能電源管理解決方案
- 2.43 MB | 450次下載 | 免費(fèi)
- 2免費(fèi)開源CC3D飛控資料(電路圖&PCB源文件、BOM、
- 5.67 MB | 138次下載 | 1 積分
- 3基于STM32單片機(jī)智能手環(huán)心率計(jì)步器體溫顯示設(shè)計(jì)
- 0.10 MB | 130次下載 | 免費(fèi)
- 4使用單片機(jī)實(shí)現(xiàn)七人表決器的程序和仿真資料免費(fèi)下載
- 2.96 MB | 44次下載 | 免費(fèi)
- 53314A函數(shù)發(fā)生器維修手冊(cè)
- 16.30 MB | 31次下載 | 免費(fèi)
- 6美的電磁爐維修手冊(cè)大全
- 1.56 MB | 24次下載 | 5 積分
- 7如何正確測(cè)試電源的紋波
- 0.36 MB | 17次下載 | 免費(fèi)
- 8感應(yīng)筆電路圖
- 0.06 MB | 10次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935121次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420062次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233088次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191367次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183335次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81581次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73810次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
評(píng)論