公司網(wǎng)站制作藏文網(wǎng)頁(yè)倒排索引
發(fā)布時(shí)間:2023-02-01 點(diǎn)擊次數(shù):
第一步:抽取網(wǎng)頁(yè)正文。網(wǎng)頁(yè)正文是相對(duì)網(wǎng)頁(yè)噪聲而言。當(dāng)今的互聯(lián)網(wǎng)網(wǎng)頁(yè)上, 頁(yè)面的很多篇幅用在廣告、搜索推薦和其他鏈接上。網(wǎng)頁(yè)搜索工具關(guān)注的是網(wǎng)頁(yè)本身要表達(dá)的信息, 所以在通過爬蟲獲取到頁(yè)面源碼之后, 要去除那些與本文無關(guān)的噪聲, 抽取到網(wǎng)頁(yè)正文。
第二步:分字。藏文文字區(qū)別于漢文, 漢文是一個(gè)字使用一個(gè)編碼, 而藏文是對(duì)組成字的基字編碼, 一個(gè)完整的藏文字可能存在多個(gè)編碼, 這些編碼按組成藏文字的方法順序排列。
第三步:對(duì)全文以字建索引。以字建索引, 雖然檢索過程的匹配計(jì)算量會(huì)更大, 但考慮到目前藏文網(wǎng)頁(yè)總體數(shù)量不大, 應(yīng)該是一種可行的提高查全率的辦法。根據(jù)上一步得到的字, 記錄每個(gè)字在文中出現(xiàn)的位置, 計(jì)算每個(gè)字出現(xiàn)的次數(shù), 建立鏈表。位置用于檢索時(shí)的準(zhǔn)確定位, 次數(shù)用于計(jì)算字對(duì)文檔的重要性, 也用于相關(guān)性排序計(jì)算。
------------------------------------------------------------------------------------------
藍(lán)點(diǎn)網(wǎng)絡(luò)提供:網(wǎng)站建設(shè)、APP開發(fā)、微信小程序、400電話、軟件開發(fā)、服務(wù)器托管/租用等業(yè)務(wù)。
從2003年開始,我們始終堅(jiān)守【網(wǎng)站建設(shè)】服務(wù),19年從未放棄!!
售前咨詢:0311-8736 0077
售后服務(wù):0311-8736 0066
值班手機(jī):189 3198 6878