欧美午夜免费观看福利片,五月天婷综合交清中文字幕,亚欧视频二区,成熟自由性生活视频免费,91av视频在线,久操视频网

您的位置:首 頁 > 新聞中心 > 企業(yè)建網(wǎng)站 > 企業(yè)建網(wǎng)站藏文網(wǎng)頁倒排索引(上)

企業(yè)建網(wǎng)站

企業(yè)建網(wǎng)站藏文網(wǎng)頁倒排索引(上)

發(fā)布:2020-10-21 14:08:22 瀏覽:3212

        藏文網(wǎng)頁倒排索引

        第一步:抽取網(wǎng)頁正文。網(wǎng)頁正文是相對(duì)網(wǎng)頁噪聲而言。當(dāng)今的互聯(lián)網(wǎng)網(wǎng)頁上, 頁面的很多篇幅用在廣告、搜索推薦和其他鏈接上。網(wǎng)頁搜索工具關(guān)注的是網(wǎng)頁本身要表達(dá)的信息, 所以在通過爬蟲獲取到頁面源碼之后, 要去除那些與本文無關(guān)的噪聲, 抽取到網(wǎng)頁正文。

        第二步:分字。藏文文字區(qū)別于漢文, 漢文是一個(gè)字使用一個(gè)編碼, 而藏文是對(duì)組成字的基字編碼, 一個(gè)完整的藏文字可能存在多個(gè)編碼, 這些編碼按組成藏文字的方法順序排列。
        第三步:對(duì)全文以字建索引。以字建索引, 雖然檢索過程的匹配計(jì)算量會(huì)更大, 但考慮到目前藏文網(wǎng)頁總體數(shù)量不大, 應(yīng)該是一種可行的提高查全率的辦法。根據(jù)上一步得到的字, 記錄每個(gè)字在文中出現(xiàn)的位置, 計(jì)算每個(gè)字出現(xiàn)的次數(shù), 建立鏈表。位置用于檢索時(shí)的準(zhǔn)確定位, 次數(shù)用于計(jì)算字對(duì)文檔的重要性, 也用于相關(guān)性排序計(jì)算。

>>> 查看《企業(yè)建網(wǎng)站藏文網(wǎng)頁倒排索引(上)》更多相關(guān)資訊 <<<

本文地址:http://m.scmenchuang.cn/news/html/21005.html

趕快點(diǎn)擊我,讓我來幫您!
格尔木市| 南汇区| 乌审旗| 博客| 商水县| 稻城县| 延川县| 德庆县| 昂仁县| 忻州市| 西丰县| 临城县| 邓州市| 唐海县| 邹平县| 新平| 宣武区| 赣州市| 卢湾区| 耒阳市| 闸北区| 焦作市| 台中县| 霍林郭勒市| 环江| 开阳县| 紫云| 德格县| 上蔡县| 大兴区| 淮阳县| 卢氏县| 安化县| 密山市| 读书| 阜阳市|