249045439
网站制作

公司网站制作藏文网页倒排索引

发表日期:2023-11-06   作者来源:www.hbgszykt.com   浏览:0   标签:    

藏文网页倒排索引。 第一步:抽取网页正文。网页正文是相对网页噪声而言。当今的网络网页上, 页面的不少篇幅用在广告、搜索推荐和其他链接上。网页搜索工具关注的是网页本身要表达的信息, 所以在通过爬虫获得到页面网站源码之后, 要去除那些与本文无关的噪声, 抽取到网页正文。 第二步:分字。藏文文字不同于汉文, 汉文是一个字用一个编码, 而藏文是对组成字的基字编码, 一个完整的藏文字可能存在多个编码, 这类编码按组成藏文字的办法顺序排列。 第三步:对全文以字建索引。以字建索引, 虽然检索过程的匹配计算量会更大, 但考虑到现在藏文网页总体数目不大, 应该是一种可行的提升查全率的方法。依据上一步得到的字, 记录每一个字在文中出现的地方, 计算每一个字出现的次数, 打造链表。地方用于检索时的准确定位, 次数用于计算字对文档的重要程度, 也用于有关性排序计算。

如没特殊注明,文章均为博益网 原创,转载请注明来自http://www.ziyubo.com/news/zhizuo/5619.html