当前位置:网站首页 / SEO核心技术 / 正文

SEO站长雨辰老师介绍索引页面

2017年04月25日 SEO核心技术 384 ℃ 0 评论

    本文SEO站长雨辰老师介绍索引页面,蜘蛛抓取的是网页的内容,那么要想让用户快速的通过关键词搜索到这个网页,就必须对网页做关键词的索引,从而提升查询效率,简单说就是,把网页的每个关键词提取出来,并针对这些关键词在网页中的出现频率,位置,特殊标记等诸多因素,给予不同的权值标定,然后,存储到索引库中。
timg3.jpg    那么问题来了,什么是关键词。英文来说,比如 this is a book,中文,这是一本书。英文很自然是四个单词,空格是天然的分词符,中文呢?你不能把一句话当作关键词吧(如果把一句话当作关键词,那么你搜索其中部分信息的时候,是无法索引命中的,比如搜索一本书,就搜索不出来了,而这显然是不符合搜索引擎诉求的)。所以要分词。
    SEO站长雨辰老师指出,最开始,最简单的思路是,每个字都切开,这个以前叫字索引,每个字建立索引,并标注位置,如果用户搜索一个关键词,也是把关键词拆成字来搜索再组合结果,但这样问题就来了。
    分词,是亚洲很多语言需要额外处理的事情,而西方语言不存在的问题。SEO站长雨辰老师指出,但分词不是说说那么简单,比如几点,1:如何识别人名?2、互联网新词如何识别?3、中英混排的坑,比如QQ表情。
    现在机器学习技术发达了,特别是google在深度学习领域拥有领先优势,以前很多通过人工做标定,做分类的工作可以交给算法完成,从某种意义来说,本地化的工作可以让机器学习去完成;未来,也许深度学习技术可以自己学习掌握本地化的技巧。SEO站长雨辰老师指出,第一,从搜索引擎发展历史看,在深度学习技术还没成熟的情况下,本地化的工作是非常重要的,也是很重要的决定竞争成败的要素;第二,即便现在深度学习已经很强大,基于当地语言的人工参与,标定,测试,反馈,一些本地化的工作依然对深度学习的效率和效果拥有不可替代的作用。
    SEO站长雨辰老师指出,索引系统除了分词之外,还有一些要点,比如实时索引,因为一次索引库的更新是个大动静,一般网站运营者知道,自己网站内容更新后,需要等索引库下一次更新才能看到效果,而且索引库针对不同权重的网站内容,更新的频次也不太一样。 但诸如一些高优先的资讯网站,以及新闻搜索,索引库是可以做到近似实时索引的,所以我们在新闻搜索里,几分钟前的信息就已经可以搜索到了。

查看更多关于的文章

请输入你的在线分享代码

猜你喜欢

额!本文竟然没有沙发!你愿意来坐坐吗?

欢迎 发表评论

必填

选填

选填

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

标签列表
友情链接