计算机信息检索的原理
计算机信息检索过程是指用户对检索播求加以分析,明确检索范围。弄清主题概念,形成检索标识及检索策略,愉入到计算机中进行检索。计算机按照用户的要求将检索策略转换成一系列提问,在专用程序控制下,进行离级逻辑运算。选出符合要求的信息并输出。计算机检索的过程实际上是一个比较、匹配的过程,是用计算机代替人工检索的匹配过程。计算机一方面接受检索提问(即检索提问表达式),另一方面从数据库中接受文献记录。然后在两者之间进行匹配运算,即计算机信息检索把检素提问与文献记录之间的相关性检索转变成了检索词与标引词之间的相似计算。目前.一般计算机信息检索系统为进行检索词与标引词之间的相似性运算,所采用的方法可以分为以下几个等级。
(1)单个整词的比较.例如.检索词是psychoan目ysis,而标引词也是psyeh咖alys畜s,两者全等,则为命中.全等是相似性的一种特殊形式,对于一些包含数值的词,如出版年、文摘号等也可以进行大于(>)、小于(<)的运算.
(2)词的片断(主要是词根)比较.例如,检索词是用截断符号(如@)表示的Pscho@,则命中所有开头与截断符号之前相同的词,如Psych。姗!ysis、Psychobiology等.这就是截词检索.截词有右截断、左截断、左右同时截断以及中间掩符等几种形式。对截断符之后的允许字符数.可不限制,也可限制在若千字符之间。即可分有限截断和无限截断两种模式。不论叮种,其基本原理都是进行词的片断对比。这种对比不要求检索词和标引词全等.而是部分相等或近似.因此,这个级别的比较是一种较典型的相似性运算。
(3)固定词组的比较.例如,检索词是Libra卿and bformation science,而标引词也是LibraJ,and Info,ation science.这是由多个整词构成的词组.但比较仍然是全等的运算.
(4)多个整词之间位置逻辑的比较。即可以指定两个整词,词与词之间至多相隔几个字(即可以擂入其他的字或字毋.忽略不计).两词出现的先后次序可以指定为可以对换或不可以对换.例如.检索Information(2w)Re州eval,可以命中Infonm旧lion stora朗andR。州cval.这种位宜迈辑的运抹可以说是带有贝活性的词组比较,而这种比较是允许有一定范幽的相似性运算。它称为相邻度检索。
(5)由若干单独的检索词或词组构成的定逻辑组合的比较。它的目标不是检索各个单独的检索词或词组.而是在愈义上彼此结合、互扣限定的词(成词组)的完整组合。例如.“信息”和“网络.,它们分别是两个单独的词,而“信息网络”是这两个词逻辑组合的一种形式。“信息网络”不是“信息,和“网络.这两个词的混合,而是两种愈义的结合,是两种概念合成了一种新的概念。
推荐新闻
更多行业-
上海网站建设公司做网站要多少钱
众所周知,企业在做网站之前,要咨询网站建设公司做一个网站需要多少成本,...
2021-07-02 -
利用SEO优化技术提升网站排名
EMC易倍体育官方中国致力于研究搜索引擎排名规则,传播网站优化知识,利用SEO优化技...
2017-12-29 -
手机网站如何优化
随着百度移动搜索的不断发展,百度移动搜索已经成为全球最大的中文手机搜索...
2014-01-19 -
研究网站推广不只是研究搜索引擎优化而已
让自己的网站在网民中建立口碑这是最重要的,多用文字,研究网站推广不只是...
2012-09-20 -
网站建设中如何找到用户的需求点?
现实中有很多网站的失败案例,比如有些网站一味的追求炫酷的页面设计,甚至...
2018-09-04 -
深切体会网站内链建设的几点弊端
深切体会网站内链建设的几点弊端从05年接触网络到现在也六七年了,从刚开...
2012-01-01
预约专业咨询顾问沟通!
免责声明
非常感谢您访问我们的网站。在您使用本网站之前,请您仔细阅读本声明的所有条款。
1、本站部分内容来源自网络,涉及到的部分文章和图片版权属于原作者,本站转载仅供大家学习和交流,切勿用于任何商业活动。
2、本站不承担用户因使用这些资源对自己和他人造成任何形式的损失或伤害。
3、本声明未涉及的问题参见国家有关法律法规,当本声明与国家法律法规冲突时,以国家法律法规为准。
4、如果侵害了您的合法权益,请您及时与我们,我们会在第一时间删除相关内容!
联系方式:010-60259772
电子邮件:394588593@qq.com