基于分类的可扩展交互式文档检索系统

当前位置:首页老子有钱游戏下载app >

老子有钱游戏下载app

基于分类的可扩展交互式文档检索系统

时间:2019-11-26本站浏览次数:350

       

基于分类的可扩展交互式文档检索系统

一种集成、自动且开放的信息检索系统(100),其包括基于自动文本分类的语言学和数学方法的混合方法。该系统通过把自动内容识别技术和索引分类的自学习层级方案结合在一起来解决传统系统的问题。响应于请求者提交的单词,所述系统(100)搜索含有该单词的文档,分析这些文档以确定它们的单词配对模式,把这些文档模式与和各个主题相关的数据库模式进行匹配,从而为各个文档指派主题。若所搜索的文档被指派给多于一个主题,则向请求者提供文档主题列表,并且请求者指定相关主题。然后,只允许请求者访问指派到相关主题的文档。为加速将来的搜索,建立并维护将搜索项链接到文档和将文档链接到主题的知识库(1408)。另外,还提供了新的策略,以应付网站的不同更新频率。

互联网(和其它网络)的不充分的信息结构常常受到批评。另外,搜索引擎常常存在覆盖范围不足或提供公开信息的无效链接。可能找不到用户实际上想寻找的东西,或当接收所输入的检索查询的结果时,用户被大量的不当匹配结果所困扰。虽然在这些网络中存在可能得到的所需信息,但却不能容易地获得。同时,获得符合条件的信息的需求在商业和个人领域内都在快速增长。由于互联网和大量企业内部网域内大量的可访问的数字信息,因此,数字媒体的高效索引、检索和管理变得越来越重要。

—企业网域中的文档搜索:如上所述,在企业网域中搜索文档比在互联网域中搜索文档要困难得多。因此,需要用于不同操作系统、网络和数据库的类似搜索技术。

在步骤710,系统对各个剩下的单词在各个文件中使用的次数进行计数。

-在公司范围内使用根据本发明优选实施例的新颖搜索引擎的技术费用很低。在许多情况下,可以把已有的系统用于其它的分类任务和信息的存储。

发明内容

对分析中所包括的每一个文档中的单词的数量加以限制。在本发明的优选实施例中,在实时搜索的情况下,系统在第二链接中仅保留三十个最频繁使用的单词。

文档URL表218含有:

对于根据本发明优选实施例的互联网档案库,例如可以使用数据库系统ORACLE(8.1.6版),因为它为将要处理的数据量和可能的大量访问提供了合适的操作平台。此外,数据库系统ORACLE还配备有大量可在很大程度上进行扩展的机制。另外,ORACLE适用于许多能够相互通信并交换数据的操作系统(例如,SunSoft Solaris、HP-UX、AIX、Linux、MicrosoftWindows NT/2000、Novell NetWare,等等)。

当通过用户界面1402输入一项搜索查询时,通过查找机器1404将该搜索查询传递给传统搜索引擎1406。结果,用户接收到许多与含有该搜索项的文档(DocID)相关的引用。查找机器1404启动一项检测,以验证所获得的对存储在根据本发明优选实施例的知识库1408中的文档的引用是否是已知的。然后,将每一项已知的和已有的引用与其相关的分类作为结果返回给查找机器1404。将未知的引用传送到一个列表中,由此要求从互联网上提取这些文件,以对它们进行过滤和分析,并将上述分析结果存储到知识库中。作为更新算法实现的独立程序持续检查上述列表是否被更新,并执行所有必要的步骤。最后,查找机器1404提供所获得的与所输入的搜索项相关的结果。

例3-搜索项未出现在查询单词表中。

上一篇:

电动机




公司地址:重庆市九龙坡区渝州路4号一城精英国际21-4
联系人:蒋允桂 13997064579
付英 13688957528
电话:13901303496 传真:uk53p@163.com
邮箱:9ro7v9i51@sohu.com

粤公网安备 44030702001579号

老子有钱平台@