搜索结果: 1-15 共查到“工学 Deep Web”相关记录16条 . 查询时间(0.09 秒)
基于属性值序列图模型的deep Web新数据发现策略
deep Web 新数据发现 数据获取
2016/5/11
针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源。在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关...
提出一种基于本体的Deep Web数据源发现方法,采用网页分类、表单内容分类、表单结构分类方式,确定符合某领域的Deep Web查询接口。在网页分类和表单内容分类中引入本体的半自动构建和自动扩展模块,在表单结构分类中添加启发式规则。实验结果证 明,该方法能有效提高Deep Web数据源的查全率和查准率。
基于MapReduce虚拟机的Deep Web数据源发现方法
MapReduce 虚拟机 Deep Web 数据源发现
2012/4/16
为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现Deep Web海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类,页面过滤分类,表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效...
基于模型匹配的Deep Web数据库分类
深网 数据集成 模型匹配
2012/11/13
提出一种基于模型匹配的深网(Deep Web)在线专业数据库查询接口特征抽取方法, 该方法通过分析网页结构中特征词的深度自动抽取查询接口特征向量, 同时考虑频度和集中度两种因素定义特征词向量空间中的权值, 并在传统向量模型的基础上加入特征词个数作为一个新的分量, 构建一个数据库查询接口, 使用模型匹配的分类方法对其进行分类. 实验验证了该方法的有效性。
基于Deep Web的教育资源检索系统
Deep Web集成技术 信息孤岛 跨库检索
2010/1/29
针对《基础教育教学资源元数据应用规范》中资源建设标准的缺陷,提出一种基于Deep Web集成技术的教育资源跨库检索系统设计方案。该系统包含知识发现、集成查询、知识库和系统监控等模块,加入了环境变化监控构件,并在多个环节中采用自动化方式。
面向Deep Web数据自动抽取的模板生成方法
Deep Web 数据抽取 模板生成 文法推断
2010/9/3
Deep Web结果页面大多由网站根据请求从后台数据库读取数据并动态填充到通用模板而生成的。研究如何从一系列同模板生成的页面中生成该模板,并利用模板自动抽取数据。给出了模板生成问题的形式化描述,提出了一种新颖的模板生成方法,利用生成的模板从实例网页中抽取数据。与现有方法相比,该方法适用于列表页面和详细页面两种类型网页。通过在多个领域站点上实验,说明新方法在不降低准确率的情况下能大大提高召回率。
针对传统搜索方式和查询界面的不足,提出了基于Deep Web 的地图搜索系统框架,前台采用活动地图与用户进行交互,后台采用领域本体和Deep Web 爬虫进行识别和相关信息的收集。此系统应用于与地理位置相关的主题信息类网站,使用户能够直观便捷地搜索到所需的信息,提出了一种信息搜索的新思路。
Deep Web数据集成中查询处理的研究与进展
深层网络 数据集成 模式匹配
2009/11/4
随着Web上在线数据库的大量涌现,Deep Web数据集成成为当前信息领域的一个研究热点,而查询处理是其中的一个重要的组成部分。由于Web数据库具有规模大、自治性、异构性以及动态性等特点,使得Deep Web数据集成中的查询处理比传统的分布环境下的查询处理更具挑战性。围绕Deep Web数据集成中查询处理的三个关键研究点:模式匹配、Web数据库的选择以及查询转换,综述了近年来国际上相关的、具代表性...
基于实例的Deep Web数据源结果模式匹配技术
Deep Web 查询实例 结果模式
2009/11/4
针对Deep Web数据源结果模式信息的匹配问题,提出了一种基于实例的结果模式匹配的方法。该方法能够匹配并验证数据源的结果模式属性信息,同时记录数据在结果页面中的结构信息。利用基于查询请求松弛的两段模式匹配方法精确地匹配模式属性,并基于模式属性间共现度信息来提高属性匹配的查全率和查准率。从实验结果分析可以看出,基于实例的方法能够有效地识别数据源模式信息,提高模式属性查全率和查准率。
...
利用tableau方法修正Deep Web中不相容知识
Deep Web IK-tableau 不完备知识
2009/11/4
在分析Deep Web中不相容知识的单调性、动态性、模糊性的基础上,提出了基于tableau的不完备知识处理的模型生成方法IK-tableau。该模型采用非经典逻辑表示方法,将Deep Web信息表示为逻辑公式集合,采用模型生成算子对逻辑公式进行扩展。通过IK-tableau方法,能够找出Deep Web搜索中的不完备知识,并可以进行修正,生成知识模型;同时利用该模型可以进一步指导Deep Web...
基于关键词相关度的Deep Web爬虫爬行策略
关键词选择 相关度权重 覆盖率
2009/7/31
Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下载Deep Web页面。由于该页面只提供一个查询接口,因此Deep Web爬虫设计面对的主要挑战是怎样选择最佳的查询关键词产生有意义的查询。实验证明...
基于规则集的Deep Web信息检索
信息检索 深层网络 规则集
2009/7/31
提出一种基于规则集的新型Deep Web信息检索模型。该模型包含4个层次,主要处理环节如任务分派、信息提取、数据清洗等引入了Deep Web特有的结构规则、逻辑规则和应用规则协助工作。把该模型应用于科技文献检索、电子机票定购和工作简历搜索3个领域,实验结果证明该模型灵活、可信,有效信息查全率达到96%以上。
基于最大熵分类器的Deep Web查询接口自动判定
网页表单 特征提取 最大熵模型
2009/7/15
Web中包含着海量的高质量信息,它们通常处在网络深处,无法被传统搜索引擎索引,将这样的资源称为Deep Web。因为查询接口是Deep Web的唯一入口,所以要获取Deep Web信息就必须判定哪些网页表单是Deep Web查询接口。由于最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。因此,基于最大熵模型的分类性能,利用最大熵分类算法自动判定查询接口。并...
Deep Web数据源聚焦爬虫
Deep Web数据源 聚焦爬虫 贝叶斯分类器
2009/5/14
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对Deep Web数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。