中文搜索引擎研究

中文搜索引擎研究

一、中文搜索引擎研究(论文文献综述)

杨正龙[1](2020)在《蜕变测试:基于用户检索习惯的搜索引擎性能研究》文中指出搜索引擎是指根据用户输入的关键词,采取一定的策略,从互联网上搜集信息,在对信息进行组织和处理之后,将用户检索的相关信息展示给用户的系统。搜索引擎是用户从互联网上获取信息的主要途径。由于互联网上的信息过于庞大,在进行信息检索的时候无法验证搜索引擎对于用户查询返回的结果是否正确,缺乏客观公正的Oracle,因此使用传统的软件测试方法很难对其进行测试。蜕变测试是一种可用于在没有理想Oracle的情况下验证软件功能正确性的测试技术。故本文将蜕变测试应用于搜索引擎的测试中。搜索引擎是典型的信息检索系统,所以搜索引擎的检索性能理应可以用精确率和召回率两个标准来衡量。然而,在搜索引擎性能评估中,准确率和召回率却无法计算。一方面,通常情况下,搜索引擎对于用户的查询,会返回数千个结果,计算检索结果中与用户查询相关的信息量极为耗时。另一方面,互联网上与用户查询相关的信息量的总量无法得知。也有一些学者提出一些针对于web搜索引擎的质量评估标准,但均未得到广泛应用。对于用户来说,搜索引擎的检索性能远远超出了对相关或非相关结果的纯分类,对搜索结果的关联判断是搜索引擎检索性能评估中重要的一点,但肯定不是判断搜索引擎性能的唯一标准。虽然有很多关于搜索引擎质量和搜索引擎用户行为方面的研究,但都是单独的研究,鲜有以用户为中心,评价搜索引擎的整体性能。本文以搜索引擎日志研究用户检索习惯,结合用户检索习惯和搜索引擎的功能属性,定义蜕变关系,根据每个蜕变关系的性质,定义抽取网页信息和理解用户意图的能力、对搜索操作符的支持能力、语义检索能力和语义纠错能力为衡量搜索引擎性能的标准,同时基于用户检索习惯,定义合适的测试用例。最后,选取搜索引擎Baidu、Bing和360作为测试对象,评估其各方面性能,测试结果通过异常率和平均Jaccard系数体现,这将为搜索引擎的用户在选择合适的搜索引擎时提供参考,同时也可以帮助搜索引擎开发人员发现和移除程序中的错误,改善现有的软件设计。

金山城[2](2019)在《基于Elasticsearch的分布式搜索引擎的研究与实现》文中研究说明随着信息时代的迅猛发展,人们通过互联网可以摄取各种信息,真正做到足不出户就能知晓天下事。这些都源自于搜索引擎的出现与发展,它成为人与海量信息之间的一座桥梁。然而传统的搜索引擎不仅无法解决海量信息的并发查询和筛选,而且无法满足多关键词组合的短文本搜索需求,对于检索结果的相关性也存在一定的偏差。论文提出一种基于Elasticsearch的分布式搜索引擎能够很好的解决上述问题,特别是针对民宿领域提供更加具体、更加有效、更加深入的垂直搜索服务。论文研究的重点是以分布式搜索引擎为基础,结合中文分词技术以及搜索相关性排序技术,针对民宿领域,设计并实现一种基于Elasticsearch的分布式搜索引擎系统。论文的主要研究内容如下:(1)设计并实现基于Elasticsearch的分布式民宿垂直搜索引擎系统。Elasticsearch作为全文搜索引擎,索引并对外提供民宿房源信息检索服务。整个系统设计主要分为两个模块:分布式索引模块和民宿房源信息搜索模块。(2)在分布式索引模块中采用哈希分片策略解决分布式索引分片问题,提高分布式索引的效率。同时,针对民宿房源主题的文本特征,采用基于隐马尔可夫模型的中文分词算法来提高搜索引擎系统的中文搜索能力。(3)在民宿房源信息搜索模块中,对于传统搜索引擎中用户搜索关键字与搜索结果之间的相关性计算不够准确的问题,论文提出一种基于词向量和特征权重的TF-IDF改进算法来重新计算文档间的相似度,提高搜索引擎返回结果的相关性,为用户展示更友好、更准确的搜索结果。(4)最后,通过实验测试验证,本系统可以实现高效性、友好性和准确性的搜索需求,并且对于中文搜索以及搜索结果相关性排序都具有很好的效果。

王淼,宋子豪[3](2018)在《基于日志的用户搜索行为分析——以Sogou为例》文中提出该文以Sogou搜索引擎为例,对其查询日志数据库内约一个月内的两千万条查询日志进行分析,以期揭示其用户搜索行为。研究采用Jansen提出的包含数据采集、数据处理和数据分析三阶段的分析框架,在数据分析阶段又对关键词、查询式和搜索会话这三个方面进行了分析。研究结果显示:用户输入查询式的长度度比较短,接近1.45,高频查询词中和图片相关的居多。

韦美峰[4](2018)在《Hadoop平台下主题搜索引擎的设计与实现》文中认为随着互联网用户量的激增,使得网络中数据量飞速累积且数据格式也随之增多,搜索引擎成为了处于大数据背景下的网络用户获取所需信息的主要手段之一。但对于拥有不同专业背景的用户,网络信息的多元化使得通用搜索引擎并不能满足他们的信息需求,这就使得当前搜索引擎的发展需要以用户为中心,而这一信息需求背景下就出现了主题搜索引擎。数据量的增加同时使得搜索引擎需要处理的数据流同步增加,分布式计算技术能够更好的应对海量数据的存储和高并发计算。在本文中笔者对Hadoop平台下主题搜索引擎相关技术进行了研究。查准率是评价一个搜索引擎性能的主要指标,如何提升查准率是本文研究的重点;系统检索响应时间与人机交互性是搜索引擎影响用户体验的两个指标;爬虫爬取速度是搜索引擎后台性能的直接反映。为了改进以上指标,本文的主要研究工作如下:一、对分布式计算和主题搜索引擎相关技术与理论进行分析,其中包括了分布式编程思想、网络爬虫的主题过滤、各个中文分词算法的分析、经典排序算法和常用的聚类算法。二、对经典PageRank算法所存在的问题,从主题链接、内外站链接数等方面对其进行优化,使其更具主题性,能够更好的表示某个网页的主题相关性。对改进后的PageRank算法进行MapReduce改造,使其符合分布式计算的要求。在原有检索结果排序算法的基础上,综合TF-IDF算法、OPIC算法和优化处理后的PageRank算法对排序结果进行整体优化。三、利用后缀树聚类算法对用户的检索结果进行实时聚类,笔者将实时聚类与主题搜索引擎首次结合到一起,改进了人机交互的接口,通过可视化的类簇,使得用户能够更为直观的对检索结果有总体的认识,同时也方便了用户对指定信息的浏览,提升用户体验。四、构建了一个完整的主题搜索引擎,其中包括主题爬虫、中文分词模块、索引模块和检索模块,在此基础上验证了分布式系统性能的灵活拓展性,提升了主题爬虫爬取速度和降低系统检索响应时间,同时通过优化后的排序算法提升了该系统的查准率,最后通过后缀树算法实现了实时聚类和聚类可视化。文章的最后,对此次研究做了总结,分析了当前研究成果和不足,并对下一步研究方向给出了研究思路。

李楠[5](2017)在《面向煤炭主题的搜索引擎研究》文中进行了进一步梳理随着互联网信息急剧增加以及信息多样化局面的形成,传统归纳型搜索引擎的收集、索引、搜索内容不断扩充,对于用户高效率和多样化的需求也越来越显得力不从心,尤其是不能满足特定用户对于受限范畴和面向特定主题的信息的需要。因此,煤炭企业的决策者们进行了以信息化提高煤炭传统产业的重大战略部署,国内许多煤炭、采矿方面的研究所、高校、政府部门以及企业等纷纷建立起基于自身数据的煤炭信息网站。本文通过分析国内外云计算和搜索引擎技术的研究现状,并结合煤炭行业对搜索引擎技术的研究现状,旨在构建面向煤炭主题的搜索引擎模型。文章首先介绍了云计算技术及构建搜索引擎所涉及的多种关键技术,通过比较确定了本次研究中的主要技术依托。然后分析了面向煤炭主题的搜索引擎的市场需求、系统架构,进而发现了系统构建的技术难点,并总结出了一套行之有效的研究方法,为搜索平台的最终实现打下坚实基础。最后依据前期规划对该搜索引擎完成了实现与测试。本搜索引擎收录了大量该领域信息,它能够为对煤炭相关信息感兴趣的用户及时、集中提供专业资源查询,避免了搜索时产生的大量无效信息,优化了搜索效率,同时也提供了一个相互交流、共享信息和资源、展望行业发展趋势的平台。研究结果表明,面向煤炭主题的搜索引擎具有一定的普适性,未来可拓展应用至以外的其他行业,以高科技服务于社会,进一步提高经济和社会效益。

郭承坤,陈国松,阮怀军,陈英义,屠星月[6](2015)在《基于Heritrix+Solr的农业信息垂直搜索引擎研究与设计》文中研究指明随着农业信息化、智能化的不断发展,农业信息量呈现井喷式增长,为广大农业从业者和农业科研人员提供便捷有效的信息检索方法是目前农业搜索引擎亟需解决的问题。为此,本文提出了基于Heritrix+Solr的农业信息垂直搜索引擎框架,并设计了适用于农业信息垂直搜索引擎的隐马尔科夫Web信息抽取模块和基于词典的mmseg4j中文分词模块,同时改进了页面排序算法,对进一步提升农业垂直搜索引擎的用户体验和工作效率具有一定的参考价值。

梁晓武[7](2013)在《基于二次排序的个性化中文搜索引擎设计与实现》文中认为随着计算机系统性能的提高和网络技术的飞速发展,Internet成为全球最大的信息资源库,用户面临着“信息过载”的问题。如何为如此庞大的信息资源提供高效的信息检索服务,帮助用户在数据的海洋中快速找到需要的信息是搜索引擎急需解决的问题。解决上述问题的方法之一是研发个性化搜索引擎。如何实现个性化服务,已成为了搜索引擎技术研究中的热点之一。本文主要介绍了个性搜索引擎的研究现状以及现有搜索引擎的不足,结合第一和第二代搜索引擎技术,通过分析用户在使用搜索引擎时打开的链接Web页面,提出了一种基于由客户端自行即时分析、自行即时应答反馈、自行即时再排序的个性化搜索引擎模型——基于二次排序的个性化搜索引擎系统模型,并完成了一个基于二次排序个性化中文搜索引擎系统原型Myso搜索引擎。本论文所作的主要工作如下:(1)在研究个性化搜索引擎工作原理的基础上,设计和实现了基于二次排序的个性化搜索引擎系统模型-Myso搜索引擎。(2)借鉴词频位置加权排序法,设计了基于中文分词系统ICTCIAS中词的eWeight计算网页Rank的公式与算法,计算网页初始的序列并简化Myso搜索引擎,。(3)为了获取用户兴趣,利用隐式收集用户兴趣技术,设计了一种跟踪用户的行为的即时更新用户兴趣的方法;在此基础上,结合网页分类技术,提出了一种个性化排序方法一基于二次排序的个性化排序方法。

范晨熙[8](2013)在《基于Hadoop的搜索引擎的研究与应用》文中提出随着网络信息技术的大规模普及,用户对于信息检索的要求日益严格。实现快速、准确且全面的信息搜索能为各类机构获得较高的客户满意度和良好的商业效益。由于技术和经济实力受限,大多数中小型机构难以像大型机构那样根据用户需求实现专有的高效搜索体系,也难以结合中小型机构自身的需求作进一步的个性化设计。因此如何有效利用现有搜索引擎巨头的技术,为更多机构,尤其是具备一定数据集,但经济承载力较小、核心开发能力较弱的中小型企业、高校及科研机构等提供强大的搜索计算技术和多样化服务,成为当前搜索领域的研究重点和难点。本文结合实际应用需求,研究基于Hadoop的分布式搜索引擎原理、相关技术和算法,深入剖析分布式计算框架MapReduce和分布式文件系统HDFS,引入MapReduce编程模型的具体设计方案,将BM25排序模型集成于Lucene实现检索评分,采用Paoding分词器做中文分词处理,完成了系统在Hadoop平台的架构设计,确定了系统功能划分,分析并设计爬行、索引和检索流程,完成了三个子系统的改进与实现。在分析、评价和总结中小型机构实现信息高效搜索的需求和现存弊端的基础之上,本文集成三个相对独立的子系统的设计与实现,完成了Hadoop框架搭建和相关配置,部署实现了3个节点的分布式搜索引擎系统。最后从中小型机构用户的搜索需求出发,对本系统性能进行测试与评价。具体以浙江理工大学网站作为实验对象,在三节点的分布式平台与单机环境下考察系统进行网页爬取和索引的效率。爬行和索引用时计算结果表明,对于20000个网页,集群用时相比单机节省约15.64%。随着网页数量的增加,该差异逐渐扩大。同时通过比较不同网页数对应的检索结果匹配度,计算得出基于Hadoop的分布式搜索引擎系统检索的平均准确率较单机环境提升了近20%。实验结果表明,在机构网页量增加到一定程度后,该面向中小型机构的分布式搜索引擎系统较传统集中式搜索引擎能更快速获取用户需要的更加精准的检索结果且系统安全稳定性和可扩展性得到提升,从而改善了中小型机构信息检索效能,加快其信息化程度。

李雪利[9](2013)在《基于Solr的企业搜索引擎的研究与实现》文中研究指明随着互联网技术的快速发展,以及企业的日益国际化,使企业间的竞争越来越激烈。如何能更及时、精确且全面的找到公司内部信息,对于一个企业来说是相当重要的。虽然Google等大型商业搜索引擎也能实现企业内部的检索功能,但由于其商业性及大众化,导致这种选择存在很大的缺陷。因此,如何有效利用现有主流搜索引擎技术,更快捷、更方便的搭建自己的企业内部搜索引擎,成为目前重要的研究课题。本课题就是针对这种需求,分析企业搜索引擎的必要性及实现方案,本文基于Solr进行企业搜索引擎的研究过程中,先对搜索引擎的概念以及系统结构进行介绍,接着深入研究全文索引技术和信息检索技术,并重点介绍本文系统所涉及到的关键技术及经典算法。同时还对Solr的有关内容进行分析与应用,如中文分词器MMSeg4j、Solr的Java客户端Solrj、以及Solr的DataImportHandler处理器等。由于Solr是一个独立的企业搜索引擎应用服务器,它对Lucene的一些代码进行封装,具有简单易用、功能强大等特点。本文就是在此基础上,结合其他关键技术如网络爬虫、信息抽取、中文分词等,设计实现一个小型企业搜索引擎系统。基于上述分析,并结合基本理论和相关技术的研究,本文最终设计实现了一个基于Solr的小型企业搜索引擎的实例。针对深度抓取工具Heritrix存在碰到即抓的缺陷,本文根据实例特征对Heritrix框架进行改进和扩展,并成功将特定网页下载到本地;研究解析工具HTMLParser的工作原理,并根据实例特点编写代码实现解析模块,同时,将信息存储到MySQL数据库中;通过对Solr的索引和检索框架进行研究及必要的配置,搭建起Solr搜索引擎服务器;研究MMSeg4j中文分词器的四种分词模式,并与Solr进行集成,并通过测试统计出其分词准确度达到98%;针对企业数据几乎存储在数据库这种现状,本文应用Solr的DataImportHandler处理器,将数据库数据导入Solr中,实现了针对企业这个目的;研究并改进Solrj源码实现了搜索功能,并设计了良好的用户界面,进而实现一个完整的企业搜索引擎。最后,在功能上和性能上对本系统进行测试,得出该系统具有查询准确率高、实时性好的特点,且具有较好的实际应用价值。

马志杰[10](2013)在《我国搜索引擎评价研究的现状、问题及对策》文中指出从评价指标、评价方法、评价对象、评价主体四个方面对我国搜索引擎评价研究进行总结和分析,指出其存在研究团队薄弱;理论基础薄弱,缺乏创新性;实践活动薄弱,缺乏实证研究;绩效评价研究较少;综合评价方法不太成熟等问题。为促进该研究,应坚持定性与定量相结合的发展方向;坚持用户导向开展搜索引擎评价工作;坚持理论与实践相结合,加强实证研究与创新研究;建立权威的搜索引擎评价组织;加强绩效评价。

二、中文搜索引擎研究(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、中文搜索引擎研究(论文提纲范文)

(1)蜕变测试:基于用户检索习惯的搜索引擎性能研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景
    1.2 国内外研究进展
        1.2.1 蜕变测试的相关研究
        1.2.2 搜索引擎性能评估标准的相关研究
        1.2.3 搜索引擎日志的相关研究
    1.3 课题来源
    1.4 论文研究内容和创新点
        1.4.1 论文的研究内容
        1.4.2 论文创新点
    1.5 论文结构
第2章 相关知识
    2.1 蜕变测试
        2.1.1 蜕变测试基本概念
        2.1.2 蜕变测试一般流程
    2.2 搜索引擎
        2.2.1 搜索日志
        2.2.2 搜索操作符
    2.3 自动化测试框架Selenium
    2.4 本章小结
第3章 搜索引擎用户检索习惯研究
    3.1 研究用户检索习惯的方式选择
    3.2 数据处理
        3.2.1 删除格式错误的日志数据
        3.2.2 数据去重
    3.3 搜索日志分析
        3.3.1 搜索结果中被点击URL分布分析
        3.3.2 中英文查询项比例分析
        3.3.3 查询项长度分析
        3.3.4 搜索操作符使用情况分析
        3.3.5 查询项词性组合分析
        3.3.6 英文检索项错误率
        3.3.7 用户类型分析
    3.4 本章小结
第4章 基于用户检索习惯的蜕变关系与测试用例定义
    4.1 搜索引擎蜕变关系模板
    4.2 基于用户检索习惯的蜕变关系定义
        4.2.1 蜕变关系:MR_1
        4.2.2 蜕变关系:MR_2
        4.2.3 蜕变关系:MR_3
        4.2.4 蜕变关系:MR_4
    4.3 基于用户检索习惯的测试用例定义
    4.4 本章小结
第5章 实验与结果分析
    5.1 实验内容
    5.2 实验结果与分析
        5.2.1 MR1实验结果
        5.2.2 MR2实验结果
        5.2.3 MR3实验结果
        5.2.4 MR4实验结果
        5.2.5 实验结果分析
    5.3 本章小结
第6章 结论与展望
    6.1 结论
    6.2 进一步工作的方向
参考文献
攻读学位期间取得的研究成果
致谢

(2)基于Elasticsearch的分布式搜索引擎的研究与实现(论文提纲范文)

摘要
abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 论文研究内容和工作
    1.4 论文各章节结构安排
第2章 搜索引擎相关技术和原理
    2.1 搜索引擎框架概述与对比
        2.1.1 Lucene全文搜索引擎框架
        2.1.2 Elasticsearch分布式搜索引擎框架
    2.2 中文分词技术
        2.2.1 规则分词法
        2.2.2 基于理解的分词方法
        2.2.3 统计分词法
    2.3 搜索排序与相关性原理
        2.3.1 向量空间模型
        2.3.2 TF-IDF算法
        2.3.3 实用评分函数
    2.4 本章小结
第3章 搜索引擎关键技术设计与改进
    3.1 中文分词算法研究
        3.1.1 传统的中文分词算法
        3.1.2 隐马尔可夫模型
        3.1.3 基于HMM的中文分词算法
    3.2 改进评分模型研究
        3.2.1 文本特征选择方法的研究与对比
        3.2.2 词的向量化及相似度的研究与计算
        3.2.3 基于词向量和特征权重的TF-IDF改进算法
    3.3 本章小结
第4章 分布式民宿垂直搜索引擎的设计与实现
    4.1 系统需求分析
        4.1.1 系统设计目标
        4.1.2 系统用例图和用例描述
        4.1.3 功能及性能需求
    4.2 系统总体架构
    4.3 系统流程
    4.4 各个子模块的设计与流程
        4.4.1 分布式搜索集群的设计
        4.4.2 自定义中文分词组件的设计与流程
        4.4.3 改进评分模型的设计与流程
        4.4.4 分布式索引模块的设计与流程
        4.4.5 民宿搜索模块的设计与流程
    4.5 各个子模块的实现
        4.5.1 Elasticsearch分布式搜索集群的搭建与配置
        4.5.2 自定义中文分词组件的实现
        4.5.3 改进评分模型的实现
        4.5.4 分布式索引模块的实现
        4.5.5 民宿搜索模块的实现
    4.6 本章小结
第5章 系统实验与分析
    5.1 实验环境
        5.1.1 硬件环境
        5.1.2 软件环境
        5.1.3 Elasticsearch分布式搜索集群的搭建
    5.2 基于HMM的中文分词算法测试
        5.2.1 数据集
        5.2.2 评估指标
        5.2.3 测试结果与分析
    5.3 基于词向量和特征权重的TF-IDF改进算法测试
        5.3.1 数据集
        5.3.2 评估指标
        5.3.3 测试结果与分析
    5.4 系统整体测试与分析
        5.4.1 系统功能测试
        5.4.2 系统性能测试
    5.5 本章小结
第6章 总结与展望
    6.1 工作总结
    6.2 研究展望
参考文献
附录
致谢

(3)基于日志的用户搜索行为分析——以Sogou为例(论文提纲范文)

1 引言
2 文献综述
3 关键技术 (中文分词)
    3.1 中文分词的困难
    3.2 中英文混合日志
    3.3 智能化中文分词
    3.4 中文搜索效果
4 结果分析
    4.1 日志结构
    4.2 查询式分析
    4.3 基于分词的查询长度
    4.4 查询的频度
    4.5 中文分词对rank的影响
5 讨论与总结

(4)Hadoop平台下主题搜索引擎的设计与实现(论文提纲范文)

摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 主题过滤的国内外研究现状
        1.2.2 检索排序算法的国内外研究现状
        1.2.3 搜索引擎结果聚类算法的国内外研究现状
    1.3 研究内容与组织结构
        1.3.1 论文研究内容
        1.3.2 论文组织结构
第二章 相关理论与技术研究
    2.1 Hadoop分布式计算平台
        2.1.1 Hadoop分布式文件系统
        2.1.2 MapReduce计算框架
    2.2 搜索引擎相关技术
        2.2.1 网络爬虫
        2.2.2 中文分词算法
        2.2.3 索引和检索
        2.2.4 检索排序算法
        2.2.5 后缀树
    2.3 本章小结
第三章 主题搜索引擎算法研究
    3.1 PageRank算法分析
    3.2 PageRank算法的改进
        3.2.1 相同站点控制
        3.2.2 主题相关控制
    3.3 Topic PageRank并行化改进
    3.4 排序综合优化
    3.5 后缀树算法整合
    3.6 本章小结
第四章 主题搜索引擎设计与实现
    4.1 主题搜索引擎设计
        4.1.1 整体结构设计
        4.1.2 核心模块设计
    4.2 核心功能实现
        4.2.1 主题过滤
        4.2.2 中文分词
        4.2.3 索引功能
        4.2.4 检索功能
    4.3 系统环境
    4.4 环境部署
        4.4.1 平台部署
        4.4.2 Nutch二次开发
    4.5 系统验证方法
    4.6 结果与分析
    4.7 本章小结
第五章 总结与展望
    5.1 论文总结
    5.2 论文展望
参考文献
致谢
作者简介

(5)面向煤炭主题的搜索引擎研究(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 课题的研究背景及意义
    1.2 国内外研究现状
        1.2.1 “云计算”相关技术发展现状及其发展趋势
        1.2.2 国内外搜索引擎的发展现状
        1.2.3 煤炭行业研究现状
    1.3 主要内容
    1.4 论文主要章节
第二章 关键技术介绍
    2.1 云计算关键技术
        2.1.1 虚拟化技术
        2.1.2 并行计算
        2.1.3 分布式技术
    2.2 搜索引擎关键技术
        2.2.1 中文分词
        2.2.2 索引技术
        2.2.3 检索技术
        2.2.4 排序技术
    2.3 本章小结
第三章 面向煤炭主题的搜索引擎设计与实现
    3.1 煤炭信息现状描述
        3.1.1 大量信息数据
        3.1.2 信息随需共享
        3.1.3 未来信息资源
        3.1.4 煤炭及煤炭相关行业信息化平台
    3.2 系统功能分析
    3.3 系统概要设计
        3.3.1 系统物理结构设计
        3.3.2 系统体系结构
    3.4 系统详细设计
    3.5 系统数据库设计
    3.6 系统实现
    3.7 本章小结
第四章 面向煤炭主题搜索引擎相关测试
    4.1 系统架构测试
        4.1.1 测试评价体系及软硬件环境
        4.1.2 系统功能测试
        4.1.3 系统各项检索服务性能测试
    4.2 本章小结
总结与展望
参考文献
攻读硕士学位期间取得的学术成果
致谢

(6)基于Heritrix+Solr的农业信息垂直搜索引擎研究与设计(论文提纲范文)

1通用中文搜索引擎关键技术
2系统设计
    2.1基于Heritrix与Solr的农业信息垂直搜索引擎框架
    2.2基于隐马尔科夫的Web信息抽取模块
    2.3基于词典的mmseg4j中文分词模块
    2.4向量空间模型页面排序算法改进
3展望

(7)基于二次排序的个性化中文搜索引擎设计与实现(论文提纲范文)

摘要
ABSTRACT
目录
第一章 引言
    1.1 课题背景与研究意义
    1.2 个性化搜索引擎的研究现状
        1.2.1 个性化搜索引擎的研究现状
        1.2.2 个性化搜索引擎的基本类型
        1.2.3 本文的工作
    1.3 本文的组织
第二章 相关技术研究
    2.1 引言
    2.2 搜索引擎的分类
    2.3 搜索引擎的工作原理
        2.3.1 搜索引擎的基本结构和工作原理
        2.3.2 搜索引擎的主要指标
    2.4 传统搜索引擎存在的问题
    2.5 搜索引擎的发展趋势
    2.6 个性化搜索引擎
        2.6.1 个性化搜索的定义
        2.6.2 个性化搜索引擎理论模型
    2.7 网页分类技术
    2.8 网页中文信息的提取技术
        2.8.1 网络蜘蛛在搜索引擎中的作用和访问策略
        2.8.2 网络蜘蛛的设计算法思想及描述
    2.9 中文分词技术
        2.9.1 什么是中文分词
        2.9.2 分词中的难题
        2.9.3 ICTClAS分词系统
    2.10 小结
第三章 二次排序算法设计
    3.1 引言
    3.2 排序技术
        3.2.1 排序技术主要类型
        3.2.2 排序算法分析
        3.2.3 排序算法的优化
    3.3 初始网页的排序设计
    3.4 二次排序算法设计
    3.5 小结
第四章 个性化搜索引擎模型与实现
    4.1 各模块的设计思想及模型
    4.2 各个模块的具体实现
        4.2.1 网络蜘蛛
        4.2.2 清理排序分类模块
        4.2.3 用户界面模块
        4.2.4 兴趣提取模块
        4.2.5 二次排序模块
    4.3 搜索引擎的主要功能模块和核心代码
    4.4 实验与分析
        4.4.1 选定测试网站
        4.4.2 系统实验与评价
        4.4.3 各搜索引擎的结果演示举例
    4.5 小结
第五章 小结和展望
    5.1 本文所做的工作
    5.2 进一步的工作
参考文献
致谢
攻读学位期间发表论文情况

(8)基于Hadoop的搜索引擎的研究与应用(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 课题背景和意义
    1.2 国内外研究现状
        1.2.1 搜索引擎发展研究现状
        1.2.2 分布式搜索引擎发展研究现状
        1.2.3 中小型机构信息搜索现状
    1.3 本文主要研究内容
    1.4 论文的组织和结构
第二章 基于 Hadoop 的搜索引擎相关理论技术研究
    2.1 搜索引擎相关理论技术研究
        2.1.1 分布式搜索引擎原理及技术
        2.1.2 信息检索模型
        2.1.3 中文分词处理
        2.1.4 网页评分与排序机制
        2.1.5 相关软件工具介绍
    2.2 分治算法
    2.3 Hadoop 分析与研究
        2.3.1 Hadoop 框架介绍
        2.3.2 MapReduce 编程模型
        2.3.3 Hadoop 分布式文件系统
        2.3.4 Hadoop 分布式计算结构
    2.4 本章小结
第三章 基于 Hadoop 的搜索引擎系统设计与实现
    3.1 系统结构总体设计
    3.2 分布式爬行子系统
        3.2.1 爬行流程分析
        3.2.2 分布式爬行子系统的设计与实现
    3.3 分布式索引子系统
        3.3.1 索引操作分析
        3.3.2 分布式索引子系统的设计与实现
    3.4 分布式检索子系统
        3.4.1 数据检索过程分析
        3.4.2 分布式检索子系统的设计与实现
    3.5 本章小结
第四章 中小型机构搜索引擎应用研究
    4.1 中小型机构对高效搜索的需求分析
    4.2 系统部署实现
        4.2.1 开发环境与软件包
        4.2.2 系统环境搭建
        4.2.3 系统运行结果
    4.3 性能评价
    4.4 本章小结
第五章 总结与展望
    5.1 全文工作总结
    5.2 未来工作展望
参考文献
致谢
攻读硕士学位期间的研究成果

(9)基于Solr的企业搜索引擎的研究与实现(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
    1.3 主要研究内容
    1.4 本文组织结构
第二章 搜索引擎简介
    2.1 搜索引擎的基本结构
    2.2 搜索引擎的分类
    2.3 搜索引擎评价指标
    2.4 搜索引擎核心技术介绍
        2.4.1 全文索引技术
        2.4.2 信息检索技术
    2.5 本章小结
第三章 系统相关技术研究
    3.1 网络爬虫技术
        3.1.1 网络爬虫基本原理
        3.1.2 网络爬虫抓取策略
    3.2 信息抽取技术
    3.3 中文分词技术
        3.3.1 中文分词算法
        3.3.2 常用中文分词器
    3.4 搜索引擎页面排序算法
        3.4.1 PageRank 算法
        3.4.2 HITS 算法
    3.5 相关技术
        3.5.1 Heritrix 介绍
        3.5.2 HTMLParser 介绍
        3.5.3 Lucene 介绍
        3.5.4 Solr 介绍
    3.6 本章小结
第四章 系统模块设计与实现
    4.1 系统总体需求分析和设计
        4.1.1 系统需求分析
        4.1.2 系统框架设计
    4.2 网络爬虫模块的设计实现
        4.2.1 网络爬虫模块设计
        4.2.2 Heritrix 的改进和扩展
        4.2.3 任务抓取完成
    4.3 信息抽取模块设计实现
        4.3.1 基类设计
        4.3.2 具体解析类设计
        4.3.3 网页解析实现
    4.4 数据库设计实现
        4.4.1 数据库结构
        4.4.2 数据库处理类
    4.5 索引模块设计实现
        4.5.1 Solr 的安装配置
        4.5.2 Solr 中加入中文分词
        4.5.3 Solr 实现索引
    4.6 检索模块设计实现
        4.6.1 使用 Solr 查询
        4.6.2 Solrj 实现检索
    4.7 用户模块设计实现
        4.7.1 用户接口设计
        4.7.2 服务器端设计
    4.8 系统测试
        4.8.1 系统功能测试
        4.8.2 系统性能测试
    4.9 本章小结
第五章 总结与展望
    5.1 全文工作总结
    5.2 进一步展望
参考文献
致谢
攻读硕士学位期间的研究成果

(10)我国搜索引擎评价研究的现状、问题及对策(论文提纲范文)

1 搜索引擎评价研究发展状况
    1.1 搜索引擎评价指标
    1.2 搜索引擎评价方法
    1.3 搜索引擎评价的对象
    1.4 搜索引擎评价的主体
2 搜索引擎评价研究中存在的问题
    2.1 研究团队薄弱
    2.2 理论基础薄弱, 方法传统, 缺乏创新性
    2.3 实践活动薄弱, 可操作性不强, 缺乏实证研究
    2.4 搜索引擎绩效评价研究较少
    2.5 综合评价方法不太成熟, 缺乏实践检验
3 搜索引擎评价研究的主要发展策略
    3.1 坚持定性与定量相结合的发展方向
    3.2 坚持用户导向开展搜索引擎评价工作
    3.3 坚持理论与实践相结合, 加强实证研究与创新研究
    3.4 培育权威的搜索引擎评价机构或组建不同评价机构联合体
    3.5 加强搜索引擎绩效评价

四、中文搜索引擎研究(论文参考文献)

  • [1]蜕变测试:基于用户检索习惯的搜索引擎性能研究[D]. 杨正龙. 上海师范大学, 2020(07)
  • [2]基于Elasticsearch的分布式搜索引擎的研究与实现[D]. 金山城. 湖北大学, 2019(05)
  • [3]基于日志的用户搜索行为分析——以Sogou为例[J]. 王淼,宋子豪. 电脑知识与技术, 2018(31)
  • [4]Hadoop平台下主题搜索引擎的设计与实现[D]. 韦美峰. 西安电子科技大学, 2018(02)
  • [5]面向煤炭主题的搜索引擎研究[D]. 李楠. 中国石油大学(华东), 2017(07)
  • [6]基于Heritrix+Solr的农业信息垂直搜索引擎研究与设计[J]. 郭承坤,陈国松,阮怀军,陈英义,屠星月. 广东农业科学, 2015(05)
  • [7]基于二次排序的个性化中文搜索引擎设计与实现[D]. 梁晓武. 广西大学, 2013(02)
  • [8]基于Hadoop的搜索引擎的研究与应用[D]. 范晨熙. 浙江理工大学, 2013(03)
  • [9]基于Solr的企业搜索引擎的研究与实现[D]. 李雪利. 浙江理工大学, 2013(03)
  • [10]我国搜索引擎评价研究的现状、问题及对策[J]. 马志杰. 图书馆学研究, 2013(04)

标签:;  ;  ;  ;  ;  

中文搜索引擎研究
下载Doc文档

猜你喜欢