课程设计论坛

注册

 

QQ登录

只需一步,快速开始

发新话题 回复该主题

[毕业设计] 基于数据检索的热点事件发展规律分析 [复制链接]

楼主
文件格式:word+pdf+java
文件大小:18.11MB
适用专业:软件工程
适用年级:大学
下载次数:1 次
我要下载:点击联系下载
论文编号:207707

资料简介:

毕业设计-基于数据检索的热点事件发展规律分析,共31页,12338字,附完整java源代码、开题报告等

主要内容

第一章 引言

1.1 信息时代中的数据

1.2 数据检索的概念及现状

1.3 基于数据检索的热点事件分析

第二章 以热点词语作为关键字的搜索

2.1 关键字搜索的设计要求

2.2 关键字的搜索中面临的技术障碍

2.3 关键字搜索的程序实现

第三章 热点词频的数据分析

3.1 高频词汇的研究意义

3.2 热点词语的特点分析

3.3 热点词频特征分析的程序实现

3.4 热点词语关注度及变化规律


摘要

随着信息数字化技术、多媒体技术的广泛应用和计算机网络的飞速发展,各行各业的大量信息都在以多媒体信息的方式被数字化。信息数字化,使信息能够被广泛地使用、方便地存取以及快速地检索。

今后互联网的飞快发展,信息的更迭频率越来越快,每天我们都要面对数以千计的数据信息,如何从中筛选出我们所需要的信息,并对其中有用的数据进行分析则成为了我们面临的关键问题。

为了更好地分析数据,选取热点事件或者热点问题作为研究对象。

网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络爬虫、搜索引擎、Web服务器三个方面进行详细的说明。它是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条信息进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的信息。

关键词:信息管理;java;网络爬虫;分析;索引


目 录

第一章 数据信息检索的结构 - 1 -

1.1 信息时代中的数据 - 1 -

1.2 数据检索与搜索引擎的概念 - 1 -

1.3 基于数据检索的热点事件分析 - 1 -

1.4 网络爬虫 - 2 -

1.5索引与搜索 - 2 -

1.6 WEB服务器 - 2 -

1.7 系统的流程图 - 3 -

1.8 检索引擎的指标 - 3 -

第二章web网络爬虫 - 4 -

2.1 什么是网络爬虫 - 4 -

2.2 Heritrix爬虫的组件 - 4 -

2.2.1 Heritrix的流程图 - 5 -

2.2.2 Heritrix的处理队列 - 6 -

第三章 以热点词语作为关键字的搜索 - 7 -

3.1关键字搜索的原理 - 7 -

3.2 Lucene全文搜索 - 7 -

3.3 Lucene的原理分析 - 7 -

3.3.1 全文检索的实现机制 - 7 -

3.3.2 Lucene的索引效率 - 8 -

第四章 多种方法实现数据检索 - 10 -

4.1 倒排索引 - 10 -

4.2 正则表达式 关键字匹配 - 12 -

4.2.1 基本模式匹配 - 12 -

4.2.2 字符簇 - 13 -

4.2.3 确定重复出现 - 14 -

4.3 哈希函数法 - 15 -

4.3.1哈希表的概念及作用 - 15 -

4.3.2哈希函数的冲突 - 16 -

第五章 程序设计 - 17 -

5.1 公共类设计 - 17 -

5.2 垂直搜索引擎构建 - 17 -

第六章 开发工具的介绍 - 21 -

6.1 Tomcat服务器 - 21 -

6.2 MYSQL数据库 - 21 -

6.2 开发环境 - 21 -

第七章 程序的调试与运行 - 22 -

7.1 系统的测试 - 22 -

总结 - 24 -

参考文献 - 25 -


资料文件预览:
共7文件夹,27个文件,文件总大小:18.11MB,压缩后大小:16.61MB

  • 毕业设计-基于数据检索的热点事件发展规律分析
  • 1091000187
  • 检索系统
  • jar包
  • jarfilterbuilder.jar  [68.16KB]
  • jarfontbox-0.8.0-incubating.jar  [72.40KB]
  • jarhtmllexer.jar  [70.27KB]
  • jarhtmlparser.jar  [135.58KB]
  • jarlucene-core-3.0.2.jar  [1008.75KB]
  • jarlucene-demos-3.0.2.jar  [55.75KB]
  • jarpdfbox-0.8.0-incubating.jar  [4.44MB]
  • jarpoi-3.5-FINAL-20090928.jar  [1.45MB]
  • jarpoi-contrib-3.5-FINAL-20090928.jar  [67.42KB]
  • jarpoi-ooxml-3.5-FINAL-20090928.jar  [382.08KB]
  • jarpoi-scratchpad-3.0.2-FINAL-20080204.jar  [868.03KB]
  • jarsitecapturer.jar  [15.24KB]
  • jarthumbelina.jar  [41.81KB]
  • 源代码
  • javaFileDocument.java  [9.51KB]
  • javaIndexFiles.java  [2.30KB]
  • javaLuceneProc.java  [3.97KB]
  • javaMainFrame.java  [17.26KB]
  • javaMyTable.java  [1.04KB]
  • 检索系统 (1)
  • 检索系统
  • logRetrieve.log  [0.00B]
  • exe检索系统.exe  [8.84MB]
  • txt说明.txt  [583.00B]
  • doc1091000187-戴婧.doc  [615.00KB]
  • pdf1091000187_中期检查表.pdf  [4.45KB]
  • pdf1091000187_开题报告.pdf  [5.03KB]
  • pdf1091000187_成绩单.pdf  [2.26KB]
  • pdf1091000187_答辩记录单.pdf  [2.40KB]
  • pdf1091000187_进度报告.pdf  [7.05KB]

我要下载:基于数据检索的热点事件发展规律分析
分享 转发
TOP
发新话题 回复该主题