文件格式:word
文件大小:770.00KB
适用专业:信息论
适用年级:大二
下载次数:0 次
我要下载:点击联系下载论文编号:202882
资料简介:
论文-谷歌搜索引擎的奥妙,共26页,10912字
第一章 WEB搜索引擎工作原理和体系结构.
第一节 概述
第二节 spider
第二章 WEB信息的搜集
第一节 引言
超文本传输协议
一个小型搜索引擎系统
第二节 网页搜集
一、 定义URL类和Page类
二、 与服务器建立连接
三、 发送请求和接收数据
四、 网页信息存储的天网格式
第三节 多道搜集程序并行工作
一、 多线程并发工作
二、 控制对一个站点并发搜集线程的数目
第四节 如何避免网页的重复搜集
一、 记录未访问、已访问URL和网页内容摘要信息.
二、 域名与IP的对应问题
第五节 如何首先搜集重要的网页
第六节 搜集信息的类型.
第三章 对搜集信息的预处理
第一节 信息预处理的系统结构
第二节 索引网页库
第三节 中文自动分词.
第四节分析网页和建立倒排文件
参考文献
资料文件预览:
共1文件夹,1个文件,文件总大小:770.00KB,压缩后大小:580.78KB
- 论文-谷歌搜索引擎的奥妙
- 论文-谷歌搜索引擎的奥妙.doc [770.00KB]
我要下载:谷歌搜索引擎的奥妙