课程设计论坛

注册

 

QQ登录

只需一步,快速开始

发新话题 回复该主题

[课程设计] 河海大学现代信息检索课程设计报告 [复制链接]

楼主
文件格式:word
文件大小:270.00KB
适用专业:信息检索
适用年级:本科
下载次数:3 次
我要下载:点击联系下载
论文编号:110346

资料简介:
  两道题,有算法思想解析、源代码(附详细注释)、和运行效果截图
  
题1.试按tf-idf在剔除一些常用词后给出文本中术语的统计算法和程序,并按降序进行排序。                
  
【算法介绍】
  
TF-IDF算法是一种简单快捷的文档特征词抽取方法,通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
  
。。。。。。。。。
  
【算法思想】
  
    要计算tf和idf的值,需要知道文档总数、文档中每个词汇出现的次数、每个文档的总词数和包含某个词的文档个数。
  
本程序使用二叉树的数据结构定义:
  
struct BinTree
  
{
  
    char term[20];        //存放词汇数组
  
    double weight;        //该词汇的权重
  
    double num;         //一篇文献中的某一索引词出现的次数
  
    。。。。。。
  
};
  
    。
  
【程序代码】
  
// tf_idf.cpp : Defines the entry point for the console application.
  
//
  
#include "stdafx.h"
  
#include﹤stdio.h﹥
  
#include﹤string.h﹥
  
#include﹤malloc.h﹥
  
#include﹤math.h﹥
  
#define FileNum 6
  
。。。。。。。。。。。。。
  
题2. 试编制首先对文档建立inverted file,然后进行检索的算法和程序。
  


资料文件预览:
共1文件夹,1个文件,文件总大小:270.00KB,压缩后大小:213.62KB

  • 河海大学现代信息检索课程设计报告
  • doc河海大学现代信息检索课程设计报告.doc  [270.00KB]

我要下载:河海大学现代信息检索课程设计报告
分享 转发
TOP
沙发

路过,关注。

路过,关注。

抢个位置。

顺便顶下

------
TOP
板凳

我要积分!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
TOP
地板

hao  谢谢   很有帮助
TOP
5#

我要下
TOP
6#

看看,最近在做课程设计
TOP
7#

很好.谢谢.问下.

你有全部的资料吗?

如果有的话我都想要..

QQ:13721217

邮箱:13721217@qq.com
TOP
8#

ddddddddddddd
TOP
9#

帮了很大忙

TOP
10#

不错,这个可以多看到几个图,嘿嘿!!支持楼住!!
TOP
发新话题 回复该主题