hash编码

 

常用的字符串Hash函数还有ELFHash,APHash等等,都是十分简单有效的方法。这些函数使用位运算使得每一个字符都对最后的函数值产生影响。另外还有以MD5和SHA1为代表的杂凑函数,这些函数几乎不可能找到碰撞。

常用字符串哈希函数有 BKDRHash,APHash,DJBHash,JSHash,RSHash,SDBMHash,PJWHash,ELFHash等等。对于以上几种哈希函数,我对其进行了一个小小的评测。

Hash函数数据1数据2数据3数据4数据1得分数据2得分数据3得分数据4得分平均分
BKDRHash20477448196.5510090.9582.0592.64
APHash23475449396.5588.4610051.2886.28
DJBHash22497547496.5592.31010083.43
JSHash14476150610084.6296.8317.9581.94
RSHash10486150510010051.5820.5175.96
SDBMHash32484950493.192.3157.0123.0872.41
PJWHash302648785130043.89021.95
ELFHash302648785130043.89021.95

其中数据1为100000个字母和数字组成的随机串哈希冲突个数。数据2为100000个有意义的英文句子哈希冲突个数。数据3为数据1的哈希值与 1000003(大素数)求模后存储到线性表中冲突的个数。数据4为数据1的哈希值与10000019(更大素数)求模后存储到线性表中冲突的个数。

经过比较,得出以上平均得分。平均数为平方平均数。可以发现,BKDRHash无论是在实际效果还是编码实现中,效果都是最突出的。APHash也是较为优秀的算法。DJBHash,JSHash,RSHash与SDBMHash各有千秋。PJWHash与ELFHash效果最差,但得分相似,其算法本质是相似的。

HashFun.h

unsigned int SDBMHash(char *str)
{
    unsigned int hash = 0;

    while (*str)
    {
        // equivalent to: hash = 65599*hash + (*str++);
        hash = (*str++) + (hash << 6) + (hash << 16) - hash;
    }

    return (hash & 0x7FFFFFFF);
}

// RS Hash Function
unsigned int RSHash(char *str)
{
    unsigned int b = 378551;
    unsigned int a = 63689;
    unsigned int hash = 0;

    while (*str)
    {
        hash = hash * a + (*str++);
        a *= b;
    }

    return (hash & 0x7FFFFFFF);
}

// JS Hash Function
unsigned int JSHash(char *str)
{
    unsigned int hash = 1315423911;

    while (*str)
    {
        hash ^= ((hash << 5) + (*str++) + (hash >> 2));
    }

    return (hash & 0x7FFFFFFF);
}

// P. J. Weinberger Hash Function
unsigned int PJWHash(char *str)
{
    unsigned int BitsInUnignedInt = (unsigned int)(sizeof(unsigned int) * 8);
    unsigned int ThreeQuarters    = (unsigned int)((BitsInUnignedInt  * 3) / 4);
    unsigned int OneEighth        = (unsigned int)(BitsInUnignedInt / 8);
    unsigned int HighBits         = (unsigned int)(0xFFFFFFFF) << (BitsInUnignedInt - OneEighth);
    unsigned int hash             = 0;
    unsigned int test             = 0;

    while (*str)
    {
        hash = (hash << OneEighth) + (*str++);
        if ((test = hash & HighBits) != 0)
        {
            hash = ((hash ^ (test >> ThreeQuarters)) & (~HighBits));
        }
    }

    return (hash & 0x7FFFFFFF);
}

// ELF Hash Function
unsigned int ELFHash(char *str)
{
    unsigned int hash = 0;
    unsigned int x    = 0;

    while (*str)
    {
        hash = (hash << 4) + (*str++);
        if ((x = hash & 0xF0000000L) != 0)
        {
            hash ^= (x >> 24);
            hash &= ~x;
        }
    }

    return (hash & 0x7FFFFFFF);
}

// BKDR Hash Function
unsigned int BKDRHash(char *str)
{
    unsigned int seed = 131// 31 131 1313 13131 131313 etc..
    unsigned int hash = 0;

    while (*str)
    {
        hash = hash * seed + (*str++);
    }

    return (hash & 0x7FFFFFFF);
}

// DJB Hash Function
unsigned int DJBHash(char *str)
{
    unsigned int hash = 5381;

    while (*str)
    {
        hash += (hash << 5) + (*str++);
    }

    return (hash & 0x7FFFFFFF);
}

// AP Hash Function
unsigned int APHash(char *str)
{
    unsigned int hash = 0;
    int i;

    for (i=0; *str; i++)
    {
        if ((i & 1) == 0)
        {
            hash ^= ((hash << 7) ^ (*str++) ^ (hash >> 3));
        }
        else
        {
            hash ^= (~((hash << 11) ^ (*str++) ^ (hash >> 5)));
        }
    }
    return (hash & 0x7FFFFFFF);
}

以上为转载内容 以下是自己测试Hash算法效果的函数。

main.cpp

#include<iostream>
#include<fstream>
#include<cstdlib>
#include<cstring>
#include<ctime>
#include"HashFun.h"
using namespace std;
/*
  从Dict.txt读入英文单词表,总共24018个单词
  测试哈希函数的分布情况

*/

void ReadDict(char ** dict,int& len)
{
  fstream dictFile;
  dictFile.open("Dict.txt",ios::in);
  if(!dictFile)  {  cout<<"OpenFailed."<<endl;  exit(-1);}
  char tmpString[50];
  len=0;
  int sl;
  while(!dictFile.eof())
  {
    dictFile.getline(tmpString,50);

    sl=strlen(tmpString);
    if(sl>0 && tmpString[sl-1]=='\r')
            {
                tmpString[sl-1]='\0';
                --sl;
            }
    if(sl>0)
    {
        dict[len]=new char[sl];
            if(dict[len]==NULL) {   cout<<"Memory fail."<<endl;exit(-1);}
        strcpy(dict[len],tmpString);
        //cout<<dict[len]<<endl;
        len++;
    }
  }
  dictFile.close();
}

const int MaxHashLen=49999;
void Analise(unsigned int HashHeight[])
{
    const unsigned int AreaNum=20;
    unsigned int AreaHeight[AreaNum];
    const unsigned int MaxRecordHeight=10;       //记录各自出现高度超过10的放在一起统计
    unsigned  int NumOfHeight[MaxRecordHeight+1];
    memset(AreaHeight,0,sizeof(AreaHeight));
    memset(NumOfHeight,0sizeof(NumOfHeight));
    unsigned int step = MaxHashLen/AreaNum+1,wordNum=0,MaxHeight=0;

    for(int i=0;i<MaxHashLen;i++)
    {
        wordNum+=HashHeight[i];
        if( HashHeight[i]>=MaxRecordHeight )
            NumOfHeight[MaxRecordHeight]++;
        else
            NumOfHeight[HashHeight[i]]++;
        if(HashHeight[i]>MaxHeight)
            MaxHeight=HashHeight[i];

        AreaHeight[i/step]+=HashHeight[i];

    }
    int searchtime=0;
    for(unsigned int i=1;i<MaxRecordHeight;i++)
        searchtime+=(i+1)*i*NumOfHeight[i]; //有i*NumOfHeight[i]个的单词在高度为i的链表里
    searchtime+=((MaxRecordHeight+MaxHeight)/2+1)*(MaxRecordHeight+MaxHeight)/2*NumOfHeight[MaxRecordHeight];
    searchtime/=2;
    cout<<"--------Hash分布如下"<<endl;
    for(unsigned int i=0;i<AreaNum;i++)
        cout<<"[ "<<i*step<<" , "<<(i+1)* step <<" ]: "<<AreaHeight[i]<<endl;

    cout<<"--------链表高度情况"<<endl;
    for(unsigned int i=0;i<MaxRecordHeight;i++)
        cout<<"高度为: "<<i<< "的链表个数为 " <<NumOfHeight[i]<<endl;
    cout<<"高度大于 "<<MaxRecordHeight<< "的链表个数为 " <<NumOfHeight[MaxRecordHeight]<<endl;

    cout<<"--------链表最高高度:"<<MaxHeight<<endl;
    cout<<"--------单词表个数为:"<<wordNum<<endl;
    cout<<"--------平均链表高度:"<<float(wordNum)/(MaxHashLen-NumOfHeight[0])<<endl;
    cout<<"--------链表的利用率:"<<1-float(NumOfHeight[0])/MaxHashLen<<endl;
    cout<<"--------平均查找次数:"<<1.0*searchtime/wordNum<<endl;
}

int main()
{
    char *dict[24100];    //存储单词表
  int wordNum;
  unsigned int HashHeight[MaxHashLen],hashvalue;
  memset(HashHeight,0,sizeof(HashHeight));
  ReadDict(dict,wordNum);
    unsigned int startTime,curTime;
    startTime=clock();
    for(int i=0;i<wordNum;i++)
    {
        hashvalue = SDBMHash( dict[i] ) % MaxHashLen;
//        hashvalue = RSHash( dict[i] ) % MaxHashLen;
//        hashvalue = JSHash( dict[i] ) % MaxHashLen;
//        hashvalue = PJWHash( dict[i] ) % MaxHashLen;
//        hashvalue = ELFHash( dict[i] ) % MaxHashLen;
//        hashvalue = BKDRHash( dict[i] ) % MaxHashLen;
//        hashvalue = DJBHash( dict[i] ) % MaxHashLen;
//        hashvalue = APHash( dict[i] ) % MaxHashLen;
        HashHeight[ hashvalue ]++;
        //cout<<hashvalue<<endl;
    }
    curTime=clock();
    Analise(HashHeight);
    cout<<"cost time:"<<(curTime-startTime)/1000 <<"ms"<<endl;
    //for(int i=0;i<MaxHashLen;i++)
      //  cout<<HashHeight[i]<<endl;
  return 0;
}

我的测试说明

测试的内容,是从英汉词典Dict.txt读取24018个单词,将哈希值对49999求余,观察Hash算法的散列情况

英汉词典Dict.txt在这里下载:http://wenku.baidu.com/view/4ff90a9851e79b8968022695.html

测试结果如下:

方法最高高度平均查找次数
BKDRHash61.2383
SDBMHash51.2387
JSHash61.2397
DJBHash51.2403
RSHash51.2417
PJWHash51.2427
ELFHash51.2427
APHash61.2436

转自:

http://apps.hi.baidu.com/share/detail/39630021

http://www.cnblogs.com/atlantis13579/archive/2010/02/06/1664792.html

转载于:https://www.cnblogs.com/dongtian0359/archive/2011/07/10/2102192.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/422835.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言进阶深度学习记录】六 C语言中的分支语句

文章目录1 if 语句的分析1.1 if 语句中零值比较的注意点2 switch 语句的分析3 if 与switch语句使用代码案例分析4 if语句与switch语句的互换5 总结1 if 语句的分析 if 语句根据条件选择执行语句else 不能独立存在&#xff0c;且总是与距离它最近的if匹配else 语句可以连接其他…

【C语言进阶深度学习记录】七 C语言中的循环语句

文章目录1 循环语句分析1.1 do...while循环1.2 while循环1.3 for循环1.4 三种循环语句使用对比2 break和continue的区别3 总结1 循环语句分析 C语言中的循环语句主要有for循环&#xff0c;while循环和do…while循环。 循环语句的基本工作方式&#xff1a; 通过条件表达式判断…

overload和override的区别

override&#xff08;重写&#xff09; 1、方法名、参数、返回值相同。2、子类方法不能缩小父类方法的访问权限。3、子类方法不能抛出比父类方法更多的异常(但子类方法可以不抛出异常)。4、存在于父类和子类之间。5、方法被定义为final不能被重写。overload&#xff08;重载&am…

【C语言进阶深度学习记录】八 C语言中void的分析

文章目录1 void的意义1.1 不存在void变量1.2 C标准1.3 void指针的意义1.4 通过void* 实现memset函数2 总结1 void的意义 void修饰函数的参数和返回值的时候&#xff1a; 如果函数没有返回值应该将其返回值声明为void如果函数没有参数&#xff0c;应该将函数的参数声明为void如…

【C语言进阶深度学习记录】九 C语言中const的详细分析

文章目录1 const的分析2 const本质的分析实验2.1 代码案例分析3 const修饰函数参数和返回值时的情况3.1 代码案例分析4 总结1 const的分析 不管是C语言还是C语言&#xff0c;const都是一个非常重要的关键字。今天这篇文章着重学习记录C语言中的const。C语言中稍有不同。 在C语…

[转载] 源代码

新浪影音娱乐&#xff1a;http://data.ent.sina.com.cn/movie/11552.html 转载于:https://www.cnblogs.com/6DAN_HUST/archive/2011/07/19/2110161.html

【C语言进阶深度学习记录】十 C语言中:struct的柔性数组和union分析

本文并不讲C语言的基础 文章目录1 空struct的大小2 结构体与柔性数组2.1 柔性数组的使用方法2.2 柔性数组使用代码案例分析3 C语言中的union分析3.1 使用union判断系统大小端4 总结1 空struct的大小 C语言中的struct可以看成是变量的集合 如果一个struct里面什么都没有&#…

jQuery学习教程(一):入门

题外话&#xff1a;从今天起正式学习jQuery&#xff08;实际严格讲已经用了几个月的jQuery的一丁点东西&#xff09;&#xff0c;边学边做边记教程&#xff1b;阅读书籍《锋利的jQuery》jQuery API Doc。 基础知识&#xff1a; 想要结构与行为分离当然不能使用<button οncl…

【C语言进阶深度学习记录】十一 C语言中enum,sizeof,typedef分析

文章目录1 enum 枚举类型的使用方法1.1 enum枚举类型的特殊意义1.2 代码分析&#xff1a;enum的使用2 sizeof 关键字的用法2.1 代码案例分析&#xff1a;sizeof的本质3 typedef的意义3.1 代码案例&#xff1a;typedef 的使用案例4 总结1 enum 枚举类型的使用方法 enum是C语言中…

三全食品:信息化建设狂飙突进的六年

李健说&#xff0c;目前三全完成了SAP系统中的销售、物流、财务、生产等核心模块的建设&#xff0c;今后的重点工作就是外部电子商务门户建设&#xff0c;实现与经销商的网络交易&#xff0c;实现外部系统与企业ERP系统的集成。中国第一颗速冻汤圆&#xff0c;第一只速冻粽子都…

【C语言进阶深度学习记录】十二 C语言中的:字符和字符串

文章目录1 C语言中的单引号和双引号1.1 双引号带来的BUG2 总结1 C语言中的单引号和双引号 C语言中的单引号用来表示字符字面量C语言中的双引号用来表示字符串字面量&#xff0c;存储于全局的只读存储区 注意上面的字符与字符串的区别 下面的程序片段是否合法&#xff1f; 上面…

PetShop的系统架构设计[转]

前言&#xff1a;PetShop是一个范例&#xff0c;微软用它来展示.Net企业系统开发的能力。业界有许多.Net与J2EE之争&#xff0c;许多数据是从微软的PetShop和Sun的PetStore而来。这种争论不可避免带有浓厚的商业色彩&#xff0c;对于我们开发人员而言&#xff0c;没有必要过多关…

【C语言进阶深度学习记录】十三 C语言中 ++和--操作符

学习交流加&#xff08;可免费帮忙下载CSDN资源&#xff09;&#xff1a;个人微信&#xff1a; liu1126137994学习交流资源分享qq群1&#xff08;已满&#xff09;&#xff1a; 962535112学习交流资源分享qq群2&#xff1a; 780902027 文章目录1 和--操作符的本质2 总结1 和–操…

使用 Eclipse C/C++ Development Toolkit 开发应用程序

点击打开链接转载于:https://www.cnblogs.com/Podevor/archive/2011/07/25/2788071.html

【C语言进阶深度学习记录】十四 C语言中 三目运算符和逗号表达式

文章目录1 三目运算符1.1 三目运算符的返回类型的代码案例分析2 逗号表达式2.1 逗号表达式代码案例分析2.2 如何用一行代码实现 strlen函数3 总结1 三目运算符 三目运算符&#xff08;a?b:c&#xff09;可以作为逻辑运算的载体规则: 当a为真时&#xff0c;返回b&#xff0c;否…

POJ 1719 Shooting Contest

题目&#xff1a;http://poj.org/problem?id1719 要求每一行必须都被射到&#xff0c;每一列恰好一个格子被射到。 通过行r去求匹配数num 当r<c时&#xff0c;num是可以等于r的 这时候每一行都被射到过&#xff0c;可能存在列没有被射到&#xff0c;可以再该列中任意选一个…

【C语言进阶深度学习记录】十五 编译过程简介

文章目录1 初识编译器2 总结1 初识编译器 我们平时口中所说的编译器&#xff0c;是广泛的编译器。实际上&#xff0c;编译器包括了以下四个部分&#xff1a; 一个C代码被编译为可执行代码&#xff0c;包括以下几个过程&#xff1a; 下面就对上述的各个过程进行一个详细的说明&…

Android 各控件的使用 - 按钮(Button)

安卓按钮的使用 就不细说项目的设置什么的了&#xff0c;直接从添加Activity开始。 如图&#xff0c;src文件夹下添加一个ButtonActivity View Code packagecn.Kurodo;importcn.Kurodo.R.id;importandroid.app.Activity;importandroid.os.Bundle;importandroid.util.Log;impor…

【C语言进阶深度学习记录】十六 静态库与动态库的创建与使用

上一篇文章学习了编译的过程&#xff0c;点击链接查看&#xff1a;【C语言进阶深度学习记录】十五 编译过程简介&#xff0c;每一个C源文件编译后将会生成目标文件&#xff0c;那么这些目标文件&#xff0c;还需要链接起来&#xff0c;生成可执行文件。 文章目录1 链接的意义1.…