概要
Rolling Hashは文字列のハッシュによって文字列比較を高速に行う。
ハッシュは衝突する可能性もある。衝突させにくくするには、複数のハッシュを計算して比較する等をすればよい。
実装
# 1-dimension Rolling Hash
class RollingHash():
def __init__(self, s, base, mod):
self.mod = mod
self.pw = pw = [1]*(len(s)+1)
l = len(s)
self.h = h = [0]*(l+1)
v = 0
for i in range(l):
h[i+1] = v = (v * base + ord(s[i])) % mod
v = 1
for i in range(l):
pw[i+1] = v = v * base % mod
def get(self, l, r):
return (self.h[r] - self.h[l] * self.pw[r-l]) % self.mod
# 非クラス版
base = 37; mod = 10**9 + 9
pw = None
def rolling_hash(s):
l = len(s)
h = [0]*(l + 1)
v = 0
for i in range(l):
h[i+1] = v = (v * base + ord(s[i])) % mod
return h
# RH前に、必要な長さの最大値分のpow-tableを計算しておく
def setup_pw(l):
global pw
pw = [1]*(l + 1)
v = 1
for i in range(l):
pw[i+1] = v = v * base % mod
def get(h, l, r):
return (h[r] - h[l] * pw[r-l]) % mod
Verified
-
AOJ: "ALDS1_14_B: String Search - String Search": source (Python3, 1.88sec)
実装 (mod の乱数化)
Rolling HashはHack可能なコンテストで使うと、ハッシュが衝突する入力で落とされる可能性がある。
これに対応するため、乱数を使って狙って衝突させにくくした実装。
# Random Rolling Hash
import random, math
random.seed()
def gen(a, b, num):
result = set()
while 1:
while 1:
v = random.randint(a, b)//2*2+1
if v not in result:
break
for x in range(3, int(math.sqrt(v))+1, 2):
if v % x == 0:
break
else:
result.add(v)
if len(result) == num:
break
return result
class RH():
def __init__(self, s, base, mod):
self.base = base
self.mod = mod
self.rev = pow(base, mod-2, mod)
l = len(s)
self.h = h = [0]*(l+1)
tmp = 0
for i in range(l):
num = ord(s[i])
tmp = (tmp*base + num) % mod
h[i+1] = tmp
def calc(self, l, r):
return (self.h[r] - self.h[l] + self.mod) * pow(self.rev, l, self.mod) % self.mod
class RRH():
def __init__(self, s, num=10):
# 2 ~ 1000の間の乱数でnum個のハッシュをとる
param = (2, 10**3, num)
MOD = 10**9+7
self.rhs = [RH(s, p, MOD) for p in gen(*param)]
def calc(self, l, r):
return [rh.calc(l, r) for rh in self.rhs]
# usage: RRH("abcd")