1 条题解
-
0
自动搬运
来自洛谷,原作者为

zghtyarecrenj
心亦天天的了 夢天天的了 雖也未能料搬运于
2025-08-24 22:22:50,当前版本为作者最后更新于2020-08-04 11:51:54,作者可能在搬运后再次修改,您可在原文处查看最新版自动搬运只会搬运当前题目点赞数最高的题解,您可前往洛谷题解查看更多
以下是正文
【模板】Runs 题解
By zghtyarecrenj
本文包括:Lyndon Words & Lyndon Array & Runs & Three Squares Lemma。
禁止转载全文,转载部分需要注明出处。
实在太长,已尽量删减(
哇,你古md排版是不是出了点问题
Lyndon tree 是一个非常有趣的东西,但是我现在还没有发现应用,所以先咕着。
前言:Lyndon 相关知识是大毒瘤。
0 Marks & Facts
- 我们定义两个字符串 和 ,如果 的字典序 ,则我们称 。
- 如果 是 的前缀且 ,则我们称 。
- 如果 是 的前缀,则我们称 。
- 如果 且 不是 的前缀,则我们称 。即 $a \triangleleft b \Longleftrightarrow (a < b) \wedge (a \not\sqsubseteq b)$。Fact:如果 ,则 。
- 表示拼接 三个字符串。
- 表示 个 拼接在一起。e.g.
- 表示空串。
- 我们定义字符集为 ,组成的字符串为 ,
- 表示所有 的前缀的集合, 表示所有 的后缀的集合(包含 和 )
- $\operatorname{pref}^+(a) = \operatorname{pref}(a) \setminus \{a,\epsilon\},\ \operatorname{suf}^+(a) = \operatorname{suf}^+(a) \setminus \{a, \epsilon\}$
- 若无特殊定义,字符串 是从 开始。
- 表示 的长度, 表示 的一个子串,第一个字符的标号为 ,最后一个字符的标号为 。
- ,其中 是一个比字符集里面任何数小的字符。
1 Lyndon Words
1.1 Definition
Lyndon Word:一个串是一个 Lyndon Word 当且仅当 的后缀 ,有 。
还有一个定义:对于一个 的串有 个循环同构,则其中严格最小的那个是一个 Lyndon Word。
比如: 是一个 Lyndon Word,但是 不是。
表示 Lyndon Word 的集合。
1.2 Chan-Fox-Lyndon Factorization
又称 Lyndon Decomposition。
我们定义 是一个对于 串的划分,即划分成了 ,使得所有 是 Lyndon Word,并且 。
比如:串 的 Lyndon 分解是 $\color{blue}\text{b}\color{red}\text{b}\color{blue}\text{ab}\color{red}\text{ab}\color{blue}\text{aab}\color{red}\text{aaab}\color{blue}\text{aaaab}$。
Theory 1.2.1 Lyndon Concatanation
这是一个很显然的结论。
如果 ,且 ,则 。
由于 ,我们有 。接下来我们分两种情况讨论。
-
当 时:根据 ,我们有 。所以 。
-
当 时:令 ,则 。因为 ,所以 ,所以 。
所以,$\forall d \in \operatorname{suf}^+(b), \ {ab} < b < d \implies \forall c \in \operatorname{suf}^+(a),\ a \triangleleft e \implies {ab} \triangleleft {eb}$。
Theory 1.2.2 Existence of CFL
这个结论和 [Theory 1.2.3] Uniqueness of CFL 是两个很有趣的结论。
对于任意的串 , 一定存在。
构造法。我们考虑,单个的字母一定是 Lyndon Word。
根据 [Theory 1.2.1 Lyndon Concatanation],我们可以把字典序小的两个 Lyndon Word 并起来,所以我们把所有的字典序单增的序列都并起来,剩下的就是一个合法的 CFL。
Theory 1.2.3 Uniqueness of CFL
对于任意的串 , 一定唯一。
反证法,假设有两种方案。我们考虑第一个不同的位置的情况,可以很容易地得到矛盾,和 CFL 的定义矛盾。
然后我们就得到了 CFL 存在且唯一。由此有两个推论:
Theory 1.2.4 Lyndon Suffixes and Lyndon Prefixes
是最长的 Lyndon 前缀且 是最长的 Lyndon 后缀。
反证法。因为如果 不是最长,那么还能再拼,产生了两个合法的 CFL,和 [Theory 1.2.3 Uniqueness of CFL] 矛盾。所以 是最长的 Lyndon 前缀。
同理。
Theory 1.2.5 Theory of Minsuf
一个字符串 的最小后缀是 。
首先,我们有这样的一个 CFL:

首先,我们记 的起始位置为 ,则显然

如图,最小后缀的其实位置不可能 ,因为根据 Lyndon Word 的定义, 的每个后缀都大于他自身。
接下来我们考虑最小后缀在另一个位置的情况,即他在另一个 之中

根据 ,而 的一个后缀 ,所以这个后缀大于 。
所以唯一可能的最小后缀就是 。
简单来说,假设最小后缀是 而不是 且 。我们有 ,矛盾。
1.3 Duval's Algorithm
就是求出 CFL 的算法啦~
我们有一个非常优美的算法
有一个言简意赅、一看就懂的描述
,,,
- $\operatorname{CFL}({(ubv)^k uah}) = {(ubv)^k} \operatorname{CFL}({uah})$
- $\operatorname{CFL}({(uv)^k u}) = {(uv)^k} \operatorname{CFL}(u)$
换成代码实现就是:
我们需要维护两个部分: 和 。
简单来说,就是如果可以拼到当前的串的末尾就拼上去,否则就是一个新的 Lyndon Word。(如果碰到一个比当前的小的东西,则我们更新 ,否则我们就更新 )。
如果还是不太懂可以移步 oi-wiki,那里写的比较详细。
模拟即可,显然空间复杂度 。接下来证明一下时间复杂度。
接下来证明一下复杂度为什么是对的。
最优情况为一个分解走到底,。
最坏情况为不停地在重新找,由于至多回退 次,每次回退的距离不超过前进的距离,所以是 。
2 Significant Suffixes
这里不太用到,需要的去 ZJOI2017 字符串 题解 看吧。
3 Lyndon Array
3.1 Definition
我们有一个字符串 ,则
Lyndon Array:$\mathcal L[i] = \max \{j : s_i \cdots s_{j-1} \in L\}$,其中 表示 Lyndon 串的集合。在 意义下的 记为 。
这有啥子用?别急,先看性质。
3.2 Non Intersecting Substrings
Theory 3.2.1 Non Intersecting Lyndon Substrings
最长的 Lyndon 子串是无交集的,即 ,我们有 。
我们假设存在 使得 。
我们假设 ,,,且 满足 。
对于所有的 ,且满足 ,有 $s \triangleleft {vw} \sqsupseteq v \triangleleft {uv}$。。
对于所有的 ,且满足 ,有 。。
所以 ,矛盾。
3.3 Suffix & Lyndon Arrays
我们设 ,即一个后缀。
而我们有 $s_i \cdots s_{\mathcal L[i] - 1} \triangleleft s_j \cdots s_{\mathcal L[i] - 1}$。
$\implies \operatorname{suf}(i) \triangleleft \operatorname{suf}(j)\quad(i<j<\mathcal L[i])$
于是我们设
$$\operatorname{NSV}(i) = \min\{\{j > i : \neg(\operatorname{suf}(i) \triangleleft \operatorname{suf}(j))\} \cup \{n\}\} $$显然 。
我们还有 $\neg(\operatorname{suf}(i) \triangleleft \operatorname{suf}(j)) \Longleftrightarrow \operatorname{suf}(j) \sqsubseteq \operatorname{suf}(i) \vee \operatorname{suf}(j) \triangleleft \operatorname{suf}(i) \Longleftrightarrow \operatorname{rank}(i) > \operatorname{rank}(j)$。
Theory 3.3.1 NSV Theory
有了上述定义,证这个是不是非常简单呢 XD
原命题可以很方便地转化为 。
分类讨论:
-
如果 ,$s_i \cdots s_{\operatorname{NSV}(i) - 1} = \operatorname{suf}(i)$
-
否则的话我们肯定有一些 使得 $\operatorname{suf}(i) \triangleleft \operatorname{suf}(j)$。
然后我们继续来讨论:
i) 如果 $s_1 \cdot s_{\operatorname{NSV}(i) - 1} \triangleleft s_{j} \cdots s_{\operatorname{NSV}(i) - 1}$,易证。
ii) 反之,结合 $\operatorname{suf}(i + (\operatorname{NSV}(i) - j) - 1) \triangleright \operatorname{suf}(i)>\operatorname{suf}(\operatorname{NSV}(i))$,易证矛盾。(你看不出来?明显与 $\operatorname{suf}(i) \triangleright \operatorname{suf}(j)$ 矛盾)。
4 Runs
4.1 Definition
这个东西的英文名是 runs,他的中文名是顶天立地串……(好中二啊)
我们有一个串,runs 是他的一些子串,满足:
$p = \operatorname{per}(s_i\cdots s_{j-1})\le \dfrac {j-i}2$,,
更好理解的定义:
定义一个字符串 里的一个 run,指其内部一段两侧都不能扩展的周期子串,且周期至少完整出现两次。
严格地说,一个 run 是一个 三元组 ,满足 是 的最小周期,,且满足如下两个条件:
- 要么 ,要么 ;
- 要么 ,要么 。
例如: 之中有 7 个 runs:,,,,,,。
(实际上是 LOJ #173 的题面,题目是我造的,这一段是 EtoainWu 的文字)
定义 表示字符串 的所有 runs 的集合。
表示了在一个长为 的字符串之中至多有多少组 runs,而 表示了在一个长为 的字符串之中所有 runs 的幂之和的最大值。
Lyndon Root:令 是一个run,则他的 Lyndon Root 是一个 的长度为 的 Lyndon 子串。
每一个 run 都有一个 Lyndon root。
4.2 Linear Runs
Theory 4.2.1 Linear Runs Theory
我们假设 表示 ,而 表示 。(此处的 表示 reverse,给 标号是为了方便)
和 的对应的 Lyndon Array 是 和 .
原命题可以转化为
对于每个 runs,我们有存在 和 使得 是 Lyndon root。
我们令 是 Lyndon root,。
分类讨论:
-
如果 ,
我们可以把 表示成 。
因为 $\operatorname{CFL}({w^pw'}) = {w^p\operatorname{CFL}(w')}$,所以 是从 开始的最长 Lyndon 前缀。
-
如果 ,
我们可以把 表示成 ,其中 。
所以我们可以把 表示成为 。
我们不妨假设 、
因为我们有 $\operatorname{CFL}^t({(uav)^pubh}) = (uav)^p\operatorname{CFL}^t({ubh})$,所以 是 下的最长 Lyndon 前缀。
Theory 4.2.2 The "Runs" Theory
几乎从 WC2019 课件搬运的证明定义 表示 中所有区间的起始端点的集合。
Lemma A
对于一个串的 Lyndon Array 和 ,总有 $\mathcal L^{l}[i] = [i..i], \mathcal L^{1-l}[i] = [i..j] (j\ne i)$,其中 。
令 。
由 [Theory 1.2.1 Lyndon Concatanation] 可得:
- 若 ,则 ,且 。
- 若 ,则 ,且 。
Lemma B
若 为一个run,则对于 的 , 的 意义下的 Lyndon Root 都与 相等。
,令 满足 。
令 为 的 意义下的一个 Lyndon Root,由 [Theory 1.2.1 Lyndon Concatanation],$[i_{\lambda}...j_{\lambda}]=\mathcal L^l(i_{\lambda})$。
对于一个run ,令 为 的 意义下的一个 Lyndon Root 且 。即 表示所有 的关于 的 Lyndon Root 构成的集合,但要除去开头位置 处开始的 Lyndon Root。有 ,其中 为 的指数。
Lemma C
两个不同的 run , 为空。
反证,假设存在 ,并且 ,。
令 满足 ,由于 ,有 。
由 Lemma A, 和 中有且只有一个为 。
不妨设 ,那么 。
由于 为一个 Lyndon Word,有 。
由 和 的定义, 和 的开始位置均小于 ,这意味着 (由 的周期性),并且 (由 的周期性)。矛盾
任意的一个 run 可以被赋予一个两两不交的非空位置集合 。并且,由于 对于任意的一个 均成立,有 $\sum_{r\in Runs(w)}|B_r|=\sum_{r\in Runs(w)}|Beg(B_r)|\leq |w|-1$。
考虑字符串 ,由于对于任意 ,有 ,由 Lemma C,有 。
考虑字符串 ,令 表示 的指数。由于对于任意 ,有 ,由 Lemma C,有 $\sum_{r\in Runs(w)}(e_r-2)<\sum_{r\in Runs(w)}\lfloor e_r-1\rfloor\leq\sum_{r\in Runs(w)}|B_r|\leq |w|-1$。因为 ,可得 。
4.3 Details about Implementation
现在,问题来了:我们怎么算 和 ?
简要思路:
$$\mathcal{L}^0[i] = \mathrm{NSV}(i) = \min\{\{j > i : \neg(\mathrm{suf}(i) \triangleleft \mathrm{suf}(j))\} \cup \{n\}\} $$类似的,
$$\begin{aligned}\mathcal{L}^1[i] &= \mathrm{NSV}^R(i) \\&= \min\{\{j > i : \neg(\mathrm{suf}(i) \triangleleft^R \mathrm{suf}(j))\} \cup \{n\}\} \\&= \min\{\{j > i : \mathrm{suf}(i) \triangleleft \mathrm{suf}(j) \vee \mathrm{suf}(i) \sqsupseteq \mathrm{suf}(j))\} \cup \{n\}\}\end{aligned} $$在实现 Runs 之前,你需要会字符串哈希或者后缀数组或者其他后缀数据结构。
根据以上证明中的 Lemma B,每一个 runs 都会对应一个 Lyndon root,所以如果我们把 Lyndon Array 算出来了,就可以把每个 runs 对应的 Lyndon root 求出来。
所以我们考虑对于字符串的每个后缀都维护他的 CFL,方法是在头上插入一个新字符,然后判断是否合法。根据 [Theory 1.2.1 Lyndon Concatanation],如果遇到一个 Lyndon word 大于下一个的情况,合并即可。可以保证正确性。
这里有一个实现上的细节,可能会好写一点。根据 [Theory 1.2.4 Lyndon Suffixes and Lyndon Prefixes], 是 的最小前缀,所以比较两个 Lyndon word 的字典序相当于比较两个后缀的大小,而这个是比做一个 lcp 要简单多的。
所以至此 Lyndon Array 已经求完了,具体实现细节可以看代码。
接下来我们只要使用 Lyndon Array 扩展出 runs 就可以了,具体的做法是求出 lcp,即如果当前的 Lyndon Array ,则我们 lcp 求出最长的 $s[l..l+l_1-1]=s[r+1..r+l_1], s[l-l_2..l-1]=s[r-l_2..r-1]$。
根据 runs 的定义,如果 ,那么我们就找到了一个 run 。
如果我们使用 SAIS 和 的 rmq 算法,我们就可以线性时间内求出所有的 runs。
比较优秀的 的 rmq 方法:叉姐的 和 hqztrue的。
Template
是我出的啦owo
求就好了,真真实实的板子题。
这篇文章可能以后还会更,加上 2-Period 问题什么的。
5 Three Squares Lemma
5.1 Definition
Squares: 能表示成 的串。
Primitive Squares: 不能再拆的 Squares。如 一定是一个 Primitive Square。
5.2 Three Squares Lemma
Theory 5.2.1 Three Squares Lemma
我们有 3 个 Primitive Squares,为 , 和 ,满足 。
则我们有 ,并且 Primitive Squares 是数量是 poly log 级别的,即 。
唔,我不会证= =咕了咕了
Evguenia Kopylova, W.F. Smyth. The three squares lemma revisited. DOI: 10.1016/j.jda.2011.03.009
6 扯淡
我在出 LOJ #173 的时候,发现有一个非常强的暴力,就是暴力地去做 lcp 和 lcs。
后来我经过不懈努力使用
aaaaa...ab这个串卡掉了他,但是其实考场上如果时间不够的话写这个暴力其实是非常优秀的,毕竟我见过的两个 runs 题都没有卡这个暴力。
- 1
信息
- ID
- 5695
- 时间
- 2000ms
- 内存
- 256MiB
- 难度
- 7
- 标签
- 递交数
- 0
- 已通过
- 0
- 上传者