1 条题解

  • 0
    @ 2025-8-24 22:49:23

    自动搬运

    查看原文

    来自洛谷,原作者为

    avatar Alex_Wei
    **

    搬运于2025-08-24 22:49:23,当前版本为作者最后更新于2023-08-21 18:09:56,作者可能在搬运后再次修改,您可在原文处查看最新版

    自动搬运只会搬运当前题目点赞数最高的题解,您可前往洛谷题解查看更多

    以下是正文


    *P9543 [湖北省选模拟 2023] 日记 / diary

    相当酷的一道题目。

    n=Sn = |S|m=Tm = |T|

    10710 ^ 7 的数据范围告诉我们题目的时间复杂度只能是线性或常数极小的单 log\log

    首先让我们思考线性时间能求出哪些信息。KMP,扩展 KMP,Manacher,Lyndon 分解,最小表示法等字符串算法都是可以接受的,不过至于 SA,SAM 这样的后缀数据结构就别想了。因为本题和回文与字典序没有太大关系,而和 “一个字符串在另一个字符串中出现” 密切相关,所以我们猜测本题的主要算法是 KMP 和扩展 KMP。

    不妨将限制放宽一些。如果不要求得到的字符串包含 TT 作为子串,能做吗?必须能。构造 T=1|T| = 1S1=Sn=T1S_1 = S_n = T_1,可知原问题不弱于:任选 SS 的可空前缀 PP 与可空后缀 QQ,求本质不同的 P+QP + Q 的数量。

    该问题容易在线性时间内解决:对于每个本质不同的 R=P+QR = P + Q,只在最后一个分割点处统计它,即枚举 RRSS 的最长公共前缀长度 LL,并认为 P=S1LP = S_{1\sim L}。因此,对于每个 PP,所有合法的 QQ 形如:若 P=SP = S,则 QQ 为任意后缀;若 PSP\neq SL<nL < n,则 Q=0|Q| = 0Q1SL+1Q_1 \neq S_{L + 1},否则 SSRR 的最长公共前缀还可以更长,即 LL 可以更大。用总数 (n+1)2(n + 1) ^ 2 减去对每个 0L<N0 \leq L < N,第一个字符等于 SL+1S_{L + 1} 的非空后缀数量,即字符 SL+1S_{L + 1}SS 中出现的次数。

    尝试加入 TTRR 中出现的限制,有三种情况:TTPP 中出现;TTQQ 中出现;TT 等于 PP 的非空后缀加上 QQ 的非空前缀。但这三种情况可能同时发生,再加上本质不同的要求,根本无从下手。但很显然,TTPPQQ 中出现的情况更容易考虑一些,因为它只与 PPQQ 相关,而不同时与 P,QP, Q 相关。我们希望尽可能排除这两种情况,简化问题。

    先看看用上面的算法能推出哪些东西吧:设 f(i,j)f(i, j) 表示不要求 TTRR 中出现过,Pi|P| \leq iQni+1|Q|\leq n - i + 1 的本质不同的 RR 的数量,可以线性计算。容斥是必要的。首先用 f(n,1)f(n, 1) 估计答案,但是多算了不包含 TTRR。只要 PPQQ 包含 TT,那么 RR 一定包含 TT。故考虑设 TTSS 中第一次出现的 结束位置cc,最后一次出现的 开始位置dd,若 PP 的结束位置在 cc 及其右侧,或 QQ 的开始位置在 dd 及其左侧,那么 RR 一定包含 TT。特别地,若 TT 没有在 SS 中出现,可认为 c=n+1c = n + 1d=0d = 0

    在容斥减去不包含 TTRR 的数量时,可以限制 P<c|P| < cQ<nd+1|Q| < n - d + 1。用 f(c1,d+1)f(c - 1, d + 1) 估计这个值,将导致答案少算了 存在 分割方式使得 P<c|P| < cQ<nd+1|Q| < n - d + 1 的包含 TTRR 的数量。

    cc 减去 11dd 加上 11,我们将问题转化为了:计算 PP 的结束位置在 cc 及其左侧,QQ 的结束位置在 dd 及其右侧,且 TTRR 中出现过的本质不同的 RR 的数量。根据 ccdd 的定义,可知 PPQQ 不可能单独包含 TT。因此,TT 必然等于 PP 的某个 非空 后缀加上 QQ 的某个 非空 前缀。在这个前提下,关于 “TTRR 中出现” 的限制,有两种思路:

    思路一:枚举 P|P|,那么合法的 QQ 满足:存在 LL 使得 PP 的长度为 LL 的后缀等于 TT 的长度为 LL 的前缀,且 QQ 的长度为 nLn - L 的前缀等于 TT 的长度为 nLn - L 的后缀。

    • 刻画 LL 的形态:建出 TT 的失配树,设 PPTT 的最长公共后缀前缀为 lenlen(KMP 求出),那么 LL 是失配树上 lenlen 的祖先。
    • 刻画 QQ 的形态:建出 TT 的反串的失配树,设 QQTT 的最长公共前缀后缀为 lenlen,那么 nLn - L 是失配树上 lenlen 的祖先。固定 LL,合法的 QQTT 的反串的失配树的某棵子树。因此合法的 QQ 是该失配树的若干子树的并,这很难处理,更何况还有本质不同的限制。这种思路并不可行。

    思路二:从 RR 中删去 TT,设 PPQQ 变成了 PP'PP'PP 的前缀,且 PPP' \neq P)和 QQ'QQ'QQ 的后缀,且 QQQ'\neq Q),枚举 L=PL = |P'|,设 SL+1cS_{L + 1\sim c}TT 的最长公共前缀为 xx,那么要求 SdnQS_{d\sim n - |Q'|}TT 的最长公共后缀 ymxy\geq m - x

    先不管本质不同,合法的 (P,Q)(P', Q') 二元组数量是可以计算的:对每个 1ic1\leq i\leq c,使用扩展 KMP 求出 SicS_{i\sim c}TT 的最长公共前缀 zsizs_i;对每个 djnd\leq j\leq n,使用扩展 KMP 求出 SdjS_{d\sim j}TT 的最长公共后缀 zsjzs'_j。注意到 zszszszs' 均小于 mm,所以 PP' 不会以位置 cc 结尾(否则要求 QQ 完全包含 TT),同理 QQ' 不会以位置 dd 开头。因此,合法的 (P,Q)(P', Q') 二元组数量就等于 $\sum_{i = 1} ^ c\sum_{j = d} ^ n [zs_i + zs'_j \geq m]$。这是一维偏序,复杂度线性。

    加入本质不同的限制,我们希望在最小的 P|P'| 的位置统计 RR。不能存在 合法(P,Q)(P'', Q'') 使得 P+T+Q=P+T+QP'' + T + Q'' = P' + T + Q'P<P|P''| < |P'|,为此,尝试探究什么样的 合法 二元组需 (P,Q)(P', Q') 要舍去。

    考虑两个 合法 二元组 (P1,Q1)(P_1', Q_1')(P2,Q2)(P_2', Q_2') 满足 R=P1+T+Q1=P2+T+Q2R = P_1' + T + Q_1' = P_2' + T + Q_2'。不妨设 P1<P2|P_1'| < |P_2'|,则 (P2,Q2)(P_2', Q_2') 需要被舍去。设 per=P2P1per = |P_2'| - |P_1'|,则 per<mper < m(否则 TTP2P_2' 中出现)。

    • 根据 P1+T+Q1=P2+T+Q2P_1' + T + Q_1' = P_2' + T + Q_2',可知 P2P_2'TT 有长度为 perper 的公共后缀前缀,且 Q1Q_1'TT 有长度为 perper 的公共前缀后缀。又因为 Q1Q_1' 的起始位置在 dd 及其右侧,所以后者等价于 SdnQ2S_{d\sim n - |Q_2'|}TT 有长度为 perper 的公共后缀,即 zsnQ2perzs'_{n - |Q_2'|} \geq per
    • R=P1+T+Q2R = P_1' + T' + Q_2',那么 T=m+per|T'| = m + perTTTT' 的 border。这说明 TT' 有长度为 perper 的 period,继而推出 TT 有长度为 perper 的 period。

    综上,得 (P2,Q2)(P_2', Q_2') 需要被舍去的必要条件:存在 perper 同时满足

    • perperTT 的 period。
    • P2P_2'TT 有长度为 perper 的公共后缀前缀。
    • zsnQ2perzs'_{n - |Q_2'|} \geq per

    充分吗?充分性是容易证明的。

    枚举 P2|P_2'|。显然我们只关心最小的 perper 使得 perperTT 的 period 且 P2P_2'TT 有长度为 perper 的公共后缀前缀,因为对于所有这样的 perper,如果 zsnQ2zs'_{n - |Q_2'|} 小于最小的 perper,那么更大的 perper 也不会让它被舍去。

    综上,枚举 0i=P<c0\leq i = |P'| < c,求出对应的最小的 perper(标记所有 period,然后在失配树上 DP),合法的 QQ' 的起始位置 d<jn+1d < j \leq n + 1 满足:

    • zsi+1+zsj1mzs_{i + 1} + zs'_{j - 1} \geq m
    • zsj1<perzs'_{j - 1} < per

    看上去是二维偏序,但这就是 mzsi+1zsj1<perm - zs_{i + 1} \leq zs'_{j - 1} < per,还是一维偏序,前缀和即可。

    时间复杂度 O(n+m)\mathcal{O}(n + m)

    #include <bits/stdc++.h>
    using namespace std;
    using ll = long long;
    
    bool Mbe;
    constexpr int N = 1e7 + 5;
    
    ll ans;
    int n, m, f[N], fst = -1, lst = -1;
    int zs[N], _zs[N], zt[N];
    int ns[N], nt[N], buc[N];
    char s[N], t[N];
    
    void calcnxt(int *nt, int *ns) {
      for(int i = 2; i <= m; i++) {
        int j = nt[i - 1];
        while(j && t[j + 1] != t[i]) j = nt[j];
        nt[i] = j + (t[j + 1] == t[i]);
      }
      for(int i = 1; i <= n; i++) {
        int j = ns[i - 1];
        while(j && t[j + 1] != s[i]) j = nt[j];
        ns[i] = j + (t[j + 1] == s[i]);
      }
    }
    
    void calcz(int *zt, int *zs) {
      int l = 1, r = 0;
      for(int i = 2; i <= m; i++) {
        int j = i > r ? 0 : min(zt[i - l + 1], r - i + 1);
        while(t[j + 1] == t[i + j]) j++;
        if(i + j > r) l = i, r = i + j - 1;
        zt[i] = j;
      }
      l = 1, r = 0;
      for(int i = 1; i <= n; i++) {
        int j = i > r ? 0 : min(zt[i - l + 1], r - i + 1);
        while(i + j <= n && t[j + 1] == s[i + j]) j++;
        if(i + j > r) l = i, r = i + j - 1;
        zs[i] = j;
      }
    }
    
    ll calc(int l, int r) {
      ll res = 1ll * (l + 1) * (n - r + 2);
      vector<int> cnt(26);
      for(int i = r; i <= n; i++) cnt[s[i] - 'a']++;
      for(int i = 1; i <= l; i++) res -= cnt[s[i] - 'a'];
      return res;
    }
    
    bool Med;
    int main() {
      fprintf(stderr, "%.3lf MB\n", (&Mbe - &Med) / 1048576.0);
      #ifdef ALEX_WEI
        FILE *IN = freopen("diary.in", "r", stdin);
        FILE *OUT = freopen("diary.out", "w", stdout);
      #endif
      ios::sync_with_stdio(0), cin.tie(0), cout.tie(0);
    
      cin >> s + 1 >> t + 1;
      n = strlen(s + 1), m = strlen(t + 1);
    
      calcz(zt, _zs);
      reverse(s + 1, s + n + 1);
      reverse(_zs + 1, _zs + n + 1);
      reverse(t + 1, t + m + 1);
      calcz(zt, zs), calcnxt(nt, ns);
    
      for(int i = 0; i <= m; i++) f[i] = m;
      for(int i = nt[m]; i; i = nt[i]) f[m - i] = m - i;
      for(int i = 1; i <= m; i++) f[i] = min(f[i], f[nt[i]]);
    
      for(int i = m; i <= n; i++) if(ns[i] == m) fst == -1 && (fst = i - 1), lst = i - m + 2;
      if(fst != -1) ans = calc(n, 1) - calc(fst, lst);
      else fst = n, lst = 1;
    
      for(int i = 1; i <= fst; i++) zs[i] = min(zs[i], fst - i + 1);
      for(int i = lst; i <= n; i++) buc[_zs[i] = min(_zs[i], i - lst + 1)]++;
      for(int i = 1; i <= n; i++) buc[i] += buc[i - 1];
      for(int i = 1; i <= fst; i++) {
        int l = m - zs[i], r = min(n, f[ns[i - 1]] - 1);
        if(l <= r) ans += buc[r] - buc[l - 1];
      }
      cout << ans << "\n";
    
      cerr << 1e3 * clock() / CLOCKS_PER_SEC << " ms\n";
      return 0;
    }
    
    /*
    g++ diary.cpp -o diary -O2 -std=c++14 -DALEX_WEI
    */
    
    • 1

    信息

    ID
    9085
    时间
    2000ms
    内存
    1024MiB
    难度
    7
    标签
    递交数
    0
    已通过
    0
    上传者