大型语言模型的高效引导生成：迭代 FSM 处理和索引

作者：

（1） Brandon T. Willard，普通计算；

（2）R´emi Louf，《普通计算》。

链接表

3. 迭代 FSM 处理和索引

准确地说，我们考虑 5 元组有限自动机形式的正则表达式 [Sipser，1996，定义 1.5]：

定义 1 （有限自动机）。有限自动机或有限状态机由 (Q, Σ, δ, q0, F) 给出，其中 Q 是一组有限状态，Σ 是有限字母表，δ : Q × Σ → Q 是转换函数，q0 ∈ Q 是起始状态，F ⊆ Q 是接受状态集。

V 中字符串的组成字符来自 Σ：即 V ⊂ P(Σ)。为简单起见，FSM 状态 Q 将始终用整数值表示。

示例 1。我们在图 1 中说明了正则表达式 ([0-9]*)?\.?[0-9]* 的 FSM 采样过程，该正则表达式可用于生成浮点数。为简单起见，让词汇表 V 仅由以下字符串组成：“A”、“.”、 “42”、“.2”和“1”。

当生成开始时，FSM 处于状态 0，因此我们的算法会屏蔽字符串“A”，因为它不会被 FSM 接受。在这种情况下，我们只能采样“.”、“42”、“.2”和“1”。

如果我们采样“.2”，则将 FSM 推进到状态 3。在这种情况下，只有“42”和“1”是有效完成，因此我们在采样之前屏蔽其他值。如果我们采样“1”，则将 FSM 推进到状态 1，在这种情况下，“。”、”.42”、“.2”和“1”是有效完成，并且屏蔽保持不变。

$图 1：正则表达式 ([0-9]*)?\.?[0-9]* 的 FSM 掩码。$

循环遍历词汇表以确定有效的下一个标记仍然是最大的问题。为此，我们使用正则表达式的 FSM 对词汇表进行预处理并构建索引。重要的是我们考虑从每个可行的 FSM 状态开始，因为词汇表中的字符串可以匹配正则表达式的任意部分，而这些部分隐含地是 FSM 状态。

算法 3 中给出了从 FSM 中的任意点开始生成匹配的过程。结果是子序列列表，详细说明了 FSM 在接受提供的字符串时将遍历的状态。

通过将这些子序列的起始状态与算法 2 中循环一步到达的最后一个 FSM 状态进行匹配，我们可以使用映射 σ : Q → P(V) 有效地对词汇表进行索引，将 FSM 状态与 FSM 在这些状态下将接受的词汇表元素集连接起来。

算法 4 描述了 σ 的构造。

使用哈希映射 σ 可以使算法 2 中的 m 步骤平均仅花费 O(1)。此外，由于 σ 是在标记采样过程之外构建的，因此其运行时成本实际上无关紧要，尽管理论上它需要的内存等于 FSM 中的状态数（即 |Q|）。幸运的是，对于正则表达式和词汇表的非病态组合，词汇表中的并非每个字符串都会被 FSM 接受，并且并非每个 FSM 状态都会由 V 中的字符串表示。