gx
chenyc
2025-06-12 7b72ac13a83764a662159d4a49b7fffb90476ecb
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
/**
 * @license
 * Copyright 2023 Google LLC.
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 * http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 * =============================================================================
 */
/**
 *  Tokenizer layers.
 */
/* Original source: keras-nlp/tokenizer.py */
import { serialization, tensor, tidy } from '@tensorflow/tfjs-core';
import { Layer } from '../../engine/topology';
import { NotImplementedError, ValueError } from '../../errors';
import { BytePairTokenizerCache, bytesToUnicode, createStaticHashtable, removeStringsFromInputs, splitStringsForBpe } from './tokenizers_utils';
import { tensorToArr, tensorArrTo2DArr } from './utils';
/**
 * Base class for Tokenizers.
 *
 *  Tokenizers in the tfjs library should all subclass this layer.
 *  The class provides two core methods `tokenize()` and `detokenize()` for
 *  going from plain text to sequences and back. A tokenizer is a subclass of
 *  `Layer` and can be combined with other layers in a `tf.sequential` model.
 *
 *  Subclassers should always implement the `tokenize()` method, which will also
 *  be the default when calling the layer directly on inputs.
 *
 *  Subclassers can optionally implement the `detokenize()` method if the
 *  tokenization is reversible. Otherwise, this can be skipped.
 *
 *  Subclassers should implement `get_vocabulary()`, `vocabulary_size()`,
 *  `token_to_id()` and `id_to_token()` if applicable. For some simple
 *  "vocab free" tokenizers, such as a whitespace splitter shown below, these
 *  methods do not apply and can be skipped.
 *
 *  Example:
 *
 *  ```js
 *  class WhitespaceSplitterTokenizer extends Tokenizer {
 *    tokenize(inputs: Tensor): Tensor[] {
 *      const stringInputs = inputs.dataSync() as unknown as string[];
 *      return stringInputs.map(input => Tensor(input.split(' ')));
 *    }
 *
 *    override detokenize(inputs: Tensor[]): Tensor {
 *      const stringInputs = inputs.map(
 *        input => input.dataSync() as unknown as string[]);
 *      return Tensor(stringInputs.map(str => str.join(' ')));
 *    }
 *  }
 *
 * const tokenizer = new WhitespaceSplitterTokenizer();
 *
 * tokenizer.tokenize(tensor(['this is a test']))[0].print();
 *
 * tokenizer.detokenize([tensor(['this', 'is', 'a', 'test'])]).print();
 * ```
 */
export class Tokenizer extends Layer {
    /**
     * Transform tokens back into strings.
     *
     * @param inputs Input tensor.
     * @param kwargs Additional keyword arguments.
     */
    detokenize(inputs) {
        throw new NotImplementedError(`No implementation of 'detokenize()' was found for
      ${this.constructor.name}.`);
    }
    /**
     * Get the tokenizer vocabulary as a list of strings terms.
     */
    get vocabulary() {
        throw new NotImplementedError(`No implementation of 'vocabulary()' was found for
      ${this.constructor.name}.`);
    }
    /**
     * Returns the total size of the token id space.
     */
    get vocabularySize() {
        throw new NotImplementedError(`No implementation of 'vocabularySize()' was found for
      ${this.constructor.name}.`);
    }
    /**
     * Convert an integer id to a string token.
     */
    idToToken(id) {
        throw new NotImplementedError(`No implementation of 'idToToken()' was found for
      ${this.constructor.name}.`);
    }
    /**
     * Convert an integer id to a string token.
     */
    tokenToId(token) {
        throw new NotImplementedError(`No implementation of 'tokenToId()' was found for
      ${this.constructor.name}.`);
    }
    call(inputs, { mode = 'tokenize' } = {}) {
        if (mode === 'tokenize') {
            if (inputs instanceof Array) {
                throw new ValueError(`tokenize expects Tensor, not Tensor[].`);
            }
            return this.tokenize(inputs);
        }
        if (mode === 'detokenize') {
            if (!(inputs instanceof Array)) {
                throw new ValueError(`detokenize expects Tensor[], not Tensor.`);
            }
            return this.detokenize(inputs);
        }
        throw new ValueError(`Input mode=${mode} is not supported.`);
    }
}
/**
 * Byte-pair encoding tokenizer layer.
 *
 * This BPE tokenizer provides the same functionality as the official GPT-2
 * tokenizer. Given the same `vocabulary` which maps tokens to ids, and `merges`
 * which describes BPE merge rules, it should provide the same output as OpenAI
 * implementation (https://github.com/openai/gpt-2/blob/master/src/encoder.py).
 *
 * If input is a batch of strings (rank > 0):
 * By default, the layer will output a `Tensor[]`.
 * If `sequenceLength` is set, the layer will output a `Tensor[]` where all
 * inputs have been padded or truncated to `sequenceLength`.
 *
 * Examples:
 *
 * Tokenize
 * ```js
 * const vocabulary = new Map([['butter', 1], ['fly', 2]]);
 * const merges = ['b u', 't t', 'e r', 'bu tt', 'butt er', 'f l', 'fl y'];
 * const tokenizer = new BytePairTokenizer({vocabulary, merges});
 *
 * tokenizer.tokenize(tensor(['butterfly']))[0].print();
 * tokenizer.tokenize(tensor(['butterfly, butter']))[1].print();
 * ```
 *
 * Detokenize
 * ```js
 * const vocabulary = new Map([['butter', 1], ['fly', 2]]);
 * const merges = ['b u', 't t', 'e r', 'bu tt', 'butt er', 'f l', 'fl y'];
 * const tokenizer = new BytePairTokenizer({vocabulary, merges});
 *
 * tokenizer.detokenize([[1, 2]]).print();
 * ```
 */
class BytePairTokenizer extends Tokenizer {
    constructor(args) {
        super(args);
        this.cache = new BytePairTokenizerCache();
        this._vocabulary = new Map(args.vocabulary);
        this.merges = [...args.merges];
        this.sequenceLength = args.sequenceLength || null;
        this.addPrefixSpace = args.addPrefixSpace || false;
        this.unsplittableTokens = args.unsplittableTokens || null;
        // Create byte <=> unicode mapping. This is useful for handling
        // whitespace tokens.
        const [byteList, unicodeList] = bytesToUnicode();
        this.byte2Unicode = createStaticHashtable(Array.from(byteList), unicodeList, '');
        if (this.unsplittableTokens) {
            // Put unsplittable tokens into cache, so it won't be further split and
            // merged.
            this.cache.insert(this.unsplittableTokens, this.unsplittableTokens);
        }
        // Create mapping between string tokens to int ids, and vice versa.
        const bytePairs = [...this._vocabulary.keys()];
        const bytePairEncodingIndicies = [...this._vocabulary.values()];
        this.tokenToIdMap = createStaticHashtable(bytePairs, bytePairEncodingIndicies, -1);
        this.idToTokenMap = createStaticHashtable(bytePairEncodingIndicies, bytePairs, '');
        // Create ranking of merge rules, this is the same as order of merge pairs
        // in `this.merges`.
        this.mergeRanksLookupDefault = this.merges.length + 1;
        this.mergeRanks = createStaticHashtable(this.merges, [...Array(this.merges.length).keys()], this.mergeRanksLookupDefault);
    }
    /**
     * Get the tokenizer vocabulary as a list of string tokens.
     */
    get vocabulary() {
        return [...this._vocabulary.keys()];
    }
    /**
     * Get the size of the tokenizer vocabulary.
     */
    get vocabularySize() {
        return this._vocabulary.size;
    }
    /**
     * Convert an integer id to a string token.
     */
    idToToken(id) {
        // This will be slow, but keep memory usage down compared to building a
        // dict. Assuming the main use case is looking up a few special tokens
        // early in the vocab, this should be fine.
        const keys = this.vocabulary;
        for (const token of keys) {
            if (this._vocabulary.get(token) === id) {
                return token;
            }
        }
        return undefined;
    }
    /**
     * Convert a string token to an integer id.
     */
    tokenToId(token) {
        return this._vocabulary.get(token);
    }
    getConfig() {
        const config = {
            vocabulary: Array.from(this._vocabulary.entries()),
            merges: this.merges,
            sequenceLength: this.sequenceLength,
            addPrefixSpace: this.addPrefixSpace,
            unsplittableTokens: this.unsplittableTokens,
        };
        const baseConfig = super.getConfig();
        Object.assign(config, baseConfig);
        return config;
    }
    /**
     * Perform one step of byte-pair merge.
     */
    bpeMergeOneStep(words, mask) {
        const wordsStr = tensorArrTo2DArr(words);
        // Get all word pairs.
        const first = wordsStr.map(arr => arr.slice(0, -1));
        const second = wordsStr.map(arr => arr.slice(1, arr.length));
        // Mask empty.
        const nonEmptyMask = second.map(arr => arr.length > 0);
        mask = mask.map((a, idx) => a && nonEmptyMask[idx]);
        if (!mask.some(e => e)) {
            return [words, mask];
        }
        const nonEmptyIndices = mask
            .map((bool, idx) => bool ? idx : -1)
            .filter(e => e !== -1);
        const filteredFirst = nonEmptyIndices.map(idx => first[idx]);
        const filteredSecond = nonEmptyIndices.map(idx => second[idx]);
        // Get byte pair ranking in merge rules.
        const pairs = filteredFirst.map((firstSubArr, idx) => {
            const secondSubArr = filteredSecond[idx];
            return firstSubArr.map((char, idx) => `${char} ${secondSubArr[idx]}`);
        });
        const pairRanksTensor = this.mergeRanks.lookup(pairs.map(arr => tensor(arr)));
        const pairRanks = tensorArrTo2DArr(pairRanksTensor);
        // Get BPE pair ranks.
        const minPairRank = pairRanks.map(arr => arr.reduce((a, b) => Math.min(a, b), Infinity));
        const pairFoundMask = minPairRank.map(rank => rank !== this.mergeRanksLookupDefault);
        // Tokens that cannot be further merged are marked as finished.
        for (const [idx, index] of nonEmptyIndices.entries()) {
            const update = pairFoundMask[idx];
            mask[index] = update;
        }
        if (!mask.some(e => e)) {
            return [words, mask];
        }
        function argMin(arr) {
            return arr.indexOf(arr.reduce((a, b) => Math.min(a, b), Infinity));
        }
        const maskedPairRanks = pairRanks.filter((_, idx) => pairFoundMask[idx]);
        const minPairRankIndices = maskedPairRanks.map(arr => argMin(arr));
        // Get words and pairs to process.
        const unfinishedWords = wordsStr.filter((_, idx) => mask[idx]);
        const pairLeft = unfinishedWords.map((word, idx) => word[minPairRankIndices[idx]]);
        const pairRight = unfinishedWords.map((word, idx) => word[minPairRankIndices[idx] + 1]);
        const mergedPairs = pairLeft.map((left, idx) => {
            const right = pairRight[idx];
            return `${left}${right}`;
        });
        const unfinishedWordsIndices = mask
            .map((_, idx) => idx)
            .filter((_, idx) => mask[idx]);
        const mergedPairIndices = unfinishedWordsIndices.map((index, idx) => [index, minPairRankIndices[idx]]);
        const emptyStringIndices = unfinishedWordsIndices.map((index, idx) => [index, minPairRankIndices[idx] + 1]);
        for (const [idx, indices] of mergedPairIndices.entries()) {
            const [wordIdx, charIdx] = indices;
            const mergedPair = mergedPairs[idx];
            wordsStr[wordIdx][charIdx] = mergedPair;
        }
        for (const indices of emptyStringIndices) {
            const [wordIdx, charIdx] = indices;
            wordsStr[wordIdx][charIdx] = '';
        }
        words = wordsStr.map(word => tensor(word));
        words = removeStringsFromInputs(words, '');
        return [words, mask];
    }
    /**
     * Perform byte-pair merge for each word in the inputs.
     */
    bpeMerge(words) {
        const numWords = words.length;
        // Merge bytes.
        function loopCondition(mask) {
            return mask.some(e => e);
        }
        const initialMask = Array(numWords).fill(true);
        let mergedWords = words;
        let mask = initialMask;
        while (loopCondition(mask)) {
            [mergedWords, mask] = this.bpeMergeOneStep(mergedWords, mask);
        }
        return mergedWords;
    }
    /**
     * Map token bytes to unicode using `byte2unicode`.
     */
    transformBytes(tokens) {
        const tokensStr = tensorToArr(tokens);
        const splitBytes = tokensStr.map(token => tensor(token.split('').map(c => c.charCodeAt(0))));
        const splitUnicode = this.byte2Unicode.lookup(splitBytes);
        return splitUnicode;
    }
    /**
     * Process unseen tokens and add to cache.
     */
    bpeMergeAndUpdateCache(tokens) {
        const words = this.transformBytes(tokens);
        const tokenizedWordsTensor = this.bpeMerge(words);
        const tokenizedWords = tensorArrTo2DArr(tokenizedWordsTensor);
        // For each word, join all its token by a whitespace,
        // e.g., ["dragon", "fly"] => "dragon fly" for hash purpose.
        const joinedTokens = tokenizedWords.map(word => word.join(' '));
        this.cache.insert(tokens, joinedTokens);
    }
    tokenize(inputs) {
        return tidy(() => {
            if (this.addPrefixSpace) {
                const strInputs = tensorToArr(inputs);
                inputs = tensor(strInputs.map(word => ' ' + word));
            }
            const rawTokensTensor = splitStringsForBpe(inputs, this.unsplittableTokens);
            const rawTokens = tensorArrTo2DArr(rawTokensTensor);
            const tokenRowSplits = [0];
            for (const [idx, token] of rawTokens.entries()) {
                tokenRowSplits.push(tokenRowSplits[idx] + token.length);
            }
            const flatTokens = rawTokens.reduce((acc, e) => acc.concat(e), []);
            // Check cache.
            const cacheLookup = this.cache.lookup(flatTokens);
            const cacheMask = cacheLookup.map(e => e === '');
            const hasUnseenWords = cacheMask.some((bool, idx) => bool && flatTokens[idx] !== '');
            const processUnseenTokens = () => {
                const unseenTokens = flatTokens.filter((_, idx) => cacheMask[idx]);
                this.bpeMergeAndUpdateCache(tensor(unseenTokens));
                return this.cache.lookup(flatTokens);
            };
            // If `has_unseen_words == True`, it means not all tokens are in cache,
            // we will process the unseen tokens. Otherwise return the cache lookup.
            const tokenizedWords = hasUnseenWords ? processUnseenTokens() : cacheLookup;
            const tokensTensor = this.tokenToIdMap.lookup(tokenizedWords.map(word => tensor(word.split(' '))));
            const tokens = tokensTensor.map(t => Array.from(t.dataSync()));
            // Unflatten to match input.
            const newTokenRowSplits = [0];
            for (const [idx, token] of tokens.entries()) {
                newTokenRowSplits.push(newTokenRowSplits[idx] + token.length);
            }
            const newFlatTokens = tokens.reduce((acc, e) => acc.concat(e), []);
            const gatheredIndices = tokenRowSplits.map(index => newTokenRowSplits[index]);
            let tokens2D = [];
            for (let i = 0; i < gatheredIndices.length - 1; i++) {
                const [start, end] = [gatheredIndices[i], gatheredIndices[i + 1]];
                const row = newFlatTokens.slice(start, end);
                tokens2D.push(tensor(row));
            }
            // Convert to a dense output if `sequenceLength` is set.
            if (this.sequenceLength) {
                // pad or truncate
                tokens2D = tokens2D.map(t => {
                    if (t.size === this.sequenceLength) {
                        return t;
                    }
                    else if (t.size > this.sequenceLength) {
                        return t.slice(0, this.sequenceLength);
                    }
                    else {
                        return t.pad([[0, this.sequenceLength - t.size]]);
                    }
                });
            }
            return tokens2D;
        });
    }
    detokenize(inputs) {
        const unicodeText = this.idToTokenMap.lookup(inputs)
            .map(t => tensorToArr(t).join(''));
        return tensor(unicodeText);
    }
}
/** @nocollapse */
BytePairTokenizer.className = 'BytePairTokenizer';
export { BytePairTokenizer };
serialization.registerClass(BytePairTokenizer);
//# sourceMappingURL=data:application/json;base64,