gx
chenyc
2025-02-12 ea42ff3ebee1eeb3fb29423aa848a249441db81c
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
/**
 * @license
 * Copyright 2023 Google LLC.
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 * http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 * =============================================================================
 */
/* Original source: keras-nlp/byte_pair_tokenizer.py */
import { Tensor, tensor } from '@tensorflow/tfjs-core';
import { ValueError } from '../../errors';
import { matchAll } from './match_all_polyfill';
import { tensorArrTo2DArr, tensorToArr } from './utils';
export function bytesToUnicode() {
    const inclusiveRange = (start, end) => Array.from({ length: (end - start + 1) }, (v, k) => k + start);
    const bs = [
        ...inclusiveRange('!'.charCodeAt(0), '~'.charCodeAt(0)),
        ...inclusiveRange('¡'.charCodeAt(0), '¬'.charCodeAt(0)),
        ...inclusiveRange('®'.charCodeAt(0), 'ÿ'.charCodeAt(0))
    ];
    const cs = [...bs];
    let n = 0;
    // Removes mapping an int to a whitespace character
    for (let b = 0; b < 2 ** 8; b++) {
        if (!bs.includes(b)) {
            bs.push(b);
            cs.push(2 ** 8 + n);
            n++;
        }
    }
    const chars = cs.map(n => String.fromCharCode(n));
    // TODO(orderique): Verify same functionality.
    const bytes = Uint8Array.from(bs);
    return [bytes, chars];
}
/**
 * StaticHashTable includes a `lookup` function for multiple keys at once.
 */
export class StaticHashTable {
    constructor(keys, values, defaultValue) {
        this.defaultValue = defaultValue;
        if (keys.length !== values.length) {
            throw new ValueError(`keys and values arrays must be same length.
        Instead got lengths ${keys.length} and ${values.length}.`);
        }
        const keyValPairs = [];
        for (let idx = 0; idx < keys.length; idx++) {
            const key = keys[idx];
            const val = values[idx];
            keyValPairs.push([key, val]);
        }
        this._map = new Map(keyValPairs);
    }
    get(key) {
        if (this._map.has(key)) {
            return this._map.get(key);
        }
        return this.defaultValue;
    }
    lookup(keys) {
        const values = keys.map(t => {
            const innerValues = [];
            for (const key of t.dataSync()) {
                innerValues.push(this.get(key));
            }
            return tensor(innerValues, t.shape);
        });
        return values;
    }
}
export function createStaticHashtable(keys, values, defaultVal) {
    return new StaticHashTable(keys, values, defaultVal);
}
/**
 * Cache that stores the encoded result of seen tokens.
 *
 * The cache key is string tensor or python strings, and the value is split
 * tokens joined by whitespace. For example, "dragonfly" => "dragon fly"
 *
 * Examples:
 *
 * ```js
 * const cache = new BytePairTokenizerCache();
 * cache.insert(["butterfly", "dragonfly"], ["but ter fly", "dragon fly"]);
 * cache.lookup(["butterfly"]);
 * ```
 */
export class BytePairTokenizerCache {
    constructor() {
        this._cache = new Map();
    }
    get(key) {
        if (this._cache.has(key)) {
            return this._cache.get(key);
        }
        return '';
    }
    /**
     * Insert token <=> encoded outputs pairs.
     */
    insert(keys, values) {
        const arrKeys = keys instanceof Tensor ?
            keys.dataSync() : keys;
        for (const [idx, key] of arrKeys.entries()) {
            this._cache.set(key, values[idx]);
        }
        return this;
    }
    /**
     * Look up the encoded outputs of given tokens.
     */
    lookup(keys) {
        const arrKeys = keys instanceof Tensor ?
            keys.dataSync() : keys;
        return arrKeys.map(key => this.get(key));
    }
}
/**
 * Remove certain strings from input tensor.
 */
export function removeStringsFromInputs(inputs, stringToRemove) {
    const stringArrInputs = tensorArrTo2DArr(inputs);
    const filteredStrArrays = stringArrInputs
        .map(arr => arr.filter(s => s !== stringToRemove));
    const filteredTensors = filteredStrArrays.map(arr => tensor(arr));
    return filteredTensors;
}
/**
 * Create alternates for all special tokens that will be not split during
 * tokenization.
 */
export function createAltsForUnsplittableTokens(unsplittableTokens) {
    const prefix = 'ĵ';
    // Trim out splitters.
    const replacePattern = /'|\s+|[^\p{L}\p{N}]+/gu;
    return unsplittableTokens.map(token => prefix + token.replace(replacePattern, ''));
}
// Typescript and TF handles special spaces differently, we need to
// manually handle special spaces during string split.
const SPECIAL_WHITESPACES = /\u00A0\u2009\u202f\u3000/;
// String splitting regex pattern.
const pL = 'a-zA-ZáàâäãåçéèêëíìîïñóòôöõúùûüýÿæœÁÀÂÄÃÅÇÉÈÊËÍÌÎÏÑÓÒÔÖÕÚÙÛÜÝŸÆŒĵ';
const pN = '0-9';
export const SPLIT_PATTERN_1 = new RegExp(`'s|'t|'re|'ve|'m|'ll|'d` +
    `|[\\s${SPECIAL_WHITESPACES.source}]+` +
    `[\\n\\r\\t\\f६${SPECIAL_WHITESPACES.source}]| ?${pL}+|` +
    ` ?${pN}+| ?[^\\s${pL}${pN}${SPECIAL_WHITESPACES.source}]+`, 'gu');
const SPLIT_PATTERN_2 = new RegExp(`[\\s६${SPECIAL_WHITESPACES.source}]\$`);
function flatten(inputs) {
    return inputs.reduce((accumulator, value) => accumulator.concat(value), []);
}
export function regexSplit(strs, delimRegexPattern, keepDelimRegexPattern = false) {
    if (strs[0] instanceof Array) {
        const mapped = strs.map(arr => regexSplit(arr, delimRegexPattern, keepDelimRegexPattern));
        return mapped.map(flatten);
    }
    strs = strs;
    if (!(delimRegexPattern instanceof RegExp)) {
        if (keepDelimRegexPattern) {
            delimRegexPattern = new RegExp(`(${delimRegexPattern})`);
        }
        return strs.map(str => str.split(delimRegexPattern).filter(s => s));
    }
    const regexPattern = delimRegexPattern.flags.includes('g') ?
        delimRegexPattern
        : new RegExp(delimRegexPattern.source, delimRegexPattern.flags + 'g');
    return strs.map(str => {
        const matches = matchAll(str, regexPattern);
        const splitString = [];
        let currIdx = 0;
        for (const match of matches) {
            splitString.push(str.slice(currIdx, match.index));
            if (keepDelimRegexPattern) {
                splitString.push(str.slice(match.index, match.index + match[0].length));
            }
            currIdx = match.index + match[0].length;
        }
        if (currIdx !== str.length) {
            splitString.push(str.slice(currIdx, str.length));
        }
        return splitString.filter(s => s);
    });
}
export function splitStringsForBpe(inputs, unsplittableTokens) {
    // We need to recreate the exact behavior of token presplitting in the
    // original gpt2 implementation which uses a lookahead. We are using an
    // alternative by inserting a special token "६" before leading space of
    // non-space characters and after the trailing space, e.g.,
    // " tf" will be "६ tf".
    const pattern1 = new RegExp(`( )([^\s${SPECIAL_WHITESPACES}])`);
    const pattern2 = new RegExp(`(\s${SPECIAL_WHITESPACES})\$`);
    const inputsStr = tensorToArr(inputs).map(str => str.replace(pattern1, `६$1$2`).replace(pattern2, `$1६`));
    let alts;
    let rawTokens;
    function escape(input) {
        return input.replace(/[-\/\\^$*+?.()|[\]{}]/g, '\\$&');
    }
    if (unsplittableTokens && unsplittableTokens.length > 0) {
        alts = createAltsForUnsplittableTokens(unsplittableTokens);
        for (const [idx, token] of unsplittableTokens.entries()) {
            const alt = alts[idx];
            const escapedToken = escape(token);
            rawTokens = regexSplit(rawTokens !== undefined ?
                rawTokens : inputsStr, escapedToken, true);
            rawTokens = rawTokens.map(arr => arr.map(t => t.replace(new RegExp(escapedToken), alt)));
        }
    }
    rawTokens = regexSplit(rawTokens !== undefined ?
        rawTokens : inputsStr, SPLIT_PATTERN_1, true);
    // Second pass splits out the last whilespace char or "६".
    rawTokens = regexSplit(rawTokens, SPLIT_PATTERN_2, true);
    if (unsplittableTokens && unsplittableTokens.length > 0) {
        // Replace special tokens alternate with originals.
        for (const [idx, token] of unsplittableTokens.entries()) {
            const alt = alts[idx];
            const escapedAlt = escape(alt);
            rawTokens = rawTokens.map(arr => arr.map(t => t.replace(new RegExp(escapedAlt), token)));
        }
    }
    return removeStringsFromInputs(rawTokens.map(tokens => tensor(tokens)), '६');
}
//# sourceMappingURL=data:application/json;base64,