Термин · Глоссарий B2B-ПО

Tokenization (Tokenization)

Токенизация – процесс замены чувствительных данных (номеров карт, персональных данных) случайными эквивалентами (токенами) без криптографической связи с исходными данными; в NLP – разбивка текста на минимальные единицы (слова, подслова); в блокчейне – создание цифрового представления реальных активов на смарт-контрактах.

Буква «T» В категориях: 4 Платформ: 6+

Введение

Токенизация (Tokenization) – многоаспектный технологический процесс, суть которого существенно различается в зависимости от контекста:

  • В информационной безопасности – замена чувствительных данных (PAN карты, SSN, паспортные данные) случайными символьными последовательностями (токенами), не имеющими математической связи с исходными данными.
  • В NLP и обработке текста – разбивка текста на минимальные значимые единицы (токены) для последующей обработки языковыми моделями.
  • В блокчейн-технологиях – создание цифрового представления реальных активов (недвижимость, ценные бумаги, произведения искусства) на блокчейн-платформе.

История и контекст

В сфере платёжной безопасности токенизация получила импульс от требований стандарта PCI DSS. Компания TrustCommerce внедрила первую коммерческую систему токенизации платёжных карт в 2001 году. Стандарт EMV Payment Tokenisation (EMVCo), опубликованный в 2014 году, заложил основу для Apple Pay, Google Pay, Samsung Pay – все они используют токенизацию PAN. В области NLP алгоритмы субслово-токенизации BPE (Byte-Pair Encoding) и WordPiece стали фундаментом современных LLM: BERT, GPT, T5 и других.

Как это работает

Платёжная токенизация (EMVCo)

Реальный PAN (Primary Account Number, номер карты) заменяется токеном – случайной строкой того же числового формата (16 цифр). Соответствие PAN↔Token хранится в защищённом Token Vault, как правило, защищённом на уровне HSM (Hardware Security Module). При транзакции торговец оперирует только токеном; PAN никогда не покидает банковскую инфраструктуру. Это снижает scope PCI DSS для мерчанта и обесценивает данные при возможной утечке.

NLP-токенизация

Разбивка текста на токены: word tokenization (по пробелам и пунктуации), subword tokenization (BPE – GPT; WordPiece – BERT; Unigram LM – SentencePiece), character-level tokenization. Subword-подход балансирует словарный объём и способность обрабатывать редкие и неизвестные слова.

Где применяется

  • Платёжные системы: Apple Pay, Google Pay, Samsung Pay, карты с NFC – все используют EMVCo-токенизацию.
  • E-commerce: хранение «сохранённых карт» для повторных покупок без хранения PAN.
  • Медицина и GDPR: pseudonymization медицинских записей для исследовательских целей.
  • LLM и NLP: каждый текстовый запрос к GPT-4, Claude, Llama токенизируется перед обработкой.
  • Блокчейн: токенизация недвижимости (fractionalized ownership), ценных бумаг (security tokens), предметов искусства (NFT).

Преимущества и ограничения

Преимущества: снижение scope compliance (PCI DSS, GDPR), защита данных при утечках (токен без Vault бесполезен), обратимость при наличии Token Vault, формат-сохраняющее преобразование (Format-Preserving Tokenization), совместимость с унаследованными системами.

Ограничения: Token Vault – критическая точка отказа и атаки (требует HSM), сложность в распределённых многосистемных средах, latency при обращениях к Vault, сложность реализации для нечисловых данных произвольного формата.

Связь с другими понятиями

Токенизация принципиально отличается от шифрования: шифрование математически преобразует исходные данные с ключом (математическая связь существует), токенизация создаёт случайный эквивалент без математической связи. Понятие связано с токеном аутентификации, NFT (Non-Fungible Token) и TLS как средством защиты каналов передачи токенов. В банковской сфере токенизация – инструмент выполнения требований 152-ФЗ и PCI DSS одновременно.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Tokenization».

Платформы класса «Tokenization»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

ЛД

Логика: ДОСЬЕ

Master Data Management (MDM)
Логика: ДОСЬЕ — российская система для работы с массивами клиентских данных, автоматизации процессов сбора, ст...
Цена по запросу
★ 4.5
Подробнее →
Sherlock Pro

Sherlock Pro

Офис и коммуникации
Sherlock Pro от компании Smart Engines (ООО «Смарт Энджинс Сервис» / SE) — российский программный продукт из р...
Цена по запросу
Подробнее →
INGIPRO

INGIPRO

Офис и коммуникации
Платформа для коллективной работы с техническими чертежами и документацией
Цена по запросу
★ 4.8
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Tokenization».

Где применяется

Отрасли, в которых «Tokenization» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Tokenization

Что такое токенизация данных?

Замена чувствительных данных (номеров карт, SSN) случайными токенами без математической связи с исходными данными. Исходные данные хранятся в защищённом Token Vault.

Чем токенизация отличается от шифрования?

Шифрование математически преобразует данные обратимым способом – зная ключ, можно расшифровать. Токенизация заменяет данные случайным эквивалентом – без Token Vault исходные данные не восстановить.

Как работает токенизация карты в Apple Pay?

PAN карты заменяется Device Account Number (DAN) – уникальным токеном для конкретного устройства. При транзакции используется DAN; PAN не передаётся мерчанту и не хранится на устройстве.

Что такое Token Vault?

Защищённое хранилище соответствий токен↔исходные данные, как правило, защищённое аппаратным HSM. Компрометация Token Vault – критический инцидент безопасности.

Как токенизация снижает требования PCI DSS?

Мерчант, хранящий только токены (без PAN), не попадает в полный scope PCI DSS. Это снижает стоимость и сложность сертификации по стандарту безопасности платёжных карт.

Что такое токенизация в NLP?

Разбивка входного текста на токены (слова, подслова, символы) перед обработкой языковой моделью. Алгоритмы: BPE (GPT), WordPiece (BERT), SentencePiece. Контекстное окно LLM = число токенов.