Žetonu skaitītājs: skaitiet žetonu skaitu ar tiktoken

Tokenu skaitītājs

Ievads

Tokenu skaitītājs ir rīks, kas skaita tokenu skaitu dotā virknē, izmantojot tiktoken bibliotēku. Tokenizācija ir būtisks solis dabiskās valodas apstrādē (NLP) un plaši tiek izmantota dažādās lietojumprogrammās, tostarp mašīnmācīšanās modeļos, teksta analīzē un valodas izpratnes sistēmās.

Kā izmantot šo rīku

Ievadiet tekstu, ko vēlaties tokenizēt, norādītajā teksta laukā.
Izvēlieties kodēšanas algoritmu no nolaižamā saraksta. Pieejamās opcijas ir:
- CL100K_BASE
- P50K_BASE
- R50K_BASE
Rīks automātiski aprēķinās un parādīs tokenu skaitu.
Rezultātu varat kopēt uz starpliktuvi, noklikšķinot uz pogas "Kopēt rezultātu".

Tokenizācijas process

Tokenizācija ir process, kurā teksts tiek sadalīts mazākās vienībās, ko sauc par tokeniem. Šie tokeni var būt vārdi, apakšvārdi vai simboli, atkarībā no izmantotā tokenizācijas algoritma. Tiktoken bibliotēka, ko izstrādājusi OpenAI, īsteno efektīvus tokenizācijas algoritmus, kas tiek izmantoti tādos modeļos kā GPT-3 un GPT-4.

Kodēšanas algoritmi

CL100K_BASE: Tas ir jaunākais kodējums, ko izmanto OpenAI modeļi. Tas ir izstrādāts, lai efektīvi apstrādātu plašu valodu un īpašo simbolu klāstu.
P50K_BASE: Vecāks kodējums, ko izmanto daži GPT-3 modeļi. Tam ir apmēram 50 000 tokenu vārdnīca.
R50K_BASE: Vēl viens kodējums, ko izmanto agrākie GPT-3 modeļi, arī ar apmēram 50 000 tokenu vārdnīcu.

Lietošanas gadījumi

Tokenu skaitīšana un tokenizācija ir daudzām lietojumprogrammām dabiskās valodas apstrādē un mašīnmācīšanās jomā:

Valodas modeļu apmācība: Tokenizācija ir būtisks priekšapstrādes solis lielu valodas modeļu, piemēram, GPT-3 un BERT, apmācībā.
Teksta klasifikācija: Tokenizēts teksts bieži tiek izmantots kā ievade teksta klasifikācijas uzdevumiem, piemēram, noskaņojuma analīzei vai tēmu kategorizācijai.
Mašīntulkošana: Tokenizācija palīdz sadalīt teikumus pārvaldāmās vienībās tulkošanas sistēmām.
Informācijas atgūšana: Meklēšanas dzinēji izmanto tokenizāciju, lai indeksētu dokumentus un atbilstu vaicājumiem.
Teksta kopsavilkums: Tokenizācija palīdz identificēt svarīgus vārdus un frāzes kopsavilkumu ģenerēšanai.
Čatboti un sarunu AI: Tokenizācija tiek izmantota, lai apstrādātu lietotāju ievades un ģenerētu atbilstošas atbildes.
Satura moderēšana: Tokenizācija var palīdzēt identificēt konkrētus vārdus vai frāzes satura moderēšanas sistēmās.

Alternatīvas

Lai gan šis rīks izmanto tiktoken tokenizācijai, ir pieejamas arī citas tokenizācijas metodes un bibliotēkas:

NLTK (Dabiskās valodas rīku komplekts): Populāra Python bibliotēka NLP uzdevumiem, tostarp tokenizācijai.
spaCy: Vēl viena jaudīga NLP bibliotēka, kas piedāvā efektīvu tokenizāciju kopā ar citām valodas apstrādes iespējām.
WordPiece: Apakšvārdu tokenizācijas algoritms, ko izmanto BERT un citos transformatoru modeļos.
Byte Pair Encoding (BPE): Datu saspiešanas tehnika, kas pielāgota tokenizācijai, ko izmanto tādos modeļos kā GPT-2.
SentencePiece: Neuzraudzīta teksta tokenizācija un detokenizācija, galvenokārt neironu tīklu balstītām teksta ģenerēšanas sistēmām.

Vēsture

Tokenizācija ir bijusi pamatjēdziens dabiskās valodas apstrādē desmitiem gadu. Tomēr mūsdienu valodas modeļos izmantotās specifiskās tokenizācijas metodes ir ievērojami attīstījušās:

Vārdu bāzēta tokenizācija: Agrīnie NLP sistēmas izmantoja vienkāršu vārdu bāzētu tokenizāciju, sadalot tekstu pēc atstarpēm un interpunkcijas.
Noteikumu bāzēta tokenizācija: Sarežģītākas sistēmas izmantoja lingvistiskos noteikumus, lai risinātu sarežģītas situācijas, piemēram, kontrakcijas un saliktos vārdus.
Statistiskā tokenizācija: Mašīnmācīšanās tehnoloģijas tika ieviestas, lai mācītos tokenizācijas modeļus no datiem.
Apakšvārdu tokenizācija: Ar dziļās mācīšanās pieaugumu NLP, apakšvārdu tokenizācijas metodes, piemēram, Byte Pair Encoding (BPE) un WordPiece, ieguva popularitāti. Šīs metodes var apstrādāt ārpus vārdnīcas esošos vārdus un labi darbojas vairākās valodās.
Tiktoken un GPT tokenizācija: OpenAI izstrādātais tiktoken īsteno tokenizāciju, ko izmanto GPT modeļos, optimizēta efektivitātei un plašai valodu pārklāšanai.

Piemēri

Šeit ir daži koda piemēri, lai demonstrētu tokenu skaitīšanu, izmantojot dažādas programmēšanas valodas:

1import tiktoken
2
3def count_tokens(text, encoding_name):
4    encoding = tiktoken.get_encoding(encoding_name)
5    tokens = encoding.encode(text)
6    return len(tokens)
7
8## Piemēra lietojums
9text = "Sveiki, pasaule! Tas ir tokenizācijas piemērs."
10encoding_name = "cl100k_base"
11token_count = count_tokens(text, encoding_name)
12print(f"Tokenu skaits: {token_count}")
13

1const { encoding_for_model } = require("tiktoken");
2
3function countTokens(text, encodingName) {
4  const enc = encoding_for_model(encodingName);
5  const tokens = enc.encode(text);
6  return tokens.length;
7}
8
9// Piemēra lietojums
10const text = "Sveiki, pasaule! Tas ir tokenizācijas piemērs.";
11const encodingName = "cl100k_base";
12const tokenCount = countTokens(text, encodingName);
13console.log(`Tokenu skaits: ${tokenCount}`);
14

1require 'tiktoken_ruby'
2
3def count_tokens(text, encoding_name)
4  encoding = Tiktoken.encoding_for_model(encoding_name)
5  tokens = encoding.encode(text)
6  tokens.length
7end
8
9## Piemēra lietojums
10text = "Sveiki, pasaule! Tas ir tokenizācijas piemērs."
11encoding_name = "cl100k_base"
12token_count = count_tokens(text, encoding_name)
13puts "Tokenu skaits: #{token_count}"
14

Šie piemēri parāda, kā izmantot tiktoken bibliotēku (vai tās ekvivalentus citās valodās), lai skaitītu tokenus dotā tekstā, izmantojot noteiktu kodējumu.

Atsauces

OpenAI. "Tiktoken." GitHub, https://github.com/openai/tiktoken. Piekļuve 2024. gada 2. augustā.
Vaswani, Ashish, et al. "Attention Is All You Need." arXiv:1706.03762 [cs], 2017. gada decembris, http://arxiv.org/abs/1706.03762.
Sennrich, Rico, et al. "Neural Machine Translation of Rare Words with Subword Units." arXiv:1508.07909 [cs], 2016. gada jūnijs, http://arxiv.org/abs/1508.07909.
Brown, Tom B., et al. "Language Models are Few-Shot Learners." arXiv:2005.14165 [cs], 2020. gada jūlijs, http://arxiv.org/abs/2005.14165.
Devlin, Jacob, et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." arXiv:1810.04805 [cs], 2019. gada maijs, http://arxiv.org/abs/1810.04805.

Whiz Tools

Žetonu skaitītājs: skaitiet žetonu skaitu ar tiktoken

Simbolu skaitītājs

Dokumentācija

Tokenu skaitītājs

Ievads

Kā izmantot šo rīku

Tokenizācijas process

Kodēšanas algoritmi

Lietošanas gadījumi

Alternatīvas

Vēsture

Piemēri

Atsauces

Atsauksmes

Saistītie Rīki

Stundas skaitītājs: efektīva laika uzskaite un analīze

Pakalpojumu Uzticamības Aprēķināšanas Rīks un Kalkulators

Laika vienību pārveidotājs: gadi, dienas, stundas, minūtes, sekundes

Skaitļu bāzes pārveidotājs: binārais, decimālais, heksadecimālais un pielāgotas bāzes

Koku lapu skaitītājs: Aprēķiniet lapas pēc sugas un izmēra

UUID ģeneratori: unikālu identifikatoru izveide

Laika intervāla kalkulators: Atrodi laiku starp divām datumiem

CPF ģeneratora rīks testēšanai un datu validācijai

Bitu un Baitu Garuma Kalkulators ar dažādām kodēšanām

Unix laika zīmoga uz datuma pārvēršanas rīks: 12/24 stundu formāta atbalsts