Hesabu idadi ya token katika mfuatano uliopewa ukitumia maktaba ya tiktoken. Chagua kutoka kwa algorithimu tofauti za uandishi ikiwa ni pamoja na CL100K_BASE, P50K_BASE, na R50K_BASE. Muhimu kwa usindikaji wa lugha asilia na matumizi ya kujifunza mashine.
Kihesabu tokeni ni zana muhimu kwa ajili ya kuchambua maandiko kabla ya kuyashughulikia kwa mifano ya lugha ya AI kama GPT-3, GPT-4, na ChatGPT. Kihesabu tokeni hiki cha bure kinahesabu kwa usahihi idadi ya tokeni katika maandiko yako kwa kutumia maktaba ya tiktoken ya OpenAI, kikikusaidia kuboresha maudhui kwa mifano ya AI na kubaki ndani ya mipaka ya API.
Maagizo hatua kwa hatua:
Kutenganisha ni mchakato wa kugawanya maandiko katika vitengo vidogo vinavyoitwa tokeni. Tokeni hizi zinawakilisha maneno, maneno madogo, au herufi ambazo mifano ya AI inaweza kuelewa na kushughulikia. Maktaba ya tiktoken, iliyoundwa na OpenAI, inatekeleza algorithimu za kutenganisha kwa ufanisi zinazotumika katika mifano kama GPT-3 na GPT-4.
Chagua uandishi sahihi kwa mfano wako wa AI:
CL100K_BASE: Uandishi wa hivi punde wa OpenAI kwa mifano ya GPT-4 na ChatGPT. Inashughulikia lugha nyingi na herufi maalum kwa ufanisi.
P50K_BASE: Uandishi kwa mifano ya zamani ya GPT-3 yenye msamiati wa tokeni takriban 50,000.
R50K_BASE: Mfumo wa uandishi wa awali wa GPT-3, pia ukiwa na msamiati wa tokeni 50,000.
Hesabu ya tokeni na kutenganisha ni muhimu kwa matumizi ya AI na usindikaji wa lugha asilia:
Mafunzo ya Mfano wa AI: Hesabu ya tokeni inahakikisha usindikaji sahihi wa maandiko kwa ajili ya mafunzo ya mifano ya lugha kama GPT-3, GPT-4, na BERT.
Usimamizi wa Gharama za API: Hesabu tokeni kabla ya kuita API kwa OpenAI, Anthropic, au huduma nyingine za AI ili kudhibiti gharama kwa ufanisi.
Kuboresha Maudhui: Boresha machapisho ya blogu, makala, na nakala za masoko kwa zana na chatbots zinazotumia AI.
Uainishaji wa Maandishi: Andaa maandiko yaliyotenganishwa kwa ajili ya uchambuzi wa hisia, uainishaji wa mada, na uchambuzi wa maudhui.
Tafsiri ya Mashine: Gawanya sentensi katika vitengo vya tokeni vinavyoweza kusimamiwa kwa ajili ya mifumo ya tafsiri.
Urejeleaji wa Taarifa: Wezesha injini za utafutaji kuorodhesha hati na kulinganisha maswali ya watumiaji kwa ufanisi.
Muhtasari wa Maandishi: Tambua maneno na misemo muhimu kwa ajili ya kuunda muhtasari sahihi.
Maendeleo ya Chatbot: Shughulikia ingizo la mtumiaji na kuunda majibu yanayofaa katika mifumo ya AI ya mazungumzo.
Uhakiki wa Maudhui: Changanua na tambua maneno au misemo maalum katika mifumo ya kuchuja maudhui kiotomatiki.
Ingawa zana yetu inatumia tiktoken kwa ajili ya hesabu sahihi ya tokeni, maktaba nyingine za kutenganisha ni pamoja na:
Hesabu ya tokeni imeendelea kwa kiasi kikubwa na maendeleo katika usindikaji wa lugha asilia:
Tekeleza hesabu ya tokeni katika programu zako:
1import tiktoken
2
3def count_tokens(text, encoding_name):
4 encoding = tiktoken.get_encoding(encoding_name)
5 tokens = encoding.encode(text)
6 return len(tokens)
7
8## Mfano wa matumizi
9text = "Hello, world! This is a tokenization example."
10encoding_name = "cl100k_base"
11token_count = count_tokens(text, encoding_name)
12print(f"Hesabu ya tokeni: {token_count}")
13
1const { encoding_for_model } = require("tiktoken");
2
3function countTokens(text, encodingName) {
4 const enc = encoding_for_model(encodingName);
5 const tokens = enc.encode(text);
6 return tokens.length;
7}
8
9// Mfano wa matumizi
10const text = "Hello, world! This is a tokenization example.";
11const encodingName = "cl100k_base";
12const tokenCount = countTokens(text, encodingName);
13console.log(`Hesabu ya tokeni: ${tokenCount}`);
14
1require 'tiktoken_ruby'
2
3def count_tokens(text, encoding_name)
4 encoding = Tiktoken.encoding_for_model(encoding_name)
5 tokens = encoding.encode(text)
6 tokens.length
7end
8
9## Mfano wa matumizi
10text = "Hello, world! This is a tokenization example."
11encoding_name = "cl100k_base"
12token_count = count_tokens(text, encoding_name)
13puts "Hesabu ya tokeni: #{token_count}"
14
Mifano hii inaonyesha kutekeleza kazi ya hesabu ya tokeni kwa kutumia tiktoken katika lugha mbalimbali za programu.
Token ni kitengo cha maandiko ambacho mifano ya AI inashughulikia - kawaida ni maneno, maneno madogo, au herufi. Hesabu ya tokeni husaidia kubaini urefu wa maandiko kwa ajili ya usindikaji wa AI.
GPT-4 inaweza kushughulikia hadi tokeni 8,192 (kawaida) au 32,768 tokeni (GPT-4-32k) katika ombi moja, ikiwa ni pamoja na ingizo na pato.
Hesabu ya tokeni husaidia kukadiria gharama za API, kuhakikisha maudhui yanakidhi mipaka ya mfano, na kuboresha maandiko kwa matokeo bora ya usindikaji wa AI.
CL100K_BASE ni uandishi wa hivi punde kwa GPT-4 na ChatGPT, wakati P50K_BASE inatumika kwa mifano ya zamani ya GPT-3 yenye ukubwa tofauti wa msamiati.
Zana yetu inatumia maktaba rasmi ya tiktoken ya OpenAI, ikitoa usahihi wa 100% katika hesabu za tokeni zinazolingana na mahesabu ya API ya OpenAI.
Zana hii inafanya kazi vizuri zaidi kwa mifano ya OpenAI (GPT-3, GPT-4, ChatGPT). Mifano mingine inaweza kutumia mbinu tofauti za kutenganisha.
Ndio, alama za uakifishaji kawaida huhesabiwa kama tokeni tofauti au kuunganishwa na maneno ya karibu, kulingana na algorithimu ya uandishi.
Ndio, kila mfano una mipaka maalum: GPT-3.5 (4,096 tokeni), GPT-4 (8,192 tokeni), GPT-4-32k (32,768 tokeni), na wengine hutofautiana kwa mtoa huduma.
Je, uko tayari kuboresha maandiko yako kwa mifano ya AI? Tumia zana yetu ya bure ya kihesabu tokeni hapo juu kuchambua maudhui yako na kuhakikisha inakidhi mahitaji ya programu yako ya AI.
Gundua zana zaidi ambazo zinaweza kuwa na manufaa kwa mtiririko wako wa kazi