tiktoken நூலகத்துடன் டோக்கன்களின் எண்ணிக்கையை எண்ணுங்கள்

tiktoken நூலகத்தைப் பயன்படுத்தி கொடுக்கப்பட்ட சரத்தில் டோக்கன்களின் எண்ணிக்கையை எண்ணுங்கள். CL100K_BASE, P50K_BASE, மற்றும் R50K_BASE உட்பட பல குறியாக்கக் கருவிகளைத் தேர்ந்தெடுக்கவும். இயற்கை மொழி செயலாக்கம் மற்றும் இயந்திரக் கற்றல் பயன்பாடுகளுக்கு அவசியமானது.

டோக்கன் கணக்கீட்டாளர்

📚

ஆவணம்

Token Counter

Introduction

Token Counter என்பது tiktoken நூலகத்தைப் பயன்படுத்தி கொடுக்கப்பட்ட உரையில் உள்ள டோக்கன்களின் எண்ணிக்கையை எண்ணும் கருவி ஆகும். டோக்கனீகேஷன் என்பது இயற்கை மொழி செயலாக்கத்தில் (NLP) மிக முக்கியமான படி ஆகும் மற்றும் இது பல்வேறு பயன்பாடுகளில், இயந்திரக் கற்றல் மாதிரிகள், உரை பகுப்பாய்வு மற்றும் மொழி புரிதல் அமைப்புகள் ஆகியவற்றில் பரவலாகப் பயன்படுத்தப்படுகிறது.

How to Use This Tool

நீங்கள் டோக்கனீக்க செய்ய விரும்பும் உரையை வழங்கப்பட்ட உரை பகுதியில் உள்ளீடு செய்யவும்.
கீழ்காணும் பட்டியலில் இருந்து குறியீட்டு ஆல்காரிதத்தை தேர்ந்தெடுக்கவும். கிடைக்கக்கூடிய விருப்பங்கள்:
- CL100K_BASE
- P50K_BASE
- R50K_BASE
கருவி தானாகவே டோக்கன் எண்ணிக்கையை கணக்கிடும் மற்றும் காட்டும்.
"Copy Result" பொத்தானை அழுத்தி முடிவை உங்கள் கிளிப்போர்டுக்கு நகலெடுக்கலாம்.

Tokenization Process

டோக்கனீகேஷன் என்பது உரையை டோக்கன்கள் எனப்படும் சிறிய அலகுகளில் உடைக்கும் செயல்முறை ஆகும். இந்த டோக்கன்கள், பயன்படுத்தப்படும் டோக்கனீகேஷன் ஆல்காரிதம் அடிப்படையில், வார்த்தைகள், துண்டுகள் அல்லது எழுத்துக்கள் ஆக இருக்கலாம். OpenAI உருவாக்கிய tiktoken நூலகம், GPT-3 மற்றும் GPT-4 போன்ற மாதிரிகளில் பயன்படுத்தப்படும் திறமையான டோக்கனீகேஷன் ஆல்காரிதங்களை செயல்படுத்துகிறது.

Encoding Algorithms

CL100K_BASE: OpenAI மாதிரிகள் பயன்படுத்தும் சமீபத்திய குறியீட்டு முறையாகும். இது பல்வேறு மொழிகள் மற்றும் சிறப்பு எழுத்துக்களை திறமையாக கையாள வடிவமைக்கப்பட்டுள்ளது.
P50K_BASE: சில GPT-3 மாதிரிகளில் பயன்படுத்தப்படும் பழைய குறியீட்டு முறையாகும். இது சுமார் 50,000 டோக்கன்களின் சொற்றொகுப்பைக் கொண்டுள்ளது.
R50K_BASE: மேலும் பழைய GPT-3 மாதிரிகளில் பயன்படுத்தப்படும் மற்றொரு குறியீட்டு முறையாகும், இது கூடவே சுமார் 50,000 டோக்கன்களின் சொற்றொகுப்பைக் கொண்டுள்ளது.

Use Cases

டோக்கன் எண்ணிக்கை மற்றும் டோக்கனீகேஷன் இயற்கை மொழி செயலாக்கம் மற்றும் இயந்திரக் கற்றலில் பல்வேறு பயன்பாடுகள் உள்ளன:

மொழி மாதிரி பயிற்சி: டோக்கனீகேஷன் என்பது GPT-3 மற்றும் BERT போன்ற பெரிய மொழி மாதிரிகளை பயிற்சியளிக்கும் முக்கிய முன்னணி படியாகும்.
உரை வகைப்படுத்தல்: டோக்கனீக்கப்பட்ட உரை, உணர்ச்சி பகுப்பாய்வு அல்லது தலைப்பு வகைப்படுத்தல் போன்ற உரை வகைப்படுத்தல் பணிகளுக்கான உள்ளீடாகப் பயன்படுத்தப்படுகிறது.
இயந்திர மொழிபெயர்ப்பு: டோக்கனீகேஷன், மொழிபெயர்ப்பு அமைப்புகளுக்கான நிரல்களை manageable அலகுகளாக உடைக்க உதவுகிறது.
தகவல் தேடல்: தேடல் இயந்திரங்கள் ஆவணங்களை அடையாளம் காண மற்றும் கேள்விகளை பொருத்துவதற்காக டோக்கனீகேஷனைப் பயன்படுத்துகின்றன.
உரை சுருக்கம்: முக்கிய வார்த்தைகள் மற்றும் சொற்றொடர்களை அடையாளம் காண டோக்கனீகேஷன் உதவுகிறது.
சாட் போட்கள் மற்றும் உரையாடல் AI: பயனர் உள்ளீடுகளை செயல்படுத்த மற்றும் உரிய பதில்களை உருவாக்க டோக்கனீகேஷன் பயன்படுத்தப்படுகிறது.
உள்ளடக்க ஒழுங்குபடுத்தல்: உள்ளடக்க ஒழுங்குபடுத்தல் அமைப்புகளில் குறிப்பிட்ட வார்த்தைகள் அல்லது சொற்றொடர்களை அடையாளம் காண டோக்கனீகேஷன் உதவலாம்.

Alternatives

இந்த கருவி tiktoken ஐ டோக்கனீகேஷனுக்காகப் பயன்படுத்தும் போதிலும், மற்ற டோக்கனீகேஷன் முறைகள் மற்றும் நூலகங்கள் கிடைக்கின்றன:

NLTK (இயற்கை மொழி கருவி): NLP பணிகளுக்கான பிரபலமான Python நூலகம், டோக்கனீகேஷனையும் உள்ளடக்கமாக்குகிறது.
spaCy: மற்றொரு சக்திவாய்ந்த NLP நூலகம், திறமையான டோக்கனீகேஷனுடன் பிற மொழி செயலாக்க திறன்களை வழங்குகிறது.
WordPiece: BERT மற்றும் பிற மாற்று மாதிரிகளில் பயன்படுத்தப்படும் துண்டு டோக்கனீகேஷன் ஆல்காரிதம்.
Byte Pair Encoding (BPE): டோக்கனீகேஷனுக்காகப் பயன்பாட்டுக்கேற்ப மாற்றப்பட்ட தரவுப் பீடிகை தொழில்நுட்பம், GPT-2 மாதிரிகளில் பயன்படுத்தப்படுகிறது.
SentencePiece: நரம்பியல் நெட்வொர்க் அடிப்படையிலான உரை உருவாக்க அமைப்புகளுக்காக, ஒரு சுயமேற்பார்வை உரை டோக்கனீக்கருவி மற்றும் மீட்டமைப்பாளர்.

History

டோக்கனீகேஷன் இயற்கை மொழி செயலாக்கத்தில் அடிப்படையான கருத்தாக பல ஆண்டுகளாக உள்ளது. ஆனால், சமீபத்திய மொழி மாதிரிகளில் பயன்படுத்தப்படும் குறிப்பிட்ட டோக்கனீகேஷன் முறைகள் குறிப்பிடத்தக்க முறையில் மாறிவருகின்றன:

வார்த்தை அடிப்படையிலான டோக்கனீகேஷன்: ஆரம்ப NLP அமைப்புகள் வெறும் வார்த்தை அடிப்படையிலான டோக்கனீகேஷனைக் கொண்டு, வெள்ளை இடம் மற்றும் குறியீட்டின் அடிப்படையில் உரையைப் பிரிக்கின்றன.
வழிமுறையால் அடிப்படையிலான டோக்கனீகேஷன்: மேலும் சிக்கலான சந்தர்ப்பங்களை கையாள, மொழியியல் விதிகளைப் பயன்படுத்தி, அதிக சிக்கலான அமைப்புகள் செயல்படுத்தப்பட்டன.
புள்ளியியல் டோக்கனீகேஷன்: தரவிலிருந்து டோக்கனீகேஷன் முறைமைகளை கற்றுக்கொள்ள இயந்திரக் கற்றல் தொழில்நுட்பங்களை அறிமுகப்படுத்தப்பட்டது.
துண்டு டோக்கனீகேஷன்: ஆழ்ந்த கற்றல் NLP இல் வளர்ந்த போது, Byte Pair Encoding (BPE) மற்றும் WordPiece போன்ற துண்டு டோக்கனீகேஷன் முறைகள் பிரபலமாகின. இந்த முறைகள் வெளிப்புற சொற்களை கையாள முடியும் மற்றும் பல மொழிகளில் நன்கு செயல்படுகின்றன.
Tiktoken மற்றும் GPT டோக்கனீகேஷன்: OpenAI உருவாக்கிய tiktoken, GPT மாதிரிகளில் பயன்படுத்தப்படும் டோக்கனீகேஷனை செயல்படுத்துகிறது, திறமையுடன் மற்றும் பரந்த மொழி க覆盖த்திற்காக மேம்படுத்தப்பட்டுள்ளது.

Examples

இங்கே tiktoken நூலகத்தைப் பயன்படுத்தி வெவ்வேறு நிரலாக்க மொழிகளில் டோக்கன் எண்ணிக்கையை கணக்கிடுவதற்கான சில குறியீட்டு எடுத்துக்காட்டுகள் உள்ளன:

1import tiktoken
2
3def count_tokens(text, encoding_name):
4    encoding = tiktoken.get_encoding(encoding_name)
5    tokens = encoding.encode(text)
6    return len(tokens)
7
8## Example usage
9text = "Hello, world! This is a tokenization example."
10encoding_name = "cl100k_base"
11token_count = count_tokens(text, encoding_name)
12print(f"Token count: {token_count}")
13

1const { encoding_for_model } = require("tiktoken");
2
3function countTokens(text, encodingName) {
4  const enc = encoding_for_model(encodingName);
5  const tokens = enc.encode(text);
6  return tokens.length;
7}
8
9// Example usage
10const text = "Hello, world! This is a tokenization example.";
11const encodingName = "cl100k_base";
12const tokenCount = countTokens(text, encodingName);
13console.log(`Token count: ${tokenCount}`);
14

1require 'tiktoken_ruby'
2
3def count_tokens(text, encoding_name)
4  encoding = Tiktoken.encoding_for_model(encoding_name)
5  tokens = encoding.encode(text)
6  tokens.length
7end
8
9## Example usage
10text = "Hello, world! This is a tokenization example."
11encoding_name = "cl100k_base"
12token_count = count_tokens(text, encoding_name)
13puts "Token count: #{token_count}"
14

இந்த எடுத்துக்காட்டுகள் tiktoken நூலகத்தை (அல்லது பிற மொழிகளில் அதற்கான சமமானவற்றை) பயன்படுத்தி, குறிப்பிட்ட குறியீட்டைப் பயன்படுத்தி கொடுக்கப்பட்ட உரையில் உள்ள டோக்கன்களை எண்ணுவதற்கான முறையை விளக்குகின்றன.

References

OpenAI. "Tiktoken." GitHub, https://github.com/openai/tiktoken. Accessed 2 Aug. 2024.
Vaswani, Ashish, et al. "Attention Is All You Need." arXiv:1706.03762 [cs], Dec. 2017, http://arxiv.org/abs/1706.03762.
Sennrich, Rico, et al. "Neural Machine Translation of Rare Words with Subword Units." arXiv:1508.07909 [cs], Jun. 2016, http://arxiv.org/abs/1508.07909.
Brown, Tom B., et al. "Language Models are Few-Shot Learners." arXiv:2005.14165 [cs], Jul. 2020, http://arxiv.org/abs/2005.14165.
Devlin, Jacob, et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." arXiv:1810.04805 [cs], May 2019, http://arxiv.org/abs/1810.04805.

💬

கருத்து

💬

இந்த கருவியை பற்றிய கருத்தை தொடங்க பிடித்தம் கிளிக் செய்யவும்.

🔗

தொடர்புடைய கருவிகள்

உங்கள் பணிப்பாக்கிலுக்கு பயனுள்ள மேலும் பயனுள்ள கருவிகளைக் கண்டறியவும்

tiktoken நூலகத்துடன் டோக்கன்களின் எண்ணிக்கையை எண்ணுங்கள்

டோக்கன் கணக்கீட்டாளர்

ஆவணம்

Token Counter

Introduction

How to Use This Tool

Tokenization Process

Encoding Algorithms

Use Cases

Alternatives

History

Examples

References

கருத்து

தொடர்புடைய கருவிகள்

மணிநேர கணக்கீட்டாளர் - திட்ட மேலாண்மை மற்றும் நேர கண்காணிப்பு

சேவை செயல்பாட்டை கணக்கீட்டாளர் - SLA அடிப்படையில்

கால அலகு மாற்றி: ஆண்டுகள், நாட்கள், மணித்தியாலங்கள், நொடிகள்

எண் அடிப்படைக் மாற்றி: பைனரி, தசம, ஹெக்சா மற்றும் தனிப்பயன் அடிப்படைகள்

மரம் இலை எண்ணிக்கையைக் கணிக்கையாளர்: வகை மற்றும் அளவின்படி இலைகளை கணிக்கவும்

யூனிவர்சல் யூனிக் அடையாள உருவாக்கி - UUID உருவாக்கம்

கால இடைவெளி கணக்கீட்டாளர்: இரண்டு தேதிகளுக்கு இடையிலான நேரத்தை கண்டறியவும்

சோதனைக்கான CPF எண்களை உருவாக்கும் கருவி

பிட் மற்றும் பைட் நீளம் கணக்கீட்டாளர் - எளிதான வழி

யூனிக்ஸ் டைம் ஸ்டாம்பை தேதியாக மாற்றி: 12/24 மணி நேர வடிவம் ஆதரவு