شمارشگر توکن
شمارش توکن
مقدمه
ابزار شمارش توکن ابزاری است که تعداد توکنها را در یک رشته داده شده با استفاده از کتابخانه tiktoken شمارش میکند. توکنسازی یک مرحله حیاتی در پردازش زبان طبیعی (NLP) است و به طور گستردهای در برنامههای مختلف، از جمله مدلهای یادگیری ماشین، تحلیل متن و سیستمهای درک زبان استفاده میشود.
نحوه استفاده از این ابزار
- متنی را که میخواهید توکنسازی کنید در ناحیه متن ارائه شده وارد کنید.
- الگوریتم کدگذاری را از منوی کشویی انتخاب کنید. گزینههای موجود عبارتند از:
- CL100K_BASE
- P50K_BASE
- R50K_BASE
- این ابزار به طور خودکار تعداد توکنها را محاسبه و نمایش میدهد.
- میتوانید نتیجه را با کلیک بر روی دکمه "کپی نتیجه" به کلیپ بورد خود کپی کنید.
فرآیند توکنسازی
توکنسازی فرآیند تقسیم متن به واحدهای کوچکتر به نام توکنها است. این توکنها میتوانند کلمات، زیرکلمات یا کاراکترها باشند، بسته به الگوریتم توکنسازی که استفاده میشود. کتابخانه tiktoken که توسط OpenAI توسعه داده شده است، الگوریتمهای توکنسازی کارآمدی را که در مدلهایی مانند GPT-3 و GPT-4 استفاده میشوند، پیادهسازی میکند.
الگوریتمهای کدگذاری
-
CL100K_BASE: این جدیدترین کدگذاری است که توسط مدلهای OpenAI استفاده میشود. این کدگذاری برای مدیریت طیف وسیعی از زبانها و کاراکترهای خاص به طور کارآمد طراحی شده است.
-
P50K_BASE: یک کدگذاری قدیمیتر که توسط برخی از مدلهای GPT-3 استفاده میشود. این کدگذاری دارای یک واژگان حدود 50,000 توکن است.
-
R50K_BASE: کدگذاری دیگری که توسط مدلهای اولیه GPT-3 استفاده میشود و همچنین دارای یک واژگان حدود 50,000 توکن است.
موارد استفاده
شمارش توکن و توکنسازی کاربردهای متعددی در پردازش زبان طبیعی و یادگیری ماشین دارند:
-
آموزش مدل زبان: توکنسازی یک مرحله پیشپردازش حیاتی برای آموزش مدلهای بزرگ زبان مانند GPT-3 و BERT است.
-
طبقهبندی متن: متن توکنشده معمولاً به عنوان ورودی برای وظایف طبقهبندی متن، مانند تحلیل احساسات یا دستهبندی موضوعات استفاده میشود.
-
ترجمه ماشینی: توکنسازی به شکستن جملات به واحدهای قابل مدیریت برای سیستمهای ترجمه کمک میکند.
-
استرداد اطلاعات: موتورهای جستجو از توکنسازی برای فهرستگذاری اسناد و تطبیق پرسشها استفاده میکنند.
-
خلاصهسازی متن: توکنسازی به شناسایی کلمات و عبارات مهم برای تولید خلاصهها کمک میکند.
-
چتباتها و هوش مصنوعی مکالمهای: توکنسازی برای پردازش ورودیهای کاربر و تولید پاسخهای مناسب استفاده میشود.
-
مدیریت محتوا: توکنسازی میتواند در شناسایی کلمات یا عبارات خاص در سیستمهای مدیریت محتوا مفید باشد.
جایگزینها
در حالی که این ابزار از tiktoken برای توکنسازی استفاده میکند، روشها و کتابخانههای دیگری نیز برای توکنسازی در دسترس هستند:
-
NLTK (Natural Language Toolkit): یک کتابخانه محبوب پایتون برای وظایف NLP، از جمله توکنسازی.
-
spaCy: یک کتابخانه قدرتمند NLP دیگر که توکنسازی کارآمدی را همراه با سایر قابلیتهای پردازش زبان ارائه میدهد.
-
WordPiece: یک الگوریتم توکنسازی زیرکلمه که توسط BERT و سایر مدلهای ترنسفورمر استفاده میشود.
-
Byte Pair Encoding (BPE): یک تکنیک فشردهسازی دادهها که برای توکنسازی سازگار شده و در مدلهایی مانند GPT-2 استفاده میشود.
-
SentencePiece: یک توکنساز و دتوکنساز متن بدون نظارت، عمدتاً برای سیستمهای تولید متن مبتنی بر شبکههای عصبی.
تاریخچه
توکنسازی یک مفهوم بنیادی در پردازش زبان طبیعی برای دههها بوده است. با این حال، روشهای خاص توکنسازی که در مدلهای زبان مدرن استفاده میشود به طور قابل توجهی تکامل یافته است:
-
توکنسازی بر اساس کلمه: سیستمهای اولیه NLP از توکنسازی ساده بر اساس کلمه استفاده میکردند که متن را بر اساس فاصله و نشانهگذاری تقسیم میکردند.
-
توکنسازی مبتنی بر قاعده: سیستمهای پیچیدهتر از قواعد زبانی برای مدیریت موارد پیچیده مانند انقباضها و کلمات مرکب استفاده میکردند.
-
توکنسازی آماری: تکنیکهای یادگیری ماشین برای یادگیری الگوهای توکنسازی از دادهها معرفی شدند.
-
توکنسازی زیرکلمه: با ظهور یادگیری عمیق در NLP، روشهای توکنسازی زیرکلمه مانند Byte Pair Encoding (BPE) و WordPiece محبوبیت پیدا کردند. این روشها میتوانند با کلمات خارج از واژگان کار کنند و به خوبی در زبانهای مختلف عمل کنند.
-
توکنسازی tiktoken و GPT: توسعه یافته توسط OpenAI، tiktoken توکنسازی مورد استفاده در مدلهای GPT را پیادهسازی میکند که برای کارایی و پوشش وسیع زبان بهینه شده است.
مثالها
در اینجا چند مثال کد برای نشان دادن شمارش توکن با استفاده از زبانهای برنامهنویسی مختلف آورده شده است:
import tiktoken
def count_tokens(text, encoding_name):
encoding = tiktoken.get_encoding(encoding_name)
tokens = encoding.encode(text)
return len(tokens)
## مثال استفاده
text = "سلام، دنیا! این یک مثال توکنسازی است."
encoding_name = "cl100k_base"
token_count = count_tokens(text, encoding_name)
print(f"تعداد توکنها: {token_count}")
این مثالها نشان میدهند که چگونه میتوان از کتابخانه tiktoken (یا معادلهای آن در زبانهای دیگر) برای شمارش توکنها در یک متن داده شده با استفاده از یک کدگذاری مشخص استفاده کرد.
مراجع
- OpenAI. "Tiktoken." GitHub, https://github.com/openai/tiktoken. دسترسی 2 اوت 2024.
- Vaswani, Ashish, et al. "Attention Is All You Need." arXiv:1706.03762 [cs], دسامبر 2017, http://arxiv.org/abs/1706.03762.
- Sennrich, Rico, et al. "Neural Machine Translation of Rare Words with Subword Units." arXiv:1508.07909 [cs], ژوئن 2016, http://arxiv.org/abs/1508.07909.
- Brown, Tom B., et al. "Language Models are Few-Shot Learners." arXiv:2005.14165 [cs], ژوئیه 2020, http://arxiv.org/abs/2005.14165.
- Devlin, Jacob, et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." arXiv:1810.04805 [cs], مه 2019, http://arxiv.org/abs/1810.04805.