Token Counter: Count Tokens with Tiktoken Library

Penghitung Token

Pengenalan

Penghitung Token adalah alat yang menghitung jumlah token dalam string yang diberikan menggunakan pustaka tiktoken. Tokenisasi adalah langkah penting dalam pemrosesan bahasa alami (NLP) dan digunakan secara luas dalam berbagai aplikasi, termasuk model pembelajaran mesin, analisis teks, dan sistem pemahaman bahasa.

Cara Menggunakan Alat Ini

Masukkan teks yang ingin Anda tokenisasi di area teks yang disediakan.
Pilih algoritma pengkodean dari menu dropdown. Pilihan yang tersedia adalah:
- CL100K_BASE
- P50K_BASE
- R50K_BASE
Alat ini akan secara otomatis menghitung dan menampilkan jumlah token.
Anda dapat menyalin hasilnya ke clipboard Anda dengan mengklik tombol "Salin Hasil".

Proses Tokenisasi

Tokenisasi adalah proses memecah teks menjadi unit-unit yang lebih kecil yang disebut token. Token ini bisa berupa kata, subkata, atau karakter, tergantung pada algoritma tokenisasi yang digunakan. Pustaka tiktoken, yang dikembangkan oleh OpenAI, menerapkan algoritma tokenisasi yang efisien yang digunakan dalam model seperti GPT-3 dan GPT-4.

Algoritma Pengkodean

CL100K_BASE: Ini adalah pengkodean terbaru yang digunakan oleh model OpenAI. Dirancang untuk menangani berbagai bahasa dan karakter khusus dengan efisien.
P50K_BASE: Pengkodean yang lebih lama yang digunakan oleh beberapa model GPT-3. Memiliki kosakata sekitar 50.000 token.
R50K_BASE: Pengkodean lain yang digunakan oleh model GPT-3 yang lebih awal, juga dengan kosakata sekitar 50.000 token.

Kasus Penggunaan

Penghitungan token dan tokenisasi memiliki banyak aplikasi dalam pemrosesan bahasa alami dan pembelajaran mesin:

Pelatihan Model Bahasa: Tokenisasi adalah langkah pra-pemrosesan yang penting untuk melatih model bahasa besar seperti GPT-3 dan BERT.
Klasifikasi Teks: Teks yang telah ditokenisasi sering digunakan sebagai input untuk tugas klasifikasi teks, seperti analisis sentimen atau pengkategorian topik.
Penerjemahan Mesin: Tokenisasi membantu memecah kalimat menjadi unit-unit yang dapat dikelola untuk sistem penerjemahan.
Pengambilan Informasi: Mesin pencari menggunakan tokenisasi untuk mengindeks dokumen dan mencocokkan kueri.
Ringkasan Teks: Tokenisasi membantu dalam mengidentifikasi kata dan frasa penting untuk menghasilkan ringkasan.
Chatbot dan AI Percakapan: Tokenisasi digunakan untuk memproses input pengguna dan menghasilkan respons yang sesuai.
Moderasi Konten: Tokenisasi dapat membantu dalam mengidentifikasi kata atau frasa tertentu dalam sistem moderasi konten.

Alternatif

Meskipun alat ini menggunakan tiktoken untuk tokenisasi, terdapat metode dan pustaka tokenisasi lain yang tersedia:

NLTK (Natural Language Toolkit): Pustaka Python yang populer untuk tugas NLP, termasuk tokenisasi.
spaCy: Pustaka NLP yang kuat lainnya yang menawarkan tokenisasi yang efisien bersama dengan kemampuan pemrosesan bahasa lainnya.
WordPiece: Algoritma tokenisasi subkata yang digunakan oleh BERT dan model transformer lainnya.
Byte Pair Encoding (BPE): Teknik kompresi data yang diadaptasi untuk tokenisasi, digunakan dalam model seperti GPT-2.
SentencePiece: Tokenizer dan detokenizer teks yang tidak diawasi, terutama untuk sistem generasi teks berbasis Jaringan Saraf.

Sejarah

Tokenisasi telah menjadi konsep dasar dalam pemrosesan bahasa alami selama beberapa dekade. Namun, metode tokenisasi spesifik yang digunakan dalam model bahasa modern telah berkembang secara signifikan:

Tokenisasi berbasis kata: Sistem NLP awal menggunakan tokenisasi berbasis kata yang sederhana, memecah teks berdasarkan spasi dan tanda baca.
Tokenisasi berbasis aturan: Sistem yang lebih canggih menggunakan aturan linguistik untuk menangani kasus kompleks seperti kontraksi dan kata majemuk.
Tokenisasi statistik: Teknik pembelajaran mesin diperkenalkan untuk mempelajari pola tokenisasi dari data.
Tokenisasi subkata: Dengan munculnya pembelajaran mendalam dalam NLP, metode tokenisasi subkata seperti Byte Pair Encoding (BPE) dan WordPiece menjadi populer. Metode ini dapat menangani kata-kata di luar kosakata dan bekerja dengan baik di berbagai bahasa.
Tokenisasi tiktoken dan GPT: Dikembangkan oleh OpenAI, tiktoken menerapkan tokenisasi yang digunakan oleh model GPT, dioptimalkan untuk efisiensi dan cakupan bahasa yang luas.

Contoh

Berikut adalah beberapa contoh kode untuk menunjukkan penghitungan token menggunakan berbagai bahasa pemrograman:

1import tiktoken
2
3def count_tokens(text, encoding_name):
4    encoding = tiktoken.get_encoding(encoding_name)
5    tokens = encoding.encode(text)
6    return len(tokens)
7
8## Contoh penggunaan
9text = "Halo, dunia! Ini adalah contoh tokenisasi."
10encoding_name = "cl100k_base"
11token_count = count_tokens(text, encoding_name)
12print(f"Jumlah token: {token_count}")
13

1const { encoding_for_model } = require("tiktoken");
2
3function countTokens(text, encodingName) {
4  const enc = encoding_for_model(encodingName);
5  const tokens = enc.encode(text);
6  return tokens.length;
7}
8
9// Contoh penggunaan
10const text = "Halo, dunia! Ini adalah contoh tokenisasi.";
11const encodingName = "cl100k_base";
12const tokenCount = countTokens(text, encodingName);
13console.log(`Jumlah token: ${tokenCount}`);
14

1require 'tiktoken_ruby'
2
3def count_tokens(text, encoding_name)
4  encoding = Tiktoken.encoding_for_model(encoding_name)
5  tokens = encoding.encode(text)
6  tokens.length
7end
8
9## Contoh penggunaan
10text = "Halo, dunia! Ini adalah contoh tokenisasi."
11encoding_name = "cl100k_base"
12token_count = count_tokens(text, encoding_name)
13puts "Jumlah token: #{token_count}"
14

Contoh-contoh ini menunjukkan bagaimana menggunakan pustaka tiktoken (atau padanannya dalam bahasa lain) untuk menghitung token dalam teks yang diberikan menggunakan pengkodean yang ditentukan.

Referensi

OpenAI. "Tiktoken." GitHub, https://github.com/openai/tiktoken. Diakses 2 Agu. 2024.
Vaswani, Ashish, et al. "Attention Is All You Need." arXiv:1706.03762 [cs], Des. 2017, http://arxiv.org/abs/1706.03762.
Sennrich, Rico, et al. "Neural Machine Translation of Rare Words with Subword Units." arXiv:1508.07909 [cs], Jun. 2016, http://arxiv.org/abs/1508.07909.
Brown, Tom B., et al. "Language Models are Few-Shot Learners." arXiv:2005.14165 [cs], Jul. 2020, http://arxiv.org/abs/2005.14165.
Devlin, Jacob, et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." arXiv:1810.04805 [cs], Mei 2019, http://arxiv.org/abs/1810.04805.

Whiz Tools

Token Counter: Count Tokens with Tiktoken Library

Pengira Token

Dokumentasi

Penghitung Token

Pengenalan

Cara Menggunakan Alat Ini

Proses Tokenisasi

Algoritma Pengkodean

Kasus Penggunaan

Alternatif

Sejarah

Contoh

Referensi

Maklum balas

Alat Berkaitan

Hours Calculation Tool for Project Management and Tracking

Pengira Ketersediaan Perkhidmatan dan Masa Beroperasi

Penukar Unit Masa: Tahun, Hari, Jam, Minit, Saat

Penukar Asas Nombor: Binari, Desimal, Hex & Asas Khusus

Penganggar Bilangan Daun Pokok: Kira Daun Mengikut Spesies & Saiz

Universal UUID Generator for Various Applications

Pengira Selang Masa: Cari Masa Antara Dua Tarikh

Penjana CPF untuk Ujian dan Pengesahan Data Perisian

Pengira Panjang Bit dan Byte untuk Pelbagai Penyodukan

Penukar Timestamp Unix kepada Tarikh: Sokongan Format 12/24 Jam