
Giriş: Süper Zekanın Aşil Topuğu ve “Çilek” Paradoksu
Dünyanın en gelişmiş yapay zeka modellerinden birine, kuantum fiziğini açıklatabilir, Shakespeare tarzında bir sone yazdırabilir veya Python ile karmaşık bir veritabanı kodu oluşturmasını isteyebilirsiniz. Muhtemelen saniyeler içinde mükemmel bir yanıt alacaksınız. Ancak aynı modele şu basit soruyu sorduğunuzda işler garipleşir: “Strawberry (Çilek) kelimesinde kaç tane ‘r’ harfi var?”
Çoğu zaman alacağınız cevap şaşırtıcı bir özgüvenle “İki tane” olacaktır. (Doğru cevap üçtür). Peki, nasıl olur da insanlığın tüm bilgi birikimine erişimi olan bir “süper zeka”, ilkokul seviyesindeki bir sayma işleminde çuvallar?
Bu durum bir yazılım hatası (bug) veya zeka eksikliği değildir. Bu, yapay zekanın dünyayı algılama biçiminin, yani Tokenizasyon sürecinin doğrudan bir sonucudur. Bu rehberde, yapay zekanın kaputunu kaldıracak ve onun metinleri harf harf okumadığını, bunun yerine kelimelerin matematiğini nasıl işlediğini keşfedeceğiz. Hazırsanız, makinenin zihnine, o sayısal matrise giriş yapıyoruz.
Tokenizasyon Nedir? Kelimelerin Sayısal DNA’sı
Yapay zeka modelleri, bizim anladığımız anlamda “kelimeleri” veya “harfleri” bilmezler. Bilgisayarların ana dili matematiktir. Bir cümleyi modele gönderdiğinizde, bu cümle önce Tokenizasyon (Tokenization) adı verilen bir işlemden geçer. Bu işlem, metni modelin işleyebileceği küçük parçalara, yani token’lara ayırır.
Bunu bir Lego seti gibi düşünebilirsiniz. Biz kelimeleri atomlarına (harflerine) kadar ayırırken, yapay zeka onları önceden birleştirilmiş küçük bloklar (tokenlar) halinde görür.
- Kelime Bazlı Değil, İstatistik Bazlı: Tokenlar her zaman tam bir kelimeye karşılık gelmez. Bazen bir kelime, bazen bir hece, bazen de sadece bir harf olabilir.
- Sayısal Dönüşüm: Her token, modelin sözlüğünde benzersiz bir kimlik numarasına (ID) sahiptir. Örneğin, model “Elma” kelimesini görmez; onun için o [ID: 45921] sayısıdır.
Neden Tokenizasyon Kullanılır?
Bunun temel sebebi verimlilik ve bağlam ilişkisidir. İngilizcede ortalama bir token, yaklaşık 0.75 kelimeye (veya 4 karaktere) denk gelir. Modeli harf harf eğitmek (a, b, c…) işlem gücünü aşırı zorlayacak ve kelimeler arasındaki anlamsal ilişkiyi kurmayı zorlaştıracaktır. Tokenlar, anlamı sıkıştırarak modelin daha uzun metinleri daha hızlı işlemesini sağlar.

Büyük Sır Çözülüyor: Yapay Zeka “Çilek” Kelimesini Nasıl Görüyor?
Gelelim meşhur “Strawberry” (Çilek) örneğine. Bir insan bu kelimeye baktığında, zihni otomatik olarak harfleri tarar: S-T-R-A-W-B-E-R-R-Y. Üç tane “R” harfini görmek bizim için nanosaniyelik bir iştir.
Ancak GPT-4 gibi bir model için durum tamamen farklıdır. Yaygın kullanılan tokenizasyon algoritmaları (örneğin BPE – Byte Pair Encoding), “Strawberry” kelimesini tek bir bütün veya anlamsız hece grupları olarak böler.
Genellikle şu şekilde token’larına ayrılır:
“Straw” + “berry”
veya bazen tek bir token olarak: “Strawberry”
Modelin gördüğü şey şudur: [Token ID: 8521] + [Token ID: 4412]
Kritik Nokta: Model, “Straw” token’ının içinde “S, t, r, a, w” harflerinin bulunduğunu görsel olarak bilmez. O sadece 8521 numaralı matematiksel vektörün, “saman” veya “çöp” anlamına gelen bir kavram olduğunu bilir.
Yani modele “Kaç tane R var?” diye sorduğunuzda, model kelimenin içine bakıp harfleri saymaz. Çünkü harfleri görmüyordur! Bunun yerine, eğitim verisindeki (internetteki trilyonlarca metin) istatistiksel olasılıklara dayanarak bir tahminde bulunur. Çoğu metinde kelimeler harf harf analiz edilmediği için, model bu “kör noktasında” halüsinasyon görür ve en olası görünen (ama yanlış olan) cevabı verir.
Özetle: Görmediğiniz bir şeyi sayamazsınız. Yapay zeka, kelimeleri harf dizileri olarak değil, bütünsel semboller (hiyeroglifler gibi) olarak görür.
Domino Etkisi: Tokenizasyonun Neden Olduğu Diğer “Garip” Hatalar
“Çilek” testi sadece buzdağının görünen kısmıdır. Tokenizasyon mantığı, yapay zekanın başka alanlarda da tuhaf hatalar yapmasına neden olur.
- Matematiksel İşlem Hataları:
Yapay zeka sayılarla arası iyi olan bir hesap makinesi değildir. Sayılar da tokenlara bölünür. Örneğin “1984” sayısı bazen tek token, bazen “19” ve “84” olarak iki token olabilir.- Sorun: Model 3 basamaklı bir sayıyı 2 basamaklı bir sayıyla çarparken, sayıları bizim gibi basamak basamak (birler, onlar…) değil, token token işler. Bu da karmaşık işlemlerde tutarsız sonuçlara yol açar.
- Şiir ve Kafiye Yazma Zorluğu:
Modelden belirli bir kafiye şemasıyla şiir yazmasını istediğinizde zorlanabilir. Çünkü “Gül” ve “Bülbül” kelimelerinin sonlarının ses olarak benzediğini harflerden değil, sadece eğitim verisindeki istatistiksel yakınlıktan bilir. Kelimelerin fonetik yapısını (harf dizilimini) doğrudan görmediği için kafiyeleri kaçırabilir. - İngilizce Olmayan Dillerde “Token Vergisi”:
Çoğu LLM, İngilizce ağırlıklı verilerle eğitilmiştir ve token sözlüğü İngilizceye optimize edilmiştir.- İngilizce: “Apple” = 1 Token.
- Türkçe: “Elma” = 1 veya 2 Token olabilir.
- Karmaşık Diller: Bazı dillerde basit bir kelime bile 4-5 tokena bölünebilir.
- Sonuç: Türkçe veya diğer dillerde işlem yapmak, modele (ve API kullananlara) daha pahalıya mal olur ve modelin bağlam penceresini (hafızasını) daha çabuk doldurur.

Geleceğin Mimarisi: Bu “Görme Bozukluğu” Nasıl Düzelecek?
Yapay zeka araştırmacıları bu sorunun farkında ve tokenizasyon sınırlamalarını aşmak için çeşitli stratejiler geliştiriyorlar:
- Kod Yorumlayıcılar (Code Interpreter): ChatGPT gibi sistemler artık “R’leri say” dediğinizde, arka planda bir Python kodu yazıp çalıştırarak kelimeyi harflerine ayırıyor ve doğru cevabı veriyor. Yani “sezgisel” değil, “programatik” bir çözüm kullanıyor.
- Tokenless (Tokensiz) Modeller: Meta ve Google gibi devler, metni tokenlara bölmeden, doğrudan karakter (byte) seviyesinde veya görsel veri (piksel) gibi işleyen yeni mimariler üzerinde çalışıyor. Bu, modelin her harfi tek tek “görmesini” sağlayacak.
- Görsel Modeller (Multimodal): Modelin metni bir “resim” olarak okuması sağlanabilir. Bir kelimenin fotoğrafını çekip “burada kaç R var?” derseniz, görsel işleme yeteneği (OCR benzeri) sayesinde doğru cevabı verebilir.
Sıkça Sorulan Sorular (SSS)
- Soru 1: ChatGPT’ye “Strawberry” sorusunu sorduğumda bazen doğru biliyor, neden?Cevap: OpenAI ve diğer şirketler, bu spesifik hata viral olduktan sonra modelleri “Fine-Tuning” (İnce Ayar) yöntemiyle bu soruya özel olarak eğittiler veya arka planda çalışan “Düşünce Zinciri” (Chain of Thought) mekanizmalarını geliştirdiler. Ancak bu, temel tokenizasyon sorununun çözüldüğü anlamına gelmez; sadece modelin bu hileli soruyu ezberlediği anlamına gelir.
- Soru 2: Tokenizasyon sadece İngilizce için mi sorun yaratıyor?Cevap: Hayır, ancak etkisi dilden dile değişir. İngilizce için optimize edilmiş tokenlayıcılar, Türkçe gibi sondan eklemeli dilleri çok daha fazla parçaya ayırır. Bu da Türkçe metinlerin model için daha “karmaşık” ve işlenmesi daha maliyetli olmasına neden olur.
- Soru 3: Bir token tam olarak kaç kelimedir?Cevap: Kesin bir kural yoktur ancak genel bir kabul olarak; İngilizcede 1000 token yaklaşık 750 kelimeye denk gelir. Türkçede ise kelimeler daha fazla eke sahip olduğu ve bölündüğü için 1000 token, yaklaşık 500-600 kelimeye denk gelebilir.
Sonuç: Makinenin Zihnine Girmek
Yapay zekanın “Strawberry” kelimesindeki harfleri sayamaması, onun aptal olduğunu göstermez; sadece insan gibi okumadığını kanıtlar. Bizler sembollere anlam yükleyen biyolojik varlıklarız; onlar ise istatistiksel örüntüleri işleyen matematiksel motorlardır.
Bu tokenizasyon gerçeğini anlamak, yapay zekayı kullanırken beklentilerinizi yönetmenizi sağlar. Ondan bir şiir yazmasını veya harf hesabı yapmasını istediğinizde neden zorlandığını artık biliyorsunuz. Teknoloji geliştikçe bu “görme bozuklukları” düzelecek, ancak o zamana kadar makinenin dilinden anlamak, direksiyondaki insan için en büyük avantaj olmaya devam edecek.
Okuyucu Etkileşim Sorusu (CTA):
Eğer dilimizi heceler yerine tamamen sayılarla konuşsaydık, şiir veya mizah anlayışımız nasıl değişirdi?


