Verilerinizi Nasıl Tanımlayabilirsiniz? Kümeleme İle Sınıflandırma Karşılaştırması

20/08/2021 tarihinde yayınlandı

Verilerinizi Nasıl Tanımlayabilirsiniz? Kümeleme İle Sınıflandırma Karşılaştırması

Makine öğrenimi kapsamında karşılaştığımız en büyük sorunlardan birisi veri modellerinin tanımlanması ve bunların uygun şekilde kategorize edilmesidir. Gözetimli ve gözetimsiz öğrenme şeklinde adlandırılan makine öğrenimi tekniklerini 1. Bölüm kapsamında ele aldık (söz konusu yazıyı henüz okumadıysanız ilgili yazıya buradan ulaşabilirsiniz) ve bu bölümde konuyu daha kapsamlı şekilde inceleyeceğiz.

Kümeleme ve Sınıflandırma, elimizde bulunan veri modellerini tanımlamak adına makine öğreniminde kullanılan iki yöntemdir. Bu iki yöntem aynı amaca hizmet eder, analiz açısından farklılık gösterir. Bu yöntemler arasındaki ana fark şu şekildedir; önceden tanımlanan sınıflar Sınıflandırma yöntemi kapsamında söz konusu verileri gözetimli öğrenme ilkeleri uygulanarak gruplandırmak üzere kullanılır. Bununla birlikte, gruplandırma işlemi Kümeleme yöntemi kapsamında veri elemanları arasındaki benzerlikleri tanımlayarak gerçekleştirilir çünkü bu yöntem gözetimsiz öğrenme kapsamında kullanılır.

Kümeleme Nedir?

Kümeleme, veri setinde benzer özelliklere sahip verileri ayırmak üzere kullanılır. Benzerlik oranının aynı veri setinde yüksek olması ve fark oranının bunun aksine düşük olması beklenir. Kümeleme, gözetimsiz öğrenme kapsamında kullanılır çünkü verilere ilişkin detaylı bilgiler önceden sağlanmaz. Verileri kategorize etmek üzere herhangi bir ayırıcı bulunmamaktadır, sürecin tamamı ilgili modeli eğitmek ile ilgilidir. K-ortalamalar, Kümeleme kapsamında kullanılan en bilindik algoritmadır. Kümeleme, müşteri segmentasyonu ve pazar segmentasyonu alanında sık sık tercih edilir. Bir şirketin ürün müdürü olduğunuzu ve hangi ürünün hangi müşteri segmenti tarafından tercih edildiğini öğrenmek istediğinizi varsayalım. Müşterileriniz ne satın almak istiyor? Bu sorulara makul bir cevabınız varsa pazarlama faaliyetlerini kolayca planlayabilirsiniz ve bunun sonucunda öngörüleriniz başarılı olur. Kümeleme yönteminin amacı gözetimsiz öğrenme yöntemi ile uyumludur çünkü bu süreç veri yapısını benzerlikler ve farklar temelinde herhangi bir yönlendirme etiketi olmaksızın tanımlar.

Hepimiz Netflix’in veri bilimi ve yapay zekâ alanında elde ettiği başarıyı biliyoruz. Netflix şu unsuru da doğruluyor; kullanıcıların ortak özelliklerini paylaşan yaklaşık 2000 küme bulunuyor. Bir örnek vermek gerekirse, 290 numaralı Kümede “Groundhog Day”, “Black Mirror” ve “Lost” dizilerini izlemeyi seven kullanıcıları görebilirsiniz. Dolayısıyla Netflix, aynı tercihleri belirleyerek kullanıcılara daha iyi önerilerde bulunmak için bu bilgileri kullanır. Mantıklı değil mi?

Kümeleme algoritmaları birçok tavsiye sisteminin omurgasını oluşturur. İlgili işlemleri Kümeleme kapsamında güvenilir şekilde gerçekleştirmek adına K-ortalamalar ve Hiyerarşik kümeleme algoritmaları kullanılır. Kümeleme yönteminin gündelik hayatta kullanımına ilişkin diğer bir örnek de futbol maçları ve diğer spor dallarıdır. Her ne kadar saçma görünse de gerçek bu. Teknik direktörler takımda hangi oyuncuların yer alacağına nasıl karar veriyor? Modeli eğitmek için oyuncular veya takım hakkında biraz bilgimiz varsa şanslıyız. Takımlar, K-ortalamalar Kümelemesi algoritması kullanılarak daha etkin şekilde kurulabilir. K-ortalamalar Kümeleme algoritmasının ana amacı, veri noktasının merkez (ortalama) veri noktasına olan uzaklığını en aza indirmektir. Bazı adımlardan sonra geliştirilen yinelemeli bir süreçtir. Veri kümesinden rastgele seçilen birincil grup ile başlıyor ve her kümenin merkez noktalarını temsil eden hayali merkezlerini belirliyoruz. Daha sonra, bu şekilde devam ederek, her veri noktası için yinelemeli olarak aynı adımları gerçekleştiriyoruz. Sonuç olarak, söz konusu süreçler temelinde oluşturulan kümeler elde ediyoruz. (Bu arada, “ortalama” terimi, kümenin merkezi belirlenirken verilerin ortalamasını ifade eder). Kümeleme yöntemi kapsamında kullanılan başka bir algoritma daha bulunuyor (buna Hiyerarşik Kümeleme deniyor) ve bu algoritmanın amacı, veri noktalarının mesafesini (Öklid veya Hamming) düzenleyerek küme sayısını en aza indirmektir. Bununla birlikte, K-ortalamalar Kümeleme yöntemi, diğeri ile karşılaştırıldığında daha güvenilir ve daha fazla tercih edilen bir algoritmadır.

Sınıflandırma Nedir?

Gözetimli öğrenme algoritmalarını incelediğimizde, en çok bilinen algoritma Sınıflandırmadır. Kümeleme yönteminde olduğu üzere veri elemanlarının sınıflandırılması için kullanılsa da, işlem önceden tanımlanmış etiketler aracılığıyla gerçekleştirilir. Sınıflandırma işlemi iki şekilde gerçekleştirilebilir: İkili veya Çok Sınıflı. İkili Sınıflandırmada “evet” veya “hayır” gibi kategorik yanıtları araştırıyoruz. Bununla birlikte, Çok Sınıflı Sınıflandırmada yanıtlar “iyi”, “yeterli”, “yeterli değil” gibi daha ayrıntılı cevaplar içerir.

Sınıflandırma, finans sektöründe yaygın olarak kullanılıyor. Kümeleme yönteminden farklı olarak, müşteri tabanının bilinmesi halinde, söz konusu müşterilerin hangi ürün veya hizmetleri tercih edeceğini pazar araştırması kapsamında belirlemek üzere kullanılıyor. Buna ek olarak, bankacılık sistemleri Sınıflandırma algoritmalarını kullanarak herhangi bir dolandırıcılık faaliyetini kolaylıkla tespit edebilir. Müşteri hareketleri veri tabanlarında tutulur ve güvenlik açısından önem arz eden işlemlere uygun şekilde sınıflandırılabilir. Beklenmedik işlem gerçekleştirilirse uyarı sistemi arka planda çalışır.

Örnek vermek gerekirse, istenmeyen e-posta kutusu Sınıflandırma algoritmalarını kullanarak istenmeyen e-postaları tespit eder. Bu kapsamda ikili mekanizma uygulanır ve e-postalar “istenmeyen” veya “istenmeyen değil” şeklinde sınıflandırılır.

Sınıflandırma yönteminin uygulandığı daha karmaşık örnekleri ele alalım. Görüntü işleme sorunları söz konusu algoritma kullanılarak çözülür. Örnek vermek gerekirse, uydu görüntülerinde insan yapımı ve doğal alanlar, her piksele 0 ila 255 arasında bir sayı verilerek ayırt edilir. Dolayısıyla aşağıdaki şekilde inceleyebileceğiniz gibi görüntü tanıma işlemi gerçekleştirilir.

Görüntü işleme sürecini geliştirmek istiyorsanız, RGB değerleri (kırmızı, yeşil ve mavi - renk özelliklerine ilişkin parametreler) gibi çoklu özellikler içeren bir matris de düzenleyebilirsiniz. Dolayısıyla, pikseller bloklar oluşturur ve sonra bloklar renk vektörlerini temsil eder. Böylece aşağıdaki gibi bir sonuç elde edilebilir.

Görüntü tanıma işleminde olduğu üzere, konuşma tanıma da Sınıflandırma algoritmaları kullanılarak gerçekleştirilir. Sanırım hepiniz “Lütfen yapmak istediğiniz işlemi birkaç kelime ile açıklar mısınız?” sorusunu yönelten mobil operatöre denk gelmişsinizdir. Bununla birlikte, ses verileriniz ile farklı zaman noktalarında istenilen ses genlikleri eşleştirilmeye çalışılır. Bir zaman sekansında oluşan dalga formları, Saklı Markov Modelleri kullanılarak incelenir. Dolayısıyla konuşma tanıma süreci etkin şekilde ele alınır. Markov Modellerinin ilgili konuyu daha karmaşık hale getireceğini biliyorum, dolayısıyla söz konusu konuyu detaylı bir şekilde ele almayacağım.

Kümeleme ve Sınıflandırma arasındaki ana farklara değinmek adına bazı karşılaştırma süreçleri gerçekleştirilebilir. Makine öğrenimi kapsamında farklı öğrenme türlerini temsil ederler; bunlar sırasıyla gözetimsiz ve gözetimli öğrenme teknikleridir. Bulunması halinde, “etiketler” kapsamında veri sınıflandırma konusunda farklılık gösterirler. Bu konuyu 1. Bölüm kapsamında gözetimli öğrenme başlığı altında ele almıştık; etiketler, sistemi eğitmek üzere kullanılır. Bununla birlikte, gözetimsiz öğrenmede yapabileceğimiz tek şey modellerimizi eğitmektir. Kümeleme ve Sınıflandırma algoritmaları bu fark temelinde aynı yaklaşım uygulanarak kullanılır. Kümeleme, sınıflandırma işlemini veri elemanları arasındaki benzerlikleri kullanarak gerçekleştirir çünkü yönlendirici etiketler bulunmamaktır; bununla birlikte, Sınıflandırma etiketleri modelin ilgili sınıfları tanımlamasına yardımcı olur. Sınıflandırma, Kümeleme nazaran daha karmaşık bir süreçtir. Günlük hayattan birçok örnek verilebilir, ben yalnızca ana konsepti ve kullanım örneklerini netleştirmeye çalıştım. İnsanların ve teknolojik cihazların veri kullanımı her geçen gün artacak ve bu konuda yapabileceğimiz tek şey sürece ayak uydurmak...

“Veriler olmadan, siz de “sadece fikri olan” bir başka kişisiniz.” (“Without data you are just another person with an opinion.”)

W.Edwards Deming

Yazar: Özge Köktürk

Kaynak: https://www.karel.com.tr/blog/verilerinizi-nasil-tanimlayabilirsiniz