bilgiz.org

Veri madenciLİĞİne giRİŞ Veri Madenciliği Nedir?

  • 4.1.1 Sınıflama ve Regresyon Modelleri
  • Karar Ağaçları
  • Yapay Sinir Ağları
  • Naive Bayes;
  • Bulanık Mantık ;
  • Bellek Tabanlı Yöntemler ;



  • Sayfa4/8
    Tarih29.12.2017
    Büyüklüğü257.4 Kb.

    Indir 257.4 Kb.
    1   2   3   4   5   6   7   8

    4.VERİ MADENCİLİĞİ MODELLERİ

    Veri madenciliğinde kullanılan modeller, tahmin edici ve tanımlayıcı olmak üzere iki ana başlık altında incelenmektedir.


    4.1.Tahmin edici modeller:

    Sonuçları bilinen verilerden hareket edilerek bir model geliştirilmesi ve kurulan bu modelden yararlanılarak sonuçları bilinmeyen veri kümeleri için sonuç değerlerin tahmin edilmesi amaçlanmaktadır. Tahmin edici modeller sınıflama ve regresyon yöntemleridir.



    4.1.1 Sınıflama ve Regresyon Modelleri:

    Mevcut verilerden hareket ederek geleceğin tahmin edilmesinde faydalanılan ve veri madenciliği teknikleri içerisinde en yaygın kullanıma sahip olan sınıflama ve regresyon modelleri arasındaki temel fark, tahmin edilen bağımlı değişkenin kategorik veya süreklilik gösteren bir değere sahip olmasıdır. Ancak çok terimli lojistik regresyon (multinomial logistic regression) gibi kategorik değerlerin de tahmin edilmesine olanak sağlayan teknik00000000000lerle, her iki model giderek birbirine yaklaşmakta ve bunun bir sonucu olarak aynı tekniklerden yararlanılması mümkün olmaktadır.


    Sınıflama ve regresyon modellerinde kullanılan başlıca teknikler;
    ◊ Karar Ağaçları,

    ◊ Yapay Sinir Ağları,

    ◊ Naive Bayes,

    ◊ Bulanık Mantık,

    Bellek Temelli Nedenleme


    Karar Ağaçları

    Karar ağaçları veri madenciliğinde en sık kullanılan yöntemlerin başında gelmektedir. Bunun başlıca sebepleri ucuz olması, yorumlamalarının oldukça kolay olması ve veritabanı sistemleri ile entegre edilebilmeleridir. Karar ağaçları düğümler ve dallardan oluşan, anlaşılması oldukça kolay olan bir tekniktir. Karar ağacında bulunan her bir dalın belirli bir olasılığı mevcuttur. Bu sayede son dallardan köke veya istediğimiz yere ulaşana dek olasılıkları hesaplamamız mümkündür.

    Karar ağaçları ile ilgili bir örnek verecek olursak; Siz bir şirket yöneticisisiniz ve elinizde şirkete dair yüklü bir miktar para var. Bu parayı sizden en yüksek getiriyi sağlayacak şekilde faiz veya senet alarak değerlendirmeniz isteniyor. İsterseniz bir danışmandan yardım alabilir isterseniz kendiniz karar verebilirsiniz. Olasılıkları çıkartacak olursak; ilk olarak danışmana başvuralım. Danışman size senet al veya faize yatır seçeneklerini sunacaktır. Bu seçeneklerde kendi aralarında başarılı veya başarısız olarak ikiye ayrılacaktır. İlk etapta finans ile ilgili yeterli bilgiye sahip olmadığımız düşünülerek danışmana başvurmak mantıklı gelecektir. Ama bu seçenek sonucunda danışmana da bir miktar ödeme yapmamız gerekecektir. Diğer yandan danışmanlık hizmeti almazsınız ve kendiniz karar verirsiniz. Hisse senedi karlı olacak (karlı olmasına karşın faize yatır veya senet al) veya hisse senedi zararlı olacaktır. Bahsettiğimiz bu olayların karar ağacı aşağıdaki şekilde olacaktır.





    Yapay Sinir Ağları

    Yapay sinir ağları(YSA) insan beyninin sinir sistemine ve çalışma prensibine dayanan elektriksel bir modeldir. Bir anlamda insan beyninin ufak bir kopyası gibidir. İnsan beyninin öğrenme yoluyla yeni bilgiler üretebilme, keşfedebilme, düşünme ve gözlemlemeye yönelik yeteneklerini, yardım almadan yapabilen sistemler geliştirmek için tasarlanmışlardır. Yapay Sinir ağı ile hesaplamalarda istenilen dönüşüm için, adım adım yürütülen bir yöntem gerekmez. Sinir ağı ilişkilendirmeyi yapan iç kuralları kendi üretir ve bu kuralları, bunların sonuçlarını örneklerle karşılaştırarak düzenler.Deneme ve yanılma ile , ağ kendi kendine işi nasıl yapması gerektiğini öğretir.YSA'larda bilgi saklama,verilen eğitim özelliğini kullanarak eğitim örnekleri ile yapılır.Sinirsel hesaplama, algoritmik programlamaya bir seçenek oluşturan,temel olarak yeni ve farklı bir bilgi işleme olayıdır. Uygulama imkanının olduğu her yerde, tamamen yeni bilgi işleme yetenekleri geliştirebilir. Bu sayede de geliştirme harcamaları ile geliştirme süresi büyük ölçüde azalır.


    Bir yapay sinir ağı belirli bir amaç için oluşturulur ve insanlar gibi örnekler sayesinde öğrenir. Yapay sinir ağları tekrarlanan girdiler sayesinde kendi yapısını ve ağırlığını değiştirir. Yapay sinir ağları aynen canlıların sinir sistemi gibi adapte olabilen bir yapıya sahiptir.


    Naive Bayes;

    Naive Bayes algoritmasında her kriterin sonuca olan etkilerinin olasılık olarak hesaplanması temeline dayanmaktadır.


    ÖRNEK 6: Elimizde tenis maçının oynanıp oynanmamasına dair bir bilgi olduğunu düşünelim. Ancak bu bilgiye göre tenis maçının oynanması veya oynanmaması durumu kaydedilirken o anki hava durumu, sıcaklık, nem ve rüzgar durumu bilgileri de alınmış olsun. Biz bu bilgileri değerlendirdiğimizde varsayılan tahmin yöntemleri ile hava bugün rüzgarlı tenis maçı bugün oynanmaz şeklinde kararları farkında olmasak da veririz. Ancak veri madenciliği bu kararların tüm kriterlerin etkisi ile verildiği bir yaklaşımdır. Dolayısıyla biz ileride öğrettiğimiz sisteme bugün hava güneşli, sıcak, nemli ve rüzgar yok şeklinde bir bilgiyi verdiğimizde sistem eğitildiği daha önce gerçekleşmiş istatistiklerden faydalanarak tenis maçının oynanma ve oynanmama ihtimalini hesaplar ve bize tahminini bildirir.
    ÖRNEK 7: Sağlık sektöründe bir kişinin tahlil sonuçlarının değerlendirilerek bir hastalığa yakalanmış olup olmama olasılığının değerlendirilmesinde de sıkça kullanılmaktadır.

    Bulanık Mantık;

    Belirsizliklerin anlatımı ve belirsizliklerle çalışılabilmesi için kurulmuş katı bir matematik düzen olarak tanımlanabilir. Bilindiği gibi istatistikte ve olasılık kuramında, belirsizliklerle değil kesinliklerle çalışılır ama insanın yaşadığı ortam daha çok belirsizliklerle doludur. Bu yüzden insanoğlunun sonuç çıkarabilme yeteneğini anlayabilmek için belirsizliklerle çalışmak gereklidir. Bulanık mantığın uygulama alanları çok geniştir. Sağladığı en büyük fayda ise "insana özgü tecrübe ile öğrenme" olayının kolayca modellenebilmesi ve belirsiz kavramların bile matematiksel olarak ifade edilebilmesine olanak tanımasıdır. Bu nedenle lineer olmayan sistemlere yaklaşım yapabilmek için özellikle uygundur.  Bulanık mantık konusunda yapılan araştırmalar Japonya'da oldukça fazladır. Özellikle fuzzy process controller olarak isimlendirilen özel amaçlı bulanık mantık mikroişlemci çipi' nin üretilmesine çalışılmaktadır. Bu teknoloji fotoğraf makineleri, çamaşır makineleri, klimalar ve otomatik iletim hatları gibi uygulamalarda kullanılmaktadır. Bundan başka uzay araştırmaları ve havacılık endüstrisinde de kullanılmaktadır. TAI'de araştırma gelişme kısmında bulanık mantık konusunda çalışmalar yapılmaktadır.


    Bellek Tabanlı Yöntemler;

    Bellek tabanlı veya örnek tabanlı bu yöntemler istatistikte 1950’li yıllarda önerilmiş olmasına rağmen o yıllarda gerektirdiği hesaplama ve bellek yüzünden kullanılamamış ama günümüzde bilgisayarların ucuzlaması ve kapasitelerinin artmasıyla, özellikle de çok işlemcili sistemlerin yaygınlaşmasıyla, kullanılabilir olmuştur. Bu yönteme en iyi örnek en yakın k komşu algoritmasıdır. En yakın komşu yaklaşımı, x noktasının sınıfını, x noktasına en yakın olan noktanın sınıfı olarak belirleme yaklaşımıdır. Sınıfı belirlenen nokta ile komşu nokta aynı sınıfa ait değiller ise hata söz konusudur. Bu yaklaşım sadece en yakın komşu ile sınıflandırma yapar, önceden sınıflandırılmış diğer noktaları önemsemez.




    1   2   3   4   5   6   7   8






        Ana sayfa


    Veri madenciLİĞİne giRİŞ Veri Madenciliği Nedir?

    Indir 257.4 Kb.