bilgiz.org

Veri madenciLİĞİne giRİŞ Veri Madenciliği Nedir?

  • İstatistikçinin Veri Madenciliğine Katkıları
  • Veri Tabanına İstatistiksel Bakış
  • Veri Madenciliğinde Kullanılan İstatistiksel Yaklaşımlar
  • Sayı Tahmini Ve Örnekleme
  • Özetlemeye Dayalı Modeller
  • Hipotez Testleri
  • Bayes Teoremi
  • Varyans Analizi
  • Regresyon



  • Sayfa7/8
    Tarih29.12.2017
    Büyüklüğü257.4 Kb.

    Indir 257.4 Kb.
    1   2   3   4   5   6   7   8

    VERİ MADENCİLİĞİ VE İSTATİSTİK

    İstatistikte kullanılan tahmin yöntemleri bilgisayarlarda otomatikleştirilmiştir. Bunun sonucunda istatistik tabanlı veri madenciliği teknikleri ortaya çıkmıştır.

    Veri madenciliği, istatistiksel süreçleri etkili bir biçimde otomatikleştirir. Bu sayede son kullanıcının yükünü biraz da olsa hafifletir.
    Veri madenciliği ve istatistikte ortak amaç, karmaşık verilerden anlamlı bilgiler elde etmektir.

    En büyük farkları ise; veri madenciliğinin bilgisayar teknolojisi ve birtakım algoritmalar sayesinde çok büyük miktardaki veri kümelerine hitap ediyor olmasıdır. Fakat bilinmelidir ki bu algoritmaların temelini istatistiksel yöntemler oluşturmaktadır.



      1. İstatistikçinin Veri Madenciliğine Katkıları





    • Çalışmanın amacının tanımlanması

    • Uygulama sonucuna yararlı olabilecek her tür bilginin sisteme verilmesi

    • Uygun yöntemin kullanılması

    • Sonuçların yorumlanması ve geçerliliğinin kontrolü

      1. Veri Tabanına İstatistiksel Bakış





    • Bu kısımda bütün gözlemlerin bulunduğu veritabanı tablosu kitle olarak, odaklanma çıktısı ise örneklem olarak kabul edilecektir.




    • Veritabanı tablosu, bütün değişkenlerin kartezyen çarpımından oluşmuş bir örneklem olarak da düşünülebilir.




    • İstatistik açısından bakılacak olursa bir veritabanı kitleyi, tablodaki her bir değişken de rasgele değişkeni tanımlar. Bu durumda amaç kitleden örneklem çekmek olacaktır.
      1. Veri Madenciliğinde Kullanılan İstatistiksel Yaklaşımlar





    • Sayı Tahmini Ve Örnekleme

    • Özetlemeye Dayalı Modeller  

    • Varsayım Sınama (hipotez testleri)

    • Bayes Teoremi

    • Varyans Analizi

    • Regresyon

    • Faktör Analizi

    • Zaman Serileri

    • Kalite Kontrol
        1. Sayı Tahmini Ve Örnekleme





    • Bir bağımsız değişkeni tahmin etme işlemidir. Veri madenciliğinde, eksik değerlerin tahmini için kullanılır. Bu işlem, ortalama, varyans, standart sapma gibi istatistiksel değerleri tahmin etmek için yapılır.

    • Bir veri kitlesinden çekilen örneklemin özellikleri ve eleme esnasında istenen özelliklere sahip olup olmadığının araştırılması amacıyla Örnekleme Yöntemlerine başvurulur.

    • Örnekleme yöntemlerinden en genel olarak kullanılan yöntem olan Basit Rasgele Örnekleme de yapılan 4 çeşit tahmin vardır. Bunlar:

    1- Kitle toplamı tahmini

    2- Kitle ortalaması tahmini

    3- İki değişkenin birbirine oranının tahmini

    4- Belli özelliğe sahip birimlerin oranının tahmini

        1. Özetlemeye Dayalı Modeller





    • Özetlemede amaç, veriyi az sayıda özellikte karakterize etmektir. Verinin tümümün bir özetini sağlayan birçok temel kavram vardır. İyi bilinen temel istatistiksel kavramlar;ortalama, mod, veri genişliği, varyans ve standart sapma dır.

    • Bu istatistiksel değerler sırası ile kitlede veya örneklemde veriyi tanımlar.

    • Tanımlanmış veri, verilerin bir parçası değildir. Ancak verilerce belirlenen bir bilgidir.

    • Tanımlanmış veri sadece matematiksel mekanizmalarda hesaplanabilir ve verinin etiketini oluşturur.


        1. Hipotez Testleri





    • İstatistikte örneklemler ve onların kitlelerle ilişkileri hakkındaki varsayımları analiz eden en önemli işlem hipotez testidir. Veri madenciliğinde kitlelerin karşılığı odaklanma girdisi, örneklemlerin karşılığı ise odaklanma çıktısıdır.

    • Bu teknikte önce bir varsayım oluşturulur. Sonra bu varsayımı veri üzerinde sınayarak gözlenen veriyi açıklayan bir model bulmaya çalışılır. Model oluşturma sürecini gerçek veri yönetir. Kurulan varsayımının doğru olup olmadığı bir veri örneği ele alınarak incelenir. Varsayım bu örneğe uyarsa genelde tüm veriye uyduğu kabul edilir. Belirli bir veride sınanacak olan başlangıç varsayımına Ho denir. Boş varsayım kabul edilmezse başka varsayımlar doğar. Bunlara da alternatif varsayımlar denir ve Hs ile gösterilir.


    Hipotezlerin kurulması;


    • (Ho) sıfır hipotezi ve (Hs) seçenek hipotezi oluşturulur

    • Kullanılacak olan önemlilik derecesi belirlenir.

    • Ortalamanın testi için kullanılacak t ya da z değerleri belirlenir.

    • Eğer örneklem genişliği 30 dan büyükse z ,30 dan küçükse t değeri kullanılır.

    • Önemlilik derecesi a değerine göre tablo değeri belirlenir.

    • Tablo değeriyle hesaplanan değer karşılaştırılır. Sonucunda da hipotez ya kabul ya da reddedilir.

    Hipotez testleri, örneklem ve kitlenin fonksiyonu olan birtakım test istatistiği terimleri ve Ho hipotezinin reddedildiği test istatistiği değerlerinin düştüğü “red bölgesi” ile belirtilir. Hipotez testlerinin en önemli kısmı, uygun test istatistiğinin ve red bölgesinin tanımıdır.


    Bu tanım istatistiksel hipotez testlerinin özelliklerini belirtmektedir. Tanımın ilk kısmındaki sıfır ve alternatif hipotezlerde kitle parametrelerinin herhangi bir somut alt kümesi göz önünde bulundurulduğu için, bu kısım ikinci kısma göre daha genel bir anlama sahiptir. İkinci kısımda ise, sıfır ve alternatif hipotezler kitle parametrelerinin belirli bir değerini kullanmaktadır. Tek yönlü hipotez, örneklem parametresini eşik olarak belirlenmiş değerle(tablo değeri) karşılaştırır.

    Hipotez testlerinde 2 tür hata vardır.


     

    Ho kabul

    Ho red



    Ho doğru

    DOĞRU

    I.Tür Hata

    (a hatası)

    Hs doğru

    II.Tür Hata

    (b hatası)

    DOĞRU



        1. Bayes Teoremi





    • Bir sınıflandırma sorununun olasılık terimleriyle açıklanabileceği varsayımına dayanır. Bayes kuralı, bir veri grubunda bir özelliğin olasılığını tahmin etme yöntemidir. Belirli bir veri değerinde çeşitli varsayımların olasılığını araştırır.




    • Bayes formülü:


    şeklindedir.
    Bilimsel karar yöntemlerinden biri olan Bayezyan yaklaşım, olasılıklı (kesin olmayan) bir bilginin incelenmesine objektif bir bakış açısını esas alır ki, bu yaklaşım bilimsel gerçekten ziyade bilginin aşamalarına odaklanır. Thomas Bayes (1764)’e izafe edilen bu düşüncenin tam olarak ifadesini bulması 1930’lara kadar gecikmiş ve ancak 1970’lerden sonra genetik ve tıbbi çalışmalarda yer almaya başlamıştır. Diğer yandan bu teorem genetik danışmanlar tarafından, taşıyıcılık risklerinin hesaplanmasında yaygın olarak kullanılmıştır. Buna paralel olarak bilgisayar destekli tanısal yaklaşımda kullanımı giderek artmaktadır. Bayes hesapları çalışma düzeninden bağımsız olduğundan klinik analizde diğer bazı karar yaklaşımlarından daha esnektir ve geleceğe ait olasılıkları hesaplayabilme olanağına sahiptir.
    Örnek;

    • Kanser teşhisi için yeni bir test geliştirildiğini kabul edelim.Kanserin insanlarda görülme sıklığının 0,05 olduğunu varsayalım, bu test için bize verilen bilgi de kanser hastası olanlar üzerinde denendiğinde % 95pozitif sonuç verdiği olsun.




    • Sorumuz: “Bu test güvenilir bir test midir?” olacaktır.

    A = testin uygulandığı kişide sonuç pozitif

    (teste göre "kanser var")
    B= kişinin kanser olması

    (teste göre değil, gerçekten kişinin kanser olması)

    Bu durumda;
    A' = testin uygulandığı kişide sonuç negatif (kanser olmaması durumu)

    B' = kişinin kanser olmaması durumu


    Bu durumda başta verilen bilgileri kullanırsak;

    P(A/B) = P(A‘/B‘) = 0.95 (kişi kanser(B) ve test uygulanmış(A))


    P(B)=0.005 (bir insanın kanser olma ihtimali, ya da kanserin rastlanma sıklığı)
    Bayes teoremi kullanırsak;

    P(B/A) = P(B)*P(A/B) / {( P(A/B)*P(B) + P(A/B‘)*P(B‘) }
    = [(0.005)(0.95)] / (0.95)(0.005)+(0.05)(0.995) = 0.087


    • Bu test biri üzerinde pozitif sonuç verdiğinde aslında o kişinin kanser olma ihtimali % 8.7 bulunmuştur. Bu çok düşük bir değer olduğu için test kullanılırsa çok fazla sayıda yanlış uyarı meydana geleceğinden TEST BAŞARISIZDIR denir.

      NOT: Başlangıçta verilen ve P(A/B) dediğimiz kavramla sonradan bulduğumuz P(B/A)'nın karıştırılmaması gerekir. Birincisi kanserli hastaya uygulanan testin verdiği sonuç iken ikincisi testin kanser teşhisi koyduğu kişilerin gerçekte ne kadarının kanser olduğudur.

    Bayes teoreminin veri madenciliği alanında kullanımı, belli bir veri tabanı kitlesinden çekilmiş örnekleme dair ulaşılmak istenen olasılıkları hesaplamaktır. Örneğimizde olduğu gibi eğer binlerce hastaya ait bilgilerin bulunduğu bir veri tabanından söz ediliyorsa ve bu hastalardan kanser teşhisi konulmuş olanlarına yapılan testin sonuçlarına göre belli özellikte bir veri aranıyorsa Bayes Teoremi kullanılarak bu özelliği sağlayan hastaların oranı bulunabilir. Veri madenciliği uygulamalarında da amaç zaten istenilen özellikte veriye ulaşmaktır.



        1. Varyans Analizi





    • Varyans analizi ikiden çok kitle ortalaması arasındaki farkın önemini belirtir. Bir çok grubu aynı anda karşılaştırır.

    • ÖRNEĞİN; Üç yeni ilacın nabız atışı üzerindeki etkisi, çamaşır beyazlatması açısından değişik deterjanlar arasındaki fark varyans çözümlemesi ile incelenir. Eğer gruplar arasında farklılık çıkarsa ikişerli karşılaştırmalarla farkı yaratan grup belirlenebilir.


    Çeşitleri:


    • Tek yönlü varyans analizi

    • Çift yönlü varyans analizi

    • Tekrarlı ölçümlerde varyans analizi

    • Çok etkenli varyans analizidir.

    Varyans analizinin veri madenciliğinde kullanımı için, önceden veri tabanından belirli örnekleme yöntemleri kullanılarak seçilmiş olan verilerin analizinin yapılmasında kullanıldığı söylenebilir.


    Varyans analizi, verinin yapısının belirlenmesinde ve ileriki aşamada model kurulmasında yol gösterici olarak kullanılacak bir istatistiksel yöntemdir.

        1. Regresyon





    • Regresyon, genellikle geçmişteki değerleri temel alarak gelecekteki değerleri tahmin etmek için kullanılır. Doğrusal regresyon, girdi verisi ile çıktı verisi arasında doğrusal bir ilişki olduğunu varsayar. 

    • Regresyon her bir tahmin edici için kesin katsayılar üretir ve bu katsayılar bağımlı değişkenin tek tek her bir tahmin edici tarafından hangi oranda açıklandığını gösterir.

    • Regresyon, bağımsız değişkenlerin (X) değerleri için bağımlı değişkenin (Y) alacağı değeri tahmin etmeye yarar. İki değişken arasında y=f(x) gibi bir bağıntı oluşur.


    Örneğin, bir bankanın müşterileri üzerinde yaptığı “müşteri değeri” araştırmasında elde ettiği “müşteri statüsü - yaşı” ve “müşteri statüsü – geliri” çapraz çizelgelerinden elde edilen sonuçlar birleştirilerek bir yorum yapılabilir ancak bu hem çok zor hem de yanıltıcı olabilir. Bu iki çapraz çizelgeyi birlikte incelediğimizde her yaş grubundaki müşteri ve müşteri olmayanlar arasındaki farkın göreli önemi hesaba katılmamış olur ve bunu göz ardı etmek yanıltıcı olabilir. Bu nedenle ikiden fazla değişken arasındaki ilişkiyi incelerken regresyon analizi gibi çok değişkenli analiz yöntemlerine başvurulmalıdır.
    Aynı şekilde bankanın müşteri değeri araştırmasında bu değer üzerinde yaş, ve gelirin gayet etkili tahmin ediciler, eğitim düzeyinin daha az etkili bir tahmin edici olduğunu, fakat aile bireylerinin sayısının ise etkili olmadığını gösterirken, doğrusal regresyon, müşteri değeri üzerinde diğer bütün tahmin edicilerin eş zamanlı etkilerini inceleyerek her bir tahmin edicinin tek ve göreli önemini elde etmemizi sağlar. Bu yüzden regresyon çapraz çizelgelemeden ya da diğer basit iki değişkenli yöntemlerden daha güçlü bir tekniktir.

    6.3.7 Faktör Analizi


    • Faktör analizi; çoğu kez araştırmalarda kullanılan çok sayıdaki değişkenin aslında birkaç temel değişkenle ifade edilebilip edilemeyeceğinin merak edildiği durumlarda kullanılır.

    • Faktör analizi, birbirleriyle ilişkili veri yapılarını birbirinde bağımsız ve daha az sayıda yeni veri yapısına dönüştürmek, bir oluşumu, nedeni açıkladıkları varsayılan değişkenleri gruplayarak ortak faktörleri ortaya koymak,bir oluşumu etkileyen değişkenleri gruplamak, majör ve minör faktörleri tanımlamak amacıyla başvurulan bir yöntemdir.

    Birbiriyle ilişkili çok sayıda değişkeni bir araya getirerek az sayıda kavramsal olarak anlamlı yeni değişkenler bulmayı,keşfetmeyi amaçlayan çok değişkenli bir istatistiktir.


    Veri miktarı çok fazla olduğu zaman veri madenciliği algoritmalarının çalışması ve sonuç üretmesi çok uzun sürebilir. Veriyi azaltma başarıyı artırır. Veri azaltma yöntemlerinden biri olan faktör analizi uygulanırken:
    - Veri madenciliği uygulaması için gerekli olan faktörler seçilir.

    - Faktörler altkümesi kullanılarak elde edilen sınıfların dağılımları gerçek dağılıma eşit ya da çok yakın olmalıdır.




    ÖRNEK 9:Okul müdürlerinin faklı liderlik davranışlarının öğretmenlerin iş tatminine etkilerinin ölçüldüğü bir araştırma yaptığınızı düşünün. Bu araştırmada müdürlerin farklı liderlik davranışlarını (Örnek, Otokritik, Katılımcı, Destekleyici vb.) ayrı ayrı değerlendirmeniz gerekecektir. Belki anket öncesi bu tür bir gruplandırma yapmış da olabilirsiniz. Bu durumda dahi yaptığınız gruplandırmanın ne derecede doğru olduğunu Faktör Analizi ile sayısal olarak doğrulamanız yararlı olacaktır. Çünkü sizin katılımcı liderlik davranışı olarak tanımladığınız bir davranış öğretmenler tarafından destekleyici liderlik davranışı olarak yorumlanmış olabilir. Bu durumda bu soru ya anketten çıkartılmalı ya da destekleyici liderlik kategorisinde değerlendirmeye alınmalıdır. Anket öncesi hiçbir kategorizasyon yapılmadığı durumlarda ise Faktör Analizi eşsiz bir araçtır. Soruları sizin için gruplandırır. Bundan sonra size kalan sadece her bir gruba isim vermektir.


    1   2   3   4   5   6   7   8






        Ana sayfa


    Veri madenciLİĞİne giRİŞ Veri Madenciliği Nedir?

    Indir 257.4 Kb.