bilgiz.org

Veri madenciLİĞİne giRİŞ Veri Madenciliği Nedir?

  • Veri tabanının genel özellikleri
  • Veri tabanın faydaları
  • İyi bir veri tabanının özellikleri
  • 2.2 Veri tabanında bilgi keşfi sürecinin evreleri
  • 2.2.1 Problemin Tanımlanması
  • 2.2.2 Verilerin Hazırlanması
  • Modelin Kurulması ve Değerlendirilmesi



  • Sayfa2/8
    Tarih29.12.2017
    Büyüklüğü257.4 Kb.

    Indir 257.4 Kb.
    1   2   3   4   5   6   7   8

    2.VERİ TABANINDA BİLGİ KEŞFİ SÜRECİ



    2.1 Veri Tabanı Kavramı
    Veri tabanında bilgi keşfi, verilerin doğru, faydalı ve anlaşılır modeller ve kalıplar elde etmede kullanılan özel bir süreçtir.

    Veri tabanı, sistematik erişim imkanı olan, yönetilebilir, güncellenebilir, taşınabilir, birbirleri arasında tanımlı ilişkiler bulunabilen bilgiler kümesidir. Belirli bir amaca yönelik düzen verilmiş kayıt ve dosyaların tümüdür.



    Örneğin; Bilgisayarınızda düzenlenmiş arkadaş adresleri. Belirli bir sıraya göre topladığınız mektuplarınız birer veri tabanıdır.

    Veri tabanının genel özellikleri





    • Veritabanları, gerçek dünyanın belli bir açısını temsil eden daha küçük bir dünyadır.

    • Veritabanı mantıksal çerçevede birbiriyle tutarlı bir veri topluluğudur. Bu haliyle rasgele toplanmış yani belirli bir sıralama veya gruplama yapılmamış bilgilere veritabanı demek doğru değildir.

    • Veritabanı önceden belirlenmiş bir amaca hizmet etmek üzere tasarlanır ve yapılır.

    • Veritabanı, herhangi bir büyüklükte ve karmaşıklıkta olabilir.

    • Veritabanı elle veya bilgisayar ile oluşturulup idare edilebilir.



    Veri tabanın faydaları





    • Herhangi bir evrak saklamaya gerek kalmaz.

    • Makineler bilgileri daha çabuk güncelleştirebilirler. Bu nedenle çok daha hızlı olur.

    • Yalnızca istediğimiz bilgiye istediğimiz zaman ve istediğimiz gibi ulaşabiliriz.

    • Verilerin merkezi kontrolü sağlanır.

    • Veri tekrarı azalır.

    • Tutarsız (hatalı) bilgiler önlenir.

    • Verinin paylaşımı sağlanır.

    • Bütünlük sağlanır.

    • Genel veya özel raporlar alınabilir.


    İyi bir veri tabanının özellikleri





    • Veriler hızlı ve kolay girilebilmeli.

    • Güvenli bir şekilde saklanmalı.

    • İstenildiği şekilde ve kolay sorgulanmalı.

    Veri tabanlarında bilgi keşfi; verilerden

    • Doğru

    • Yeni

    • Faydalı

    • Anlaşılır

    modeller ve kalıplar elde etmede kullanılan özel bir süreçtir.
    Bu tanımdaki “özel bir süreç” ifadesinden de anlaşılacağı gibi Veri Tabanlarında Bilgi Keşfi Süreci(VTBK), karmaşık bir işlemdir. “Model elde etmek” ile kastedilen ise, verilere model uydurmak, verilerden yapı ortaya çıkarmak veya genel bir ifadeyle, veri kümesine yüksek dereceli açıklama getirmektir

    “Süreç” ise, VTBK’nin birçok adımdan ve çeşitli iterasyonlardan oluştuğunu göstermektedir. Bilgi keşfinin belirli bir güven düzeyinde, yeni veriler için geçerli olması, süreç sonunda elde edilen bilginin ise, iş konusunda çeşitli avantajlara olanak sağlayacak şekilde faydalı ve anlaşılır olması gerekmektedir.



    cloud
    Geleneksel sorgu veya raporlama araçlarının veri yığınları karşısında yetersiz kalması, Veri Tabanlarında Bilgi Keşfi-VTBK adı altında, sürekli ve yeni arayışlara neden olmaktadır. Şekil 1 de görülen VTBK süreci içerisinde, modelin kurulması ve değerlendirilmesi aşamalarından meydana gelen Veri Madenciliği (Data Mining) en önemli kesimi oluşturmaktadır.


    • Veri tabanlarında bilgi keşfi işlemleri, son yıllarda veri tabanına sahip çevrelerde büyük ilgi toplamaktadır. Bunlara örnek olarak büyük marketler, bankalar, sosyal güvenlik kuruluşları gösterilebilir. Bu tür büyük veri tabanlarında amaç, bu büyük veri kümelerini analiz edip, faydalı kalıplara ve bilgilere ulaşmaktır.



    2.2 Veri tabanında bilgi keşfi sürecinin evreleri





    • Problemin tanımlanması

    • Verilerin Hazırlanması,

    • Modelin Kurulması ve Değerlendirilmesi,

    • Modelin Kullanılması,

    • Modelin İzlenmesi



    2.2.1 Problemin Tanımlanması

    Veri madenciliği çalışmalarında başarılı olmanın ilk şartı, uygulamanın işletmenin hangi amacı için yapılacağının açık bir şekilde tanımlanmasıdır. İlgili işletmenin amacı ve problemi üzerine odaklanılmış ve bunlar açık bir dille ifade edilmiş olmalı, elde edilecek sonuçların başarı düzeylerinin nasıl ölçüleceği tanımlanmalıdır. Ayrıca yanlış tahminlerde katlanılacak olan maliyetlere ve doğru tahminlerde kazanılacak faydalara ilişkin tahminlere de bu aşamada yer verilmelidir.




    2.2.2 Verilerin Hazırlanması

    Modelin kurulması aşamasında ortaya çıkacak sorunlar, bu aşamaya sık sık geri dönülmesine ve verilerin yeniden düzenlenmesine neden olacaktır. Bu durum verilerin hazırlanması ve modelin kurulması aşamaları için, bir analistin veri keşfi sürecinin toplamı içerisinde enerji ve zamanının % 50 - % 85’ini harcamasına neden olmaktadır.


    Verilerin hazırlanması aşaması şu aşamalardan meydana gelmektedir;


    • Toplama,

    • Değer biçme,

    • Birleştirme ve temizleme,

    • Örneklem seçimi,

    • Dönüştürme,



    1. Toplama

    Tanımlanan problem için gerekli olduğu düşünülen verilerin ve bu verilerin toplanacağı veri kaynaklarının belirlenmesi adımıdır. Verilerin toplanmasında kuruluşun kendi veri kaynaklarının dışında, nüfus sayımı, hava durumu, merkez bankası kara listesi gibi veri tabanlarından veya veri pazarlayan kuruluşların veri tabanlarından faydalanılabilir.


    b) Değer Biçme
    Veri madenciliğinde kullanılacak verilerin farklı kaynaklardan toplanması, doğal olarak veri uyumsuzluklarına neden olacaktır.

    Bu uyumsuzluklardan başlıcaları ;




    • Farklı zamanlara ait olmaları,

    • Kodlama farklılıkları (örneğin bir veri tabanında cinsiyet özelliğinin e/k, diğer bir veri tabanında 0/1 olarak kodlanması),

    • Farklı ölçü birimleridir.

    Ayrıca verilerin nasıl, nerede ve hangi koşullar altında toplandığı da önem taşımaktadır.


    Bu nedenlerle, iyi sonuç alınacak modeller ancak iyi verilerin üzerine kurulabileceği için, toplanan verilerin ne ölçüde uyumlu oldukları bu adımda incelenerek değerlendirilmelidir.
    c) Birleştirme ve Temizleme
    Bu adımda farklı kaynaklardan toplanan verilerde bulunan ve bir önceki adımda belirlenen sorunlar mümkün olduğu ölçüde giderilerek veriler tek bir veri tabanında toplanır. Ancak basit yöntemlerle ve baştan savma olarak yapılacak sorun giderme işlemlerinin, ileriki aşamalarda daha büyük sorunların kaynağı olacağı unutulmamalıdır.
    d) Örneklem Seçimi
    Bu adımda kurulacak modele bağlı olarak veri seçimi yapılır. Örneğin tahmin edici bir model için, bu adım bağımlı ve bağımsız değişkenlerin ve modelin eğitiminde kullanılacak veri kümesinin seçilmesi anlamını taşımaktadır. Sıra numarası kimlik numarası gibi anlamlı olmayan değişkenler çıkarılmalıdır. Yanlış veri girişinden veya bir kereye özgü olaylardan oluşan veri kümeleri çıkarılır. Modelde kullanılan veri tabanı çok büyük ise uygun bir örnekleme yöntemi kullanılır.
    e)Dönüştürme
    Veriler arasında dönüşüm yapılır.
    Örneğin; Kredi riskinin tahmini için geliştirilen bir modelde, borç/gelir gibi önceden hesaplanmış bir oran yerine, ayrı ayrı borç ve gelir verilerinin kullanılması tercih edilebilir. Ayrıca modelde kullanılan algoritma, verilerin gösteriminde önemli rol oynayacaktır. Örneğin bir uygulamada bir yapay sinir ağı algoritmasının kullanılması durumunda kategorik değişken değerlerinin evet/hayır olması; bir karar ağacı algoritmasının kullanılması durumunda ise örneğin gelir değişken değerlerinin yüksek/orta/düşük olarak gruplanmış olması modelin etkinliğini artıracaktır.


        1. Modelin Kurulması ve Değerlendirilmesi

    Tanımlanan problem için en uygun modelin bulunabilmesi, olabildiğince çok sayıda modelin kurularak denenmesi ile mümkündür. Bu nedenle veri hazırlama ve model kurma aşamaları, en iyi olduğu düşünülen modele varılıncaya kadar yinelenen bir süreçtir.


    1   2   3   4   5   6   7   8






        Ana sayfa


    Veri madenciLİĞİne giRİŞ Veri Madenciliği Nedir?

    Indir 257.4 Kb.