bilgiz.org

Veri madenciLİĞİNİn geleceğİ

  • 8. BAŞARIM
  • 9. SONUÇ



  • Tarih29.06.2017
    Büyüklüğü114.33 Kb.

    Indir 114.33 Kb.


    VERİ MADENCİLİĞİNİN GELECEĞİ
    Ahmet Güven* , Ö.Özgür Bozkurt,* ve Oya Kalıpsız*
    (*) Yıldız Teknik Üniversitesi, Bilgisayar Mühendisliği Bölümü, Yıldız, İSTANBUL

    guven@ges.net.tr, ozgurb@yildiz.edu.tr , kalipsiz@yildiz.edu.tr


    ÖZET

    Giderek artan miktarda veri ve doküman üretilmektedir. Bilgi toplumunun önemli bir ayağı, bu veri ve dokümanları kullanarak bilgi üretmektir. Bu veri yığınlarının pek çoğu şimdiye kadar hakkında yazı yazılmış konular veya bu konular arasındaki ilişkiler üzerinedir. Artık bir konu hakkında genel bilgiye erişim değil, o konunun alt konuları veya diğer konularla ilişkileri ile ilgili bilgilere ulaşmak önemlidir. Bu gerçek, doğru bilgiye erişim alanında yeni ihtiyaçları ortaya çıkarmaktadır. Veri madenciliği alanında gerçekleştirilen gelişmeler, eldeki verilerden yepyeni faydalı bilgiler oluşturmak için gerekli çözümleri sunmaktadır. Bu makalede veri madenciliği alanının gelecek nesil çözümlerini oluşturacak temel verilecektir.Daha sonra doküman madenciliği konusunda, geleneksel bilgiye erişim çalışmalarının eksiklerini gideren Gizli Anlambilimsel Dizinleme (GAD) yöntemi, bu yöntemin harflere uygulanan n-gram yaklaşımının kelimelere 2-gram ve 3-gram olarak uygulanması ile iyileştirilmiş hali anlatılarak önerilen çözüm ve başarım değerleri verilecektir.


    Anahtar Kelimeler: Veri madenciliği, doküman yönetim sistemi, demetleme, metin madenciliği, bilgiye erişim, kümeleme, yarı yapısal doküman madenciliği, Gizli Anlambilimsel Dizinleme



    FUTURE OF DATA MINING

    ABSTRACT

    Amount of data and number of documents being created increases at an increasing pace. One of the most important steps in being a knowledge society is to produce knowledge by using these data and documents. One important issue with these the new data documents is their being in already known topics and little of them are introducing new concepts. This fact has started a new era in information retrieval where the requirements have their own specialties. That is digging into topics and concepts and finding out subtopics or relations between topics. Developments in data mining era promise new solutions for producing almost new knowledge. This article will present the base that will allow next generation solutions in data mining field. In the second part, we are proposing to enhance LSI, one of the proven IR techniques by supporting its vector space with ngram forms of words . Positive results we have obtained will be shown.


    Keywords: Data mining, document management systems, clustering, document mining, text mining, information retrieval, semi structured document mining, Latent Semantic Mining.


    1. GİRİŞ

    Temel olarak dört alanda meydana gelen gelişmeler veri kaynaklarını bulma, onları sorgulama, sorgulanan verileri derleme ve verilerden bilgi üretmek için analiz yapma konusunda yeni fırsatlar ve araştırma konuları doğmasına neden olmaktadır:




    1. Veri işleme ve saklama alanındaki teknolojik gelişmeler gün geçtikçe artmakta ve daha fazla veriyi daha kısa sürelerde işlememize olanak sağlamaktadır.

    2. Bilgisayar penetrasyonu üçüncü dünya ülkeleri de dahil yıllar içerisinde artmakta ve gün geçtikçe daha fazla kişi daha fazla dijital ortamda çalışmaya başlayarak daha fazla dijital veri üretmektedir.

    3. İletişim teknolojileri ve internet gibi altyapılar hızla tüm dünyayı sarmakta, yer ve zamandan bağımsız bir yaşam şekli gelişmektedir.

    4. İnsanlar daha hızlı ve doğru karar almak için veriye dayalı bir araştırma, inceleme ve muhakeme kültürünü benimsemektedir.

    Veri madenciliği bu gelişmelere paralel doğmuş ve veri yığınları içindeki önceden keşfedilmemiş ilişkileri bulmaya odaklanmış sıcak bir araştırma alanıdır. Ancak tamamen yeni bir alan değildir.


    2. VERİMADENCİLİĞİNİN GEÇMİŞİ
    2.1 Veriye dayalı analiz
    Gerçekte bilimsel araştırmaların yapıldığı tüm disiplinlerin temelinde bilimsel araştırma süreci ve bilimsel bilgi edinme süreci önemli bir yer tutar. Bilimsel araştırma sürecinin adımları şunlardır :


    1. Karşılaşılan sorunun belirlenmesi

    2. Gereksinim duyulan verinin belirlenmesi

    3. Veri kaynaklarının saptanması

    4. Verinin derlenmesi için kullanılacak tekniklerin kararlaştırılması

    5. Verinin derlenmesi ve işlenmesi

    6. Çözümleme sonuçlarının yorumlanması

    7. Sonuçların karar vericilere iletilmesi

    Bu sürece bağlı olarak araştırmalarını yürüten araştırıcılar, araştırma konularıyla ilgili verileri, değişik kaynaklardan toplayıp, bunları düzenleyip daha sonra bu veriler arasındaki ilişkileri inceleyerek tezler oluşturmuşlar ya da oluşturdukları tezleri ispatlamaya çalışmışlardır.


    Bu süreç, veri madenciliği yada ilk zamanlardaki kullanımıyla bilgi keşfi süreciyle örtüşmektedir. Ancak veri madenciliğini özel yapan en başta bahsedilen gelişmelerin etkileridir. Geçmişte dünyanın değişik coğrafyalarında, çoğunlukla basılı formda bulunan verileri aramak, bulmak, bir araya getirmek ve derlemek için ciddi bir zaman ve emek gerekirken bugün bilgisayar kullanımının yaygınlaşması ile basılı formadaki her verinin bir dijital karşılığı bulunmaktadır. Dijital formdaki verinin sorgulanması, bulunması ve taşınması internet gibi altyapılar sayesinde saatler mertebesine düşmüştür ve toplanan verileri saklamak ve oluşturulan veri yığınları üzerinde işlem yapmak için yeterli teknoloji hazırdır.
    Görüldüğü üzere bugün ayrı bir araştırma konusu haline gelen veri madenciliği çalışması uzun yıllardan beri pek çok disiplin içinde, kısıtlı amaçlara uygun kullanılmıştır ama birkaç farkla. Bu disiplinlerdeki araştırmaların kapsamında gereken verinin miktarı büyük değildir ve veriler çoğunlukla sınırlı konuda az boyutludur. Bu farka rağmen veri madenciliği çalışmalarında kullanılan teknikler ve algoritmalar bu disiplinler tarafından bulunmuş ve kullanılmıştır. Şekil 1 ‘de veri madenciliği konusuna etki eden disiplinler gösterilmiştir.
    Veri madenciliği konusu günümüzde bilgi keşfi (Knowledge discovery) ile değişimli olarak kullanılmaktadır.
    1990’lı yılardan itibaren veri madenciliği konusu veri yoğun araştırma alanlarında bilgi keşfi ismiyle kullanılmaya başlanmıştır. İlk yıllar çoğunlukla veritabanlarındaki veriler üzerinde yürütülen çalışmalar zamanla veritabanında tutulmayan verileri de kapsayacak şekilde genişlemiştir. Geçmiş tüm bu çalışmaların değerlendirilmesi veri madenciliğinin geleceğini konusunda fikir vermesi açısından önem taşır.

    .





    2.2 Veri Madenciliği Çalışma Alanları
    Veri madenciliği konusunda şimdiye kadar yürütülen çalışmalar göz önünde bulundurulduğunda bir harita çıkarılabilir. Bu harita hem veri madenciliği konusunda yürütülen araştırmaları anlamada hem de bu araştırmaların yarattığı trendleri ve ihtiyaçları anlamada yardımcı olur. Veri madenciliğindeki trendler yeni araştırma konularını anlamak ve belirlemek için önemlidir. Böyle bir haritayı Şekil 2’de görmek mümkündür



    Şekil 2



    Veri madenciliği teknikleri iki amaç için kullanılır.
    Tanımlama : incelenen veri kümesinin tamamı için ya da bu veri kümesindeki bir alt küme için geçerli bir ilişkinin tanımlanmasını sağlayan tekniklerdir ve genelde daha önceden bilinmeyen ilişkiler üzerinde durduklarından önemlidirler

    Tahmin etme : Eldeki veri kümesinin incelenmesiyle, veri kümesinin kapsamındaki konuyla ilgili gelecekte neler olabileceğini tahmin etmeye yarayan tekniklerdir.


    Veri madenciliği ilk başlarda doğal olarak büyük veri kümeleri oluşturan alanlarda kullanılmıştır. Örneğin uzaydan uyduların gönderdiği fotoğrafların incelenmesinde. O kadar çok fotoğraf gelmektedir ki bunları insan gücü ile incelemek olanaksızdır. Şekil tanıma, sınıflandırma ve kümeleme gibi teknikler bu alanda çok yaygın kullanılmaktadır. Meteorolojik veriler, gen araştırmalarında oluşturulan veriler aynı şekilde doğal olarak bilgisayar teknoloji kullanılmadan işlemeyecek büyüklüktedirler. Konuya özel veri madenciliği çalışmalarının doğmasına neden olan bu gelişmeler göstermiştir ki veri madenciliğinden istifade edebilmek için konuya özel detayları içeren algoritmaların kullanımı gerekmektedir.
    Veri madenciliği ilk zamanlar merkezi olarak toplanmış statik verilerin analizinde kullanılmıştır. Beklenenin ötesinde yararların elde edilmesi bu tekniklerin akan veriler ve sürekli değişen dinamik veriler üzerinde de kullanılmak istenmesini doğurmuştur. Bu yönde çalışmalar halen sürmektedir.
    Veri madenciliği çalışmalarını verinin nerde olduğu, biçimi ve niteliği gibi etkenler de etkilemektedir. Özellikle ilişkisel veritabanlarındaki verilerin analizi için kullanılan teknikler artık web sayfalarının, yarı yapısal tabir edilen dokümanların analizi gibi alanlarda kullanılmakta ve değişik yaklaşımların doğmasını sağlamaktadır.
    Bu haritadan da anlaşılacağı gibi veri madenciliği çalışmalarını birden fazla katmanda algılamak doğru olacaktır. Tez konusu önerisinin oluşturulmasında bu haritanın katkısı büyüktür. “Dağıtılmış Etkileşim Ortamları Yaratmak İçin, Ontolojik Bir Yaklaşımla Veri Madenciliği Algoritmalarının Kullanılması” konusu gerçekte veri madenciliği konusunda araştırma konusu olarak sıcak gündemi oluşturan alanların birkaçına birden cevap verebilecek niteliktedir.
    Dağıtılmış yada dağıtık ortamlar günümüzdeki trendlere uygun bilgi işlem altyapısını anlatmaktadır. Evlerde birden fazla bilgisayara rastlamak artık sıradan hale gelmiştir. İş hayatında bilgisayar kullanmayan beyaz yakalı neredeyse kalmamıştır. Okullarda ve hemen hemen toplumsal hayatın yaşandığı her yerde bilgisayarlaşma hızla devam etmektedir. İnsanlar bu bilgisayarları kullanarak veri ve bilgi üretmekte, bu veri ve bilgileri birbirleri ile internet gibi kontrolsüz ortamlarda paylaşmakta, başkalarının bu bilgi ve verilere ulaşmasını sağlamak için kendi bilgisayarlarını kullanmaktadır. “P2P (Peer to peer) Computing” yani bire bir bilgi işlem teknolojileri hızla yaygınlaşmaktadır.
    Daha entegre sistemlere gidilme gereksinimi artmakta, pek çok süreç bilgisayar destekli hale getirilmekte ve otomatize edilmektedir. Dağıtık ortamlardaki sistemleri kapsayan süreçlerin otomasyonu bilgisayarların kendi aralarında konuşma gereksinimi artmaktadır. Kişiler arası iletişim konusunda Acar Baltaş’ın şu ifadesi iletişimin zorluklarını anlatmaktadır.
    “İletişim orta çapta bir mucizedir. Kişinin kafasında olanla, onu kelimelere dökmesi, kelimelerin karşı tarafa iletilirken doğru sırada olabilmesi, karşı tarafın kelimeleri alması ve bunları kendi birikimlerine göre değerlendirmesi esnasında hep kayıp vardır.”
    Bu temel sorun bilgisayar arasındaki iletişim için de geçerlidir. İletişim kavramlar aracılığıyla gerçekleşir. Kavramların ve kavramlar arasındaki bağlantıların taraflar tarafından daha önceden doğru algılanmış olması önemlidir çünkü taraflardan biri bir A kavramını a kelimesini ile ifade ederken, diğeri B kavramını a kelimesi ile ifade ediyor olabilir. İletişimdeki bu sorunu gidermek için ontolojiler kullanılmaktadır. İnsanların farklı diller arasında aynı kavramları ve bağlantıları ifade etmekte kullanılan kelimeleri sorgulamak için sözlük kullanması kafidir çünkü kişi kendi dilindeki kelimeyi öğrenmekle arkasındaki kavramı da öğrenmektedir. Ancak buradaki varsayım kişinin kendi dilindeki kelimenin tanımladığı kavramı, bu kavramın kapsamını ve bu kavramın diğer kavramlarla olan bağlantılarını bildiğidir. Bilgisayarlar arasındaki iletişim için, ölçeklenebilir, genişletilebilir, adapte edilebilir , kavramsal seviyede bir iletişim metoduna ihtiyaç vardır ve uzun yıllar yapay zeka konusundaki çalışmalar bu metodun ontoloji kullanılarak yapılabileceğini göstermiştir. Ontoloji kullanımının en zor yanı evrensel ontolojiler oluşturmanın gerektirdiği emektir ve bu konuda uzun yıllardır yürütülen çalışmalara rağmen sadece belirli alanlar için kullanılabilecek ontolojilere ulaşılabilmiştir.
    Veri kaynakları ve buna bağlantılı olarak verinin kendisi hızla artmaktadır. Verilerin analizi ile insan tarafından ortaya çıkarılmış değerli bilgiler olmasına rağmen artık günümüzün veri yığınlarının insanlar tarafından analiz edilebilmesi mümkün değildir. Bu işlemin otomasyonu olarak değerlendirilebilecek veri madenciliği çalışmaları giderek daha fazla alanda kullanım alanı bulmaktadır. Örneğin

    Kredi kartı yolsuzluklarının tesbiti

    Alış-veriş sepeti analizi

    Müşteri segmentasyonu ve müşteri ilişkileri yönetimi

    Elektronik ticaret – web sitelerindeki gezinme patikaları analizleri

    Karar destek



    Veri yığınlarının niteliklerine göre sınıflandırılması yapısal, yarı yapısal ve yapısal olmayan şeklindedir. İstatistiklere göre tüm verilerin % 80’i yarı yapısal verilerdir. Bu verilerden kasıt içerisinde metin, resim, grafik vs olan dokümanlardır. Dokümanlar pek çok bilgi işçisi tarafından belirli konulara özel olarak üretilen ve çoğunlukla birkaç kişi tarafından incelenmiş ve kişilere ait bilgisayarda muhafaza edilen veri kümeleridir. Pek çok farklı formatta olabilir. Sade metin, Adobe Acrobat, MS Word, HTML, XML vs. ve internet üzerinden http veya ftp protokolü vasıtasıyla erişilebilir durumda olabilirler. Bu tip verilerin büyük çoğunluğu sık sık değiştirilebilir. Bu kategorideki verileri analiz etmek çok değerli ilişkilerin yakalanmasını sağlayabilir. Kişisel bilgisayarlardan bu verileri merkezi bir ortama aktarmak veri kaynaklarının çokluğu, dokümanların dinamikliği ve gerekecek saklama ve işleme kapasitesinin büyüklüğü nedeniyle mümkün değildir. Sonuç olarak bu tip verilerin dağıtık ortamda yaşamlarını devam ettirirken analiz edilmeleri sağlanmalıdır. Veri analizi konusunda başarısı kanıtlanmış ancak merkezi veri depoları üzerinden çalışan veri madenciliği algoritmaları da bu gereksinim kapsamında dapıtık çalışabilecek şekilde yeniden düzenlenmelidir.
    Bilgisayar dünyasında standartlaşma birlikte çalışabilirlik, genişleyebilirlik için önemlidir. Günümüz internet ortamında verilere ulaşmak için çeşitli araçlar bulunmakta ve bunlar giderek gelişmektedir. Ancak internet ortamındaki içeriğin sorgulanması ve özetlenmesi konusundaki gereksinime tam anlamıyla cevap verebilecek bir teknoloji yoktur. İnternet ortamındaki içeriğin anlamının sorgulanmasını sağlayacak altyapı çatıları üzerinde çalışılmaktadır. “Semantic Web” ismiyle tanımlanan bu çalışmalarda ontolojiler önemli bir bileşendir ve bu çatıdaki her öğe gibi ontoloji öğesine dair standartlar geliştirilmektedir.
    İnternet üzerindeki verilere ve servislere ulaşılması için bugün kullanılan yöntemler tüm internet içeriğine ait verilerin merkezi bir veri saklama ortamına alınıp incelenmesi prensibine dayanır. Ancak bu yöntem sürekli yeni veri kaynakları ile genişleyin, mevcut veri kaynaklarının da sürekli değişmesi ile dinamik bir nitelik taşıyan dağıtık internet ortamında çok işe yaramamaktadır. Bunun yerine her veri kaynağının kendisine ait veriler ve servisleri anons etmesi ve bu servislere yada verilere ihtiyaç duyanların, bu anonsları derleyen dağıtık birimleri sorgulaması ön görülmektedir ve “web servisleri” ismiyle bir takım teknolojiler standartlaştırılmıştır.
    Bu gibi yeni geliştirilen standartlara dayalı, veri kaynaklarının sorgulanamayan %80’lik kısmını analiz etmeyi sağlayacak ve bunu yaparken verilerin dinamikliği gerçeğini ihlal etmeyecek bir yöntem geliştirilmesi gerekmektedir.
    3. METİN VERİ MADENCİLİĞİNİN ÖNEMİ VE SORUNLARI
    Özellikle Internet ve kişisel bilgisayarların yaygınlaşmasına bağlı olarak, gittikçe büyüyen hacme sahip doküman yığınları oluşmaktadır. Bu yığınlar içinde önemli bilgiler kaybolup giderken, değerli bilgilere ulaşmak için dokümanların içeriğinin belirlenmesi ve buna uygun sorgulanabilmesi ihtiyacı kendini hissettirmektedir.
    Bilgisayarlı sistemlerden önce, dokümanlar içindeki bilgiye erişim için elle indeksleme sistemleri kullanılıyordu. 1996-2001 yılları arasında yayınlanan 164.000 periyodik yayın olduğu düşünülürse, elle indekslemenin ne denli yavaş, zor ve yetersiz olduğunu anlaşılabilir. Şu an Internet’te 2 milyardan fazla web sayfası bulunmaktadır. Bu kadar çok dokümanın elle indekslenmesinin ve bu indekslerin güncellenmesinin zorluğunun yanı sıra, elle yapılan indeksleme uzmanların subjektif yorumlarını da içerdiğinden, aranılan bilgilere ulaşmayı kolaylaştıramamanın ötesinde, yanıltıcı sonuçlara da neden olabilmektedir.
    Bu problemleri aşmak için otomatik bilgiye ulaşma yöntemleri geliştirilmiştir. Bu yöntemler yarı-yapısal verilerin madenciliği yada doküman veri madenciliği adı altında incelenmektedir.
    Geleneksel bilgiye ulaşma yöntemleri, doküman yığınları içinden ana konu başlıklarına yönelik aramaları başarılı bir şekilde karşılayabilmektedir. Örneğin Google arama motoru, en başarılı araçlardan biri olarak, “müşteri ilişkileri yönetimi” gibi bir ana konuyla ilişkili dokümanları sorunsuz bir şekilde sorgu sonucu olarak getirmektedir. Ancak, arama yapılan doküman sayısı artıkça, sorgu neticesinde gelen doküman sayısı binlerle ifade edilir hale gelebilmekte, bunun sonucu olarak da daha özel ihtiyaçları karşılayabilecek çözümlere ihtiyaç duyulmaktadır. Örneğin “müşteri ilişkileri yönetiminin işletme verimliliğine etkisi” gibi bir konunun sorgulanması ihtiyacı doğabilmektedir.
    Google gibi sistemler, dokümanları, içindeki kelimelerle; dokümanların arasındaki ilişkileri de bu kelimelerin tüm doküman yığını içindeki istatistiki kullanım örüntüleri ile ifade etmektedirler Kelimeleri baz alan bu sistemler otomatik indeksleme yapabildiklerinden, dokümanların madenciliği açısından büyük kolaylıklar sağlamaktadır. Ancak bu sistemler belirli kısıtlara da sahip olmuşlardır.
    İlk kısıt yazarların dokümanları oluştururken kullandığı kelimelerle, bu dokümanlar içinde arama yapmak isteyen kişilerin sorgu ifadelerinde kullandıkları kelimelerin birbirinden farklı olabilmesidir. Bunun nedeni kelimelerin çokanlamlı ve/veya eşanlamlı olabilmesidir. Benzer şekilde farklı kültürlerde veya farklı disiplinlerde aynı kelimelerin farklı kavramları ifade edecek şekilde kullanılması durumu da bu kısıtın başka bir boyutudur. Bu nedenle, kelimeler her zaman aynı anlamı taşımayabilir. İlerde anlatılacak Gizli Anlambilimsel Dizinleme (GAD) yöntemi bu kısıtı ortadan kaldıran bir çözümdür.
    İkinci kısıt kelimelerin tek başlarına taşıdığı anlamın dışında yan yana kullanımları ile bambaşka anlamlar ifade edebilmesi durumudur. Bu çalışma kapsamında geliştirilen n-gram kelimelerle GAD yöntemi ile, bu kısıt ortadan kaldırılarak, daha detay konularda arama yapmayı sağlamak mümkün hale getirilmiştir.
    Üçüncü kısıt mevcut sistemlerin kelimelerin anlama kattığı değeri hesaplamak için sadece ne sıklıkla kullanıldıklarına bakmasıdır, oysa kelimelerin dokümanların anlamını ifade etmede diğerlerinden daha etkili olduğu farklı durumlar da vardır. Örneğin Türkçe cümlelerde fiile yakın kelimeler anlam açısından daha önemlidir. n-gram kelimelerle GAD yönteminin kullandığı kelime grubu oluşturma yaklaşımı ile bu kısıt için de bir çözüm oluşturmaktadır.
    Doküman madenciliği için kullanılan teknikler iki ana dalda incelenebilir.

    • eğitmenli sistemler

    • eğitmensiz sistemler

    Eğitmenli sistemler, önce bir deney seti ile girdi ile çıktı arasındaki ilişkiyi öğrenen ve daha sonra kendisine verilen girdi için uygun çıktıyı üreten sistemlerdir. Bu gibi sistemlerin başarısı, öğrenme süreçlerinin doğruluğuna bağlıdır ve sürekli genişleyerek büyüyen doküman yığınlarına uygulanmaları zordur.


    Eğitmensiz sistemler ise, eğitmenli sistemlerdeki, sistemin eğitilmesi için yapılan işlemleri içermez. Bu sistemler doğrudan doküman seti üzerinde çalışır. Eğitmensiz sistemlerin her türlü doküman yığını üzerinde hiçbir ön işlem yapmadan çalıştırılabilmesi, eğitmenli sistemlere göre büyük esneklik sağlar.
    Bu çalışmada önerilen sistem eğitmensiz bir sistemdir.

    4. VEKTÖR UZAY MODELİ
    DARPA tarafından finanse edilen araştırmalarla başlayan otomatik bilgiye ulaşma çalışmalarının ilk adımı, dokümanların bilgisayar ortamında incelenmesini sağlayacak bir yapıda modellenmesi olmuştur. Bu amaçla geliştirilen yöntemlerden biri vektör uzay modelidir. Bu modelde her doküman, anlamını ifade eden anahtar kelimelerden oluşan bir vektörle ifade edilir. Bu kelimeler vektörün n boyutlu uzaydaki koordinatları gibidir. n, doküman yığını içindeki tüm dokümanların anlamlarını ifade eden kelimelerin sayısıdır. Doküman vektörü elemanlarının değerleri ise, ilgili kelimenin doküman anlamına ne kadar katkı yaptığını gösteren sayısal bir değerdir. Bu değer kabaca o kelimenin o dokümanda ne kadar kullanıldığına bakılarak üretilir. Fazla kullanılması anlama etkisinin fazla olduğunu gösterir.
    Bu model sayesinde dokümanların konu itibariyle birbirlerine benzerliği, vektör uzayındaki karşılıkları olan vektörlerin birbirine vektörel yakınlığı hesaplanarak tespit edilebilmiştir.
    Vektör uzay modeli iki büyük kısıt taşır. Birincisi büyük doküman yığınlarının oluşturacağı vektör uzayındaki boyut sayısının (n) büyüklüğüne bağlı olarak doküman vektörleri arasındaki yakınlığın hesaplanmasının zorluğudur. İkincisi ise eşanlamlı/çokanlamlı kelimelerin, dokümanlar arasında olan/olmayan ilişkiyi yok/var gibi göstermesidir.
    Vektör uzay modeli, n adet kelime ve d adet dokümanı, n x d boyutlarında bir matris olarak ele alır. Bu matrisin boyutları arttıkça, üzerinde hesaplama yapabilmek için daha fazla bilgi işlem gücü ve hafıza gerektirdiğinden, bu matrisi daha az boyut ile ifade edebilmek amacıyla çalışmalar yapılmış ve Gizli Anlambilimsel Dizinleme yöntemi geliştirilmiştir. Matris, boyutlarının azaltılmasının, matematiksel anlamı matrisin düzeyinin düşürülmesi; doküman madenciliği açısından anlamı da konu dışı kelimelerin vektör uzayından temizlenmesidir.

    5. GİZLİ ANLAMBİLİMSEL DİZİNLEME

    GAD yöntemi dokümanları içerdikleri kelimelere göre değerlendirirken, aynı zamanda doküman kümesini de bir bütün olarak ele almaktadır. Bu şekilde, bir dokümanda yer alan kelimelerin başka hangi dokümanlarda yer aldığını ve diğer dokümanlarda bu kelimelerle birlikte kullanılan başka ortak kelimeleri de göz önünde bulundurur. Vektör uzay modelini kullandığından, ortak kelimeler içeren dokümanların mantıksal olarak benzeştiğini, ortak kelimeler içermeyen dokümanların konu olarak farklı olduğunu ortaya koyabilmektedir. Bu yöntem, insanların bir doküman yığınını incelerken dokümanlar ve aralarındaki ilişkiyi anlamak için kullandıkları yönteme çok yakındır; tek fark GAD algoritmasının bunu kelimelerin anlamını bilmeden yapmasıdır.


    GAD yöntemi ile indekslenmiş bir veritabanında yapılan aramada, içeriği ifade etmek için seçilmiş tüm kelimelerin benzerlik değerlerine bakılır ve aranan anahtar kelime veya kelimelerin en yüksek benzerlik değerine sahip olduğu dokümanlar arama sonucu olarak döner. Herhangi iki doküman, ortak kelimelere sahip olmasalar da anlamsal olarak aynı olabileceğinden, GAD aranan anahtar kelimelerin indekslenmiş dokümanlarda birebir bulunup bulunmadığına bakmaz. Bu sayede daha gerçekçi bir arama işlemi yapılmış olur.
    Örneğin, matematik konusunda yazılmış dokümanlardan oluşan bir doküman kümesi GAD yöntemi ile indekslenmiş olsun. Bu kümeyi oluşturan dokümanlarda “matris”, “lineer cebir”, “doğrusal cebir“ kelimeleri yeteri kadar dokümanda yer alıyorsa, bu kelimelerin anlamsal olarak birbirlerine yakın olduğu sonucuna ulaşılır. Matris anahtar kelimesini içeren dokümanları bulmak için başlatılan bir arama işlemi sonucunda, matris kelimesini içermeyen, ama, lineer cebir ve/veya doğrusal cebir kelimelerini içeren dokümanlar da yanıt olarak döner. Görüldüğü gibi arama mekanizması matematik konusunu bilmediği halde yeterli sayıda dokümanı inceleyerek matematik konusunda kullanılabilen kelimeleri öğrenerek arama işlemini buna göre yapmaktadır.
    Yukarıdaki örnekten de görüldüğü gibi GAD yöntemi, aranmakta olan ifadelerin anlamlarını bilmeden anlamlarına göre aramayı sağlayacak bir yaklaşım sunmaktadır. Bu sayede, konu ve dilden bağımsız olarak dokümanlar indekslenebilir ve geleneksel arama yöntemlerinin ötesinde bir fayda sağlayacak şekilde dokümanlara erişim sağlanabilir.
    6. N-GRAM METODU

    N-gram yöntemi, bir metnin hangi dilde yazıldığını bilgisayar tarafından belirleyebilmek amacıyla kullanılır. Bunu kelimeleri oluşturan harflerin yan yana gelme örüntülerine bakarak yapar. Örneğin bilgisayar kelimesinin n-gramları:


    2-gram

    b bi il lg gi is sa ay ya ar r


    3-gram

    b bil ilg lgi gis isa say aya yar r


    her dilin kelimelerinin 2-gram, 3-gram gibi n-gram kalıpları farklıdır. Bu yaklaşımla bir metnin hangi dille yazıldığı belirlenebilir.
    7. GAD İLE N-GRAMIN BİRLEŞTİRİLMESİ

    Kelimelerin cümle içinde fiile yakınlığına bağlı olarak, anlama kattığı değer farklılaşmaktadır. Örneğin “Ahmet bugün camı kırdı” cümlesinde vurgu cam üzerinedir. “Ahmet camı bugün kırdı” dersek vurgu zaman üzerinde odaklanmaktadır. Aynı cümleyi “Bugün camı Ahmet kırdı” şeklinde kurduğumuzda ise anlam Ahmet üzerine yoğunlaşır. Görüldüğü gibi dört kelimeden oluşan basit bir cümlenin kelimelerinin yerlerini değiştirdiğimizde, vurgulanmak istenen farklılaşabilmektedir.


    Diğer bir husus da kelime gruplarının, kendilerini oluşturan kelimelerden daha farklı bir anlam içermesinde ortaya çıkar. Mesela “kurt adam öldü” cümlesindeki “kurt adam” ile “kurt adam öldürdü” cümlesindeki kurt ve adam kelimeleri tamamen farklı anlamlarda kullanılmıştır.

    N-gram metodunun kelimelere uygulanması ile GAD yönteminin bu eksikliklerini gidermek mümkündür. Bu sayede daha güçlü bir bilgiye ulaşma yöntemi ortaya çıkarılarak, giderek büyüyen doküman yığınlarından amaca uygun bilgi çıkarma sonucuna ulaşılmıştır.



    8. BAŞARIM

    Bilgiye erişim alanında Türkçe dokümanlar üzerinde yapılmış çalışmalar sınırlıdır ve önerilen çözümlerin birbiri ile karşılaştırılmasını sağlayacak standart bir doküman kümesi yoktur. Bu nedenle önerilen çözümün başarımını ortaya koymak için ingilizce dokümanlar üzerinde de bir çalışma yapılmıştır. Bu çalışmaların diğer çözümlerle karşılaştırılabilmesi için, bilgiye erişim alanında kabul görmüş ölçütlerden faydalanılmıştır.


    Bu ölçütlerden yaygın olan biri dokümanların kümelenmesi ve oluşturulan kümelerin entropi ve f-measure değerlerinin hesaplanmasına dayanır.

    Bu çalışmada kullanılan algoritmalar Tablo 1 de verilmiştir.




    Algoritma

    Açıklaması

    Tfidf_GAD_HK

    GAD tabanlı hiyerarşik kümeleme (Tfıdf tabanlı vektör uzayı)

    Tfidf_ngram_GAD_HK

    n-gram destekli GAD tabanlı hiyerarşik kümeleme (Tfıdf tabanlı vektör uzayı)

    Tablo 1. Karşılaştırma için kullanılan algoritmalar
    13 sınıfta kümelenmiş 615 Türkçe dokümana ait entropi ve f-measure ölçümleri Tablo 2 ve Tablo 3 de gösterilmektedir. Bu tablolarda verilen değerlerin Şekil 3 ve Şekil 4 de verilen grafiklerde yorumlanmıştır.


    Küme sayısı

    Tfıdf_GAD_HK

    Tfidf_ngram_GAD_HK

    5

    10

    15

    20

    25

    30

    35

    40




    0,926381306

    0,834725048

    0,795165679

    0,700502409

    0,660731649

    0,594019001

    0,571697287

    0,534692964




    0,90608821

    0,73937549

    0,65872017

    0,59382918

    0,54026323

    0,48636027

    0,46587803

    0,42687611




    Tablo 2. Türkçe Doküman kümesi için entropi ölçümleri


    Küme sayı

    Tfıdf_GAD_HK

    Tfidf_ngram_GAD_HK

    5

    10

    15

    20

    25

    30

    35

    40




    0,246469381

    0,261534557

    0,269808758

    0,316816249

    0,325498299

    0,331417705

    0,331566884

    0,349225421




    0,26671552

    0,38382652

    0,41365287

    0,39988699

    0,4177481

    0,43376812

    0,39960739

    0,42172488




    Tablo 3 Türkçe Doküman kümesi için f-measure ölçümleri
    .

    Şekil 3: Türkçe doküman kümesi için küme sayısına bağlı entropi değişim grafiği


    Şekil 4: Türkçe doküman kümesi için küme sayısına bağlı f-measure değişim grafiği


    Görüldüğü gibi n-gram kelimelerle GAD yöntemi hem kümelerin homojenliği (düşük entropi değeri) hem de kümeleme işlemenin kalitesi (yüksek f-measure değeri) açısından GAD yöntemine göre ciddi üstünlük sağlamıştır. Türkçe dokümanların normalde 13 sınıfta toplandığı belirtmişti. Bu dokümanların 13 kümeye dağıtımında n-gram destekli GAD daha başarılı olduğu gibi daha fazla kümeye ayrıştırıldığında da daha kaliteli ve homojen kümeler oluşmuştur. Bu; bir kümeye ait dokümanların da kendi içinde farklı konulara ayrıştırılabileceği ve önerilen n-gram kelimelerle GAD yönteminin bu ayrıştırma işlemini çok daha başarılı bir şekilde yaptığı anlamına gelmektedir
    İngilizce doküman seti olarak Reuters21578 setinden rastgele seçilen 20 sınıfa, 1.680 doküman kullanılmıştır. Bu doküman kümesinde 1987 yılında Reuters yayınlarından derlenmiş 20.000 doküman bulunmaktadır [14]. Bu kümeye ait entropi ve f-measure ölçümleri Tablo 4 ve Tablo 5 de; bu tablolara ait grafikler Şekil 5 ve Şekil 6 de gösterilmiştir.


    Küme sayı

    Tfıdf_GAD_HK

    Tfidf_ngram_GAD_HK

    5

    10

    15

    20

    25

    30

    35

    40




    0,926381306

    0,834725048

    0,795165679

    0,700502409

    0,660731649

    0,594019001

    0,571697287

    0,534692964




    0,90608821

    0,73937549

    0,65872017

    0,59382918

    0,54026323

    0,48636027

    0,46587803

    0,42687611




    Tablo 4. İngilizce Doküman kümesi için entropi ölçümleri


    Küme sayısı

    Tfıdf_GAD_HK

    Tfidf_ngram_GAD_HK

    5

    10

    15

    20

    25

    30

    35

    40




    0,246469381

    0,261534557

    0,269808758

    0,316816249

    0,325498299

    0,331417705

    0,331566884

    0,349225421




    0,26671552

    0,38382652

    0,41365287

    0,39988699

    0,4177481

    0,43376812

    0,39960739

    0,42172488













    Tablo 5 İngilizce Doküman kümesi için f-measure ölçümleri

    İngilizce dokümanların kümelenmesi işleminde de önerdiğimiz n-gram kelimelerle GAD yöntemi, normal GAD yöntemine göre çok daha başarılı sonuçlar üretmiştir. Bu setteki dokümanların uzmanlar tarafından 20 grupta sınıflandırıldığı belirtilmişti. Normal GAD yöntemi sadece bu sayıda küme için n-gram kelimelerle GAD yöntemini yakalamıştır ancak bu küme sayısında dahi, kümelerin homojenliği açısından n-gram destekli GAD daha başarılı netice vermiştir



    Şekil 5: İngilizce doküman kümesi için küme sayısına bağlı entropi değişim grafiği


    Şekil 6: İngilizce doküman kümesi için küme sayısına bağlı f-measure değişim grafiği


    9. SONUÇ

    Gerek İngilizce gerek Türkçe dokümanların daha başarılı kümelenmesi için, dokümanlar içindeki kelimelerin yanında kelimelerin yan yana kullanımlarının sistematik olarak işleme katılmasının ortaya koyduğu başarı gösterilmiştir. Bunun anlamı, n-gram kelimelerle GAD yönteminin doküman içeriklerini daha iyi ortaya koymasıdır.

    Bununla birlikte n-gram kelimelerle GAD yönteminin daha da iyileştirilebilmesi mümkündür. Bu yöntemi geliştirmek için bundan sonraki aşamada yapılacak planlananlar iyileştirmeler aşağıda verilen hususlar dikkate alınarak gerçekleştirlecektir :


    • Dokümanların içeriğini yüklem ve yükleme yakın kelimeler şekillendirmektedir. Bu nedenle cümle içindeki yüklem ve yükleme yakın kelimelerin, doküman içeriğini ifade etmek için sahip oldukları değerin daha yüksek olması gerekir.




    • Dokümanların içeriğini ifade etme gücü açısından kelime ve kelime gruplarını değerlendirirken, bunların dilbilgisi açısından yapılarının da önemi ayrıştırılmalıdır. Örneğin bir kelime nesne olarak kullanıldığındaki hali ile sıfat olarak kullanıldığı halinden farklı değerlere sahip olmalıdır.


    10. KAYNAKLAR

    [1] Bellot, P. and El-Beze, M., 1999. A Clustering Method for Information Retrieval, Technical Report IR-0199, Laboratoire d'Informatique d'Avignon,France.


    [2] Berry, M. W., Drmac, Z. and Jessup E. R.,1999. Matrices, Vector Spaces, and Information Retrieval, SIAM Review, v.41 n.2, p.335-362.

    [3] Boley D., 1998. Principal direction divisive partitioning. Data Mining and Knowledge Discovery, 2(4).


    [4] Brown, P. F., Della Pietra, V. J., deSouza, P. V., Lai “Class-based n-gram models of Natural Language”, Computational Linguistics, vol. 18, pp. 467–479, 1992.
    [5] Croft, W.B. and Xu, J., 1995. Corpus-specific stemming using word form co-occurence. In Proceed. for the Fourth Ann. Sym. on Doc. Analysis and Information Retrieval (pp. 147-159), Las Vegas, Nevada.
    [6] Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., and Harshman, R., 1990. Indexing by latent semantic analysis. Journal of the American Society for Infor. Science, 41(6), 391-407
    [7] Duda, R. O., Hart, P. E., and Stork, D. G., 2001. Pattern Classification. Wiley, New York.
    [8] Ekmekcioglu, F. C., Lynch, M. F. and Willett, P., 1996. Stemming and N-gram Matching For Term Conflation In Turkish Texts. Inf. Res., Vol. 2, No. 2.
    [9] Kohonen, T., 1990. “The Self-Organizing Map,” Proceed. of the IEEE, vol. 9, pp. 1464-1479.
    [10] Lingpipe NLP Lib.

    http://www.aliasi.com/lingpipe


    [11] Salton, G. and McGill, M. J., Int. to modern information retrieval. McGraw-Hill
    [12] Willet, P., 1998. Recent trends in hierarchical document clustering: a critical review. Information Processing and Management, vol. 24(5), pages 577—597.
    [13] Zemberek Turkish NLP Lib.

    https://zemberek.dev.java.net/


    [14] “Reuters21578collection”,

    http://kdd.ics.uci.edu/databases/reuters21578/


    [15] Porterstemmer ,

    http://www.tartarus.org/martin/PorterStemmer/


    [16] Manning C. D., Schütze H., 1999. Foundations of Statistical Natural Language Processing.
    [17] Özgür A., Alpaydın E., Unsupervised Machine Learning Techniques For Text Document Clustering.







        Ana sayfa


    Veri madenciLİĞİNİn geleceğİ

    Indir 114.33 Kb.