Predictive Analiz Modeli Oluşturmak için Gerekli 5 Yetkinlik

Predictive Analiz Modeli Oluşturmak için Gerekli 5 Yetkinlik

Bu beş yetkinlik başarılı bir tahmin modeli oluşturmak için gereklidir.

Tahmine dayalı analitik (predictive analytics), değişen ve gelişen bir pazardır. Firmalar, iş analistleri için tasarlanan otomatik öngörücü modelleme araçlarını kullanarak modelleri gittikçe daha kolay kolay hale getirmektedir. Geliştiriciler, açık kaynak pazarlarından makine öğrenme algoritmalarını veya tahmin uygulamalarını oluşturmak için API'ler aracılığıyla otomatik model oluşturmayı kullanabilmekteler.

İşletmeler öngörü yeteneklerini oluşturmakla son derece yoğun bir şekilde ilgilenmektedirler. Veri bilimi ile ilgili yakın tarihli bir araştırmada, ankete katılanların yaklaşık yüzde 35'i önceden predictive (tahmin) analitiğini bir şekilde uyguladıklarını söylemiştir.

Model oluşturmak kolay olsa da, bu geliştirdiğiniz modelin başarılı olması için belli becerilere hala ihtiyacınız olacaktır. Burada, tahmini model oluşturmak isteyen herkes için önemli olan beş yetkinlik var.

#1: Öngörülü bir zihniyetle düşünün.

Tahmine dayalı analitik, açıklayıcı (descriptive) analitiğinden farklıdır. Açıklayıcı analitik, neler olduğunu anlamak için geçmiş verileri kullanmayı içerir. Genellikle, bazı görselleştirme araçlarını veya SQL kullanarak bu verileri kullanır ve istediğiniz şekle sokabilirsiniz. Açıklayıcı analitik için tipik sorular şunlardır: Geçen ay kaç birim sattık? Son ürünümüzün çoğunu hangi bölgede sattık? Zihniyet tamamen reaktiftir. Olmuş olanı açıklar.

Tahmine dayalı analitikte ise zihniyet tamamen proaktiftir. Burada, bir çıktının ya da hedef değişkeninin düşünülmesi önemlidir. Örneğin, İK departmanı, hangi çalışanların şirketten ayrılma riski olduğunu tahmin etmekle ilgilenebilir. Burada sonuç ayrılmak ya da kalmak şeklindedir. Kalmış veya gitmiş olan çalışanların bilinen sonuçlarına dayanan tarihsel veriler, belirli özelliklere sahip mevcut bir çalışanın belirli bir eylemi gerçekleştirme olasılığını anlamak için modeli eğitmek için kullanılır.

Bu, reaktif olan yığınlara ayrılmış veri ile yapılan analitiğe göre oldukça proaktif ve sonuç temelli bir zihniyettir. Bu proaktif zihniyet, cevaplamanız gereken soruyu formüle etmede önemli olacaktır.

# 2: Tahmin tekniklerinin temellerini anlayın.

Kullanılabilir pek çok araç, tahmin modelini oluşturmayı kolaylaştırsa da, kullanmakta olduğunuz tekniklerin temellerini hala anlamanız ve bilmeniz gerekmektedir.

Örneğin, sizden oluşturduğunuz analizinizi savunmanız istenebilir. Ne yaptığınızı veya tekniğin nasıl çalıştığını açıklayamıyorsanız, sonuçlarınızda güven oluşturmak için geçireceğiniz oldukça zor zamanlar olacaktır. Ek olarak, otomatik model oluşturma, bir uygulamanın daha hızlı bir şekilde pazarlanmasına yardımcı olabilir, ancak bu, modelin her zaman doğru olacağı anlamına gelmez. Sahnelerin arkasında neler olup bittiğine dair bir miktar sezgiye sahip olmanız önemlidir, bu yüzden yola düştüğünüzde hazırlıklı olursunuz.

İyi haber şu ki, bir üniversite istatistik dersi aldıysanız, muhtemelen en popüler tekniklerden birinin temelini anlarsınız - regresyon. Diğer popüler teknik ise, karar ağacı gibi birçok tür sınıflandırmalardır (classification). Her algoritmanın güçlü ve zayıf yanlarını açıklayabilmeniz gerekir.

# 3: Değişkenler hakkında eleştirel düşünmeyi bilin.

Eğitim için öngörme algoritmanızı sağladığınız özellikler önemlidir. Veri kalitesinin sağlam olması gerekir (Temel prensibi unutmayın, içeriye çöp girerse, çöp çıkar ! ). Bu, eksik verilerle, aykırı değerlerle ve diğer veri sorunlarıyla nasıl baş edileceğini bilmek anlamına gelir. Aynı zamanda, model için en iyi özelliklerin nasıl seçileceğini bilmek anlamına gelir. Örneğin, kendileriyle ilişkilendirilmiş öznitelikleri (örneğin, Beşiktaş'da yaşayan insanlar İstanbul'da da yaşıyor) dahil etmek istemezsiniz, çünkü bu sadece modeli şaşırtacaktır.

En değerli kestiricilerin (predictor) birçoğu genellikle kendinizin türettikleridir. Tahmin analizinde, tipik olarak verilerin, sonucun iyi tahminleri olabilecek ilginin feature olarak adlandırılan niteliklerini oluşturmak için şekillenmesi gerekecektir. Örneğin, bir süre hesaplamak veya anlamlı bir oran oluşturmak isteyebilirsiniz. Bazı araçlar otomatik olarak basit dönüşümler yapar, bazıları ise yapamaz. Bu beceri, konuya ilişkin uzmanlığın yanı sıra eleştirel düşünmeyi de gerektirir.

Hangi özelliğin sonucunuza etkili olduğunu bir içgörü ile sizin öngörmeniz gerekecektir.

predictive-analiz-modeli-olusturmak-icin-gerekli-5-yetkinlik-1

# 4: Sonuçları nasıl yorumlayacağınızı ve modelleri nasıl doğrulayacağınızı öğrenin.

Verilere sahip bir uygulama geliştirerek bir model oluşturmak güzel bir durumdur. Ancak, bu modele güvenmek için, modelin anlamlı olup olmadığını ve ne kadar iyi olduğunu anlamanız gerekir. Bu da, model metriklerini nasıl yorumlayacağını bilme becerisine sahip olmak demektir.

Örneğin, bir uygulama size bir sınıflandırma modelinizin yüzde 89 doğru (accurate) olduğunu söyleyebilir. Bunun gerçekten ne anlama geldiğini biliyor musun? Bunun iyi olup olmadığını biliyor musun? Modellerin kalitesini yorumlamak için farklı yollara aşina olmak önemlidir. Karmaşıklık (confusion) matrisleri ve kesinlik / geri-çekilme (precision/recall) yanı sıra ROC, kazanç ve kaldırma (gain & lift) çizelgeleri, kök ortalama kare hatası (root mean square error) gibi birkaç yöntem hakkında bilgi sahibi olmalısınız.

Farklı türden metriklerde belirli sorunların ne zaman ortaya çıkacağını da tahmin etmeniz gerekir. Örneğin, bir sınıftan birçok örneğe, diğer sınıftan çok az örneğe sahip olan bir sınıflandırma probleminde, doğruluk ölçütü (accuracy metrics) kullanmak, doğruluk paradoksundan dolayı en iyi seçim olmayabilir. Daha az hassas modellerin daha öngörücü ve farklı olabileceği durumlarda, Precision/recall gibi metrikler, doğruluktan daha iyi olabilir. Yaygın bir örnek, bir dolandırıcılık (fraud) modelinin yüzde 97 oranında doğru olabilir, ancak doğruluk "dolandırıcı olmayanlar (no fraud)" tahmin edilerek yüzde 98' e çıkarılabilir.

# 5: Bir modeli doğrulamanın ne anlama geldiğini bilin.

Cevapları bildiğinizde iyi görünen bir model oluşturmak kolaydır. Bununla birlikte, modelleri yeni verilere karşı doğrulamak önemlidir. Bu çeşitli yollarla yapılır.

Bazı analistler, modeli sınamak için muhtemelen verinin yüzde 20'si gibi bir miktarını tutarlar ve bu veri kümesini kullanırlar. Diğerleri bir test örneği ve ardından bir doğrulama örneği kullanır, çünkü model test sırasında düzeltilebilir. Doğrulama örneği yeni bir veri seti sağlar. Diğer analistler, K-Fold çapraz (cross) validasyonu veya leave-one-out (bir-tane-bırak) yöntemi gibi farklı çapraz validasyon (geçerlilik) yöntemleri kullanırlar. Kullandığınız araçlara bağlı olarak, bu doğrulama becerilerini geliştirmek de önemli olacaktır.

Bir Tavsiye: Bilgilerinizi Taze Tutmak Önemlidir

Bunlar bugün ihtiyaç duyduğunuz yeteneklerin beşi, ama veri bilimi alanı sürekli değişiyor. Konuyla ilgili her şeyi okuyarak becerilerinizi taze tutmanız gerekiyor. Teknoloji ve araçlar değiştikçe ve geliştikçe yeni yetkinliklere de ihtiyacınız olacaktır. Bu hiç bitmeyen ve uzun bir yolculuktur.

predictive-analiz-modeli-olusturmak-icin-gerekli-5-yetkinlik-2

Predictive Analiz'in Eksiklikleri

Hem iş dünyasından hem de bilim adamlarının birçoğu makine öğrenimini ve tahmin (prediction) teknolojilerini neden etik, sorumlu ve dikkatli bir şekilde kullanmamız gerektiğini anlatıp durur.

Veri-bilimcilerin birçoğunun Hipokrat kuralını tekrar tekrar duymasında fayda olabilir "ilk olarak, zarar vermeden (first, do no harm)"

Prediction (Tahmin) Modelleri İstenmeyen Yan Etkilere Sahiptir

Öngörücü modellerin, onları yaratan kişilerin onaylanmış ve onaylanmamış önyargılarını içerdiğini kabul etmemiz gerekmektedir.

Örneğin iş adaylarını otomatik olarak taramak için bir makine öğrenim sistemi kullanırsanız, tahmin modeliniz tarihsel önyargıları yayabilir. Eğer bir model geçmişte ne olduğunu temel olarak alırsa, geçmiş ile sınırlanır.

Bu modelleri coşkuyla inşa eden herkesin, nasıl ve ne zaman kullanıldıkları konusunda ahlaki bir sorumluluk duygusu geliştirmeleri gerekiyor.

Modeller Size Tam Olarak Ne İstediğinizi Verir

Bu "ahlaki" algı, sadece modellerin önyargılarını temizlemekle sınırlı değildir. Bazı durumlarda, bir tahmin modeli sonucu tahmin etmek için optimize edilmiştir, ancak modelleyicinin istediği şeyin kendisini değil.

Reklamda kimlerin reklamı tıklayacağını tahmin eden modeller hakkında konuştuğumuzda ve bu pazarlama tekliflerini en yüksek olasılıkla [tıklatma] seçmeye çalıştığımızda, reklamcılıkta tam benzer bir etkiye rastlarsınız. Ürünle en çok ilgilenen insanlar aslında ürünü satın alacak insanlardır.

Bu, insanların yanlışlıkla reklamları tıklamaya eğilimli olduğu gerçeğini göz ardı ediyor. Bir kişinin görme sorunları olabilir, Ya da üç yaşındaki çocuğuna cihazını ödünç vermiş olabilir, birşey kullanıcının dikkatini dağıtmış olabilir. Eğer modelinizi tüm [tıklanma verileri] üzerine dayandırıyorsanız teknik olarak doğru olan ama aslında tam olarak istediğini yapmayan bir şeyle sonuçlanacaksınızdır

Daha İyi Modellerin Tasarımı

Tahmin modellerini tasarlarken, dikkat edilmesi gereken birkaç şey var.

Her zaman için tek bir teknik kritere sahip olmamanız gerekir, mesela asla sadece tıklama oranlarına odaklanmamalısınız. Tek bir modelinizle çok fazla şey yapmak için uğraşmamalısınız. Aynı anda birçok şey için optimize edilmiş modeller oluşturmak zordur.

Eğer modeliniz çok iyi çalışıyorsa, hemen hemen her zaman bir sorun vardır. Mesela bir kanser tarama merkezindeki bilgilerden oluşturduğunuz meme kanserini tahmin eden bir model mükemmele yakın bir derecede başarılı çalışabilir. Bir [meme kanseri] tedavi merkezindeki insanların bir meme kanseri tarama merkezinde bulunanlara göre kanser olma olasılığı çok daha yüksektir ve modeliniz büyük olasılıkla zaten doğru çalışacaktır.

Gücü nedeniyle, öngörü (predictive) teknolojisi her geçen gün daha çok kullanılacaktır. Bu kaçınılmazdır. Zorluk, etik ve sorumlu kullanımı teşvik etmektir.


  Sen Ne Düşünüyorsun ?