22 Giriş

Şimdi bir çok güçlü programlama aracını öğrendiğinize göre artık modellemeye geri dönebiliriz. Öğrendiğiniz veri cambazlığı ve programlama araçlarını bir çok modeli uygulamak ve nasıl çalıştıklarını anlamak için kullanacaksınız. Bu kitabın amacı keşif, doğrulama ya da resmi bir çıkarım yapmak değil. Fakat modellerinizdeki varyasyonu anlamanıza yardımcı olacak bir kaç temel araç öğreneceksiniz.

Bir modelin amacı size veri setinizin basit, düşük boyutlu bir özetini sağlamaktır. İdeal olarak model gerçek “sinyalleri” (başka bir deyişle ilgilendiğiniz fenomenin yarattığı örüntüleri) yakalacak ve “parazit” (başka bir deyişle ilgilenmediğiniz rastgele varsyasyon) kısmını görmezden gelecektir. Burada sadece tahminci modelleri, isminin de anlattığı gibi tahmin oluşturan modelleri konuşacağız. Bir diğer tipi olan “veri keşfi” modellerini konuşmayacağız. Bu modeller tahminler üretmez, onun yerine size verinizdeki ilginç ilişkileri keşfetmenizde yardımcı olur. (Bu iki model kategorisi bazen gözetimli ya da gözetimsiz modeller olarak da anılır fakat bu terminolojinin çok aydınlatıcı olduğunu düşünmüyorum.)

Bu kitap bu modellerin altında yatan matematiksel bilgiye giriş yapmayacak. Fakat buna rağmen içinizde istatistiksel modellerin nasıl çalıştığına dair bir sezi oluşturacak ve size verinizi daha iyi anlamanıza yardımcı olacak modelleri kullanmanız için bir takım araçlar gösterecek.

model temelleri bölümünde önemli doğrusal modeller ailesine odaklanarak modellerin mekanik olarak nasıl çalıştığını öğreneceksiniz. Basit simüle edilmiş veri kümelerine odaklanarak, tahminci modellerin verileriniz hakkında size ne söylediğine dair fikir edinmek için genel araçlar öğreneceksiniz.
model geliştirme bölümünde, gerçek verilerdeki bilinen örüntüleri çıkarmak için modelleri nasıl kullanacağınızı öğreneceksiniz. Önemli bir deseni fark ettiğinizde, onu bir modelde açık hale getirmek yararlıdır, çünkü o zaman geride kalan daha zayıf sinyalleri daha kolay görebilirsiniz.
birçok model bölümünde, karmaşık veri setlerini anlamanıza yardımcı olacak birçok basit modeli nasıl kullanacağınızı öğreneceksiniz. Bu güçlü bir tekniktir, ancak buna erişmek için modelleme ve programlama araçlarını birleştirmeniz gerekir.

Bu konular, içermedikleri şeyler için dikkate değerdir: modelleri nicel olarak değerlendirmek için herhangi bir araç. Bu kasıtlıdır: Bir modeli kesin olarak ölçmek, burada değinilmeyen birkaç önemli fikir gerektirir. Şimdilik, niteliksel değerlendirmeye ve doğal şüpheciliğinize güvenmelisiniz [Learning more about models] bölümünde, sizi daha fazla bilgi edinebileceğiniz diğer kaynaklara yönlendireceğiz.

22.1 Hipotez oluşturma hipotez doğrulamaya karşı

Bu kitapta, modelleri bir keşif aracı olarak kullanacak ve bölüm 1’de tanıtılan KVA araçlarının üçlü bölümünü tamamlayacağız. Modeller genellikle böyle anlatılmaz, ancak sizin de göreceğiniz gibi, modeller keşif için önemli bir araçtır. Geleneksel olarak modellemenin odak noktası çıkarsama yapma veya bir hipotezin gerçekten doğru olduğunu ortaya çıkarmaktır. Bunu doğru şekilde yapmak karmaşık değil, ama zor. Doğru çıkarımı yapabilmek için anlamanız gereken bir çift fikir vardır:

Her bir gözlem ya keşif için kullanılabilir ya da doğrulama, ikisine birden için değil.
Bir gözlemi keşif için istediğiniz kadar kullanabilirsiniz ancak doğrulama için yalnızca bir kez kullanabilirsiniz. Bir gözlemi ikinci kez kullandığınızda doğrulamadan keşfetmeye geçtiniz demektir.

Bu gereklidir çünkü bir hipotezi doğrulamak için hipotezi oluştururken kullandığınız verilerden bağımsız verileri kullanmalısınız. Aksi takdirde fazla iyimser olursunuz. Keşif yapmada kesinlikle yanlış bir şey yoktur ancak temelde yanıltıcı olduğu için keşif analizini asla doğrulayıcı bir analiz olarak satmamalısınız.

Doğrulayıcı bir analiz yapma konusunda ciddiyseniz analize başlamadan önce verilerinizi üç parçaya bölmek iyi bir yaklaşımdır:

Verinizin %60’ı eğitim (ya da keşif) setine gider. Bu veriyle istediğinizi yapmakta özgürsünüz: görselleştirin, tonla model uygulayın.
%20’si sorgu setine gider. Bu veriyi modellerinizi veya görselleştirmelerinizi elle karşılaştırmak için kullanabilirsiniz fakat otomatik bir süreçte kullanmaya izniniz yok.
%20’si ise test seti için tutulur. Bu veriyi son modellerinizi test etmek amacıyla sadece BİR KEZ kullanabilirsiniz.

Bu parçalama, eğitim verilerini keşfetmenize ve ara sıra sorgu setiyle kontrol ettiğiniz aday hipotezler oluşturmanıza olanak tanır. Doğru modele sahip olduğunuzdan emin olduğunuzda ise test verileriyle bir kez kontrol edebilirsiniz.

(Doğrulayıcı modelleme yaparken bile KVA yapmanız gerektiğini unutmayın. Herhangi bir KVA yapmazsanız verilerinizle ilgili kalite sorunlarına karşı kör kalmış olursunuz.)