21. Yüzyılın En Seksi Mesleği Veri Bilimcisi Olmanın İpuçları

21. Yüzyılın En Seksi Mesleği Veri Bilimcisi Olmanın İpuçları

Son zamanlarda en çok sorulan sorulardan birkaçı:

  • Veri bilimi nedir ?
  • Veri bilimcisi olabilir miyim?
  • Big data nasıl işlerine nasıl girebilirim?
  • Makine öğrenmesi nedir? Nasıl öğrenebilirim?
  • Yapay zeka yapabilir miyim?

Veriler her yerde. Aslında mevcut dijital veri miktarı hızlı bir oranda büyüyor - aslında, günümüz dijital evrende 2.7 zettabaytan fazla veri var ve bu 2025'te 180 zettabayt'a çıkması bekleniyor.

Bir sürü kişi şu anda veri biliminin son derece popüler olduğunu düşünüyor. Veri bilimi ile çok para kazanabileceğini düşünüyor ve çok da haksız değil. Veri bilimcisi olmak isteyen kişilerin ana motivasyonu da bu zaten. Yoksa çoğu yapay zeka ile uğraşacak kadar veriye tutkun değil ve aynı zamanda çoğunun bilimle uğraşmak gibi bir derdi de yok.

Birçoğunun veri biliminin ne olduğu veya bir veri bilimcisinin ne yaptığına dair hiçbir fikri de yok. Birçoğu sadece bu tabirin peşinde kitlenmiş durumda :

"21. yüzyılın en seksi mesleği : veri bilimcisi"

veri-bilimcisi-olmak-1

Bunu kimin söylediğini bilmiyorum ama lafı gediğine koymuş sanırım :) Sadece para için iş yapmak gibi bir düşünce gerçekten çok kötü bir fikir. Tabii ki hepimiz para için çalışıyoruz ama sadece para ile motive olmak gerçekten üzücü. Yapmanız gereken şey var. Kendi iyi olduğunuz alanda çalışmanız. Zaten yaptığınız işi seviyorsanız mutlaka o işte iyisinizdir ve başarılı olabilirsiniz. Aksi takdirde sadece parası iyi diyerek hayatınız boyunca günde 8 saat sevmediğiniz bir işle uğraşmak kesinlikle akıl sağlığı açısından doğru değil.

Veri bilimi ve büyük veriye girmeden önce, bu iki kavramın ne olduğunu çok net bir şekilde anlamanız gerekiyor.

Yapmanız gereken şey, ne yapmak istediğinizi netleştirmenizdir.

Eğer işleri analiz etmekten mutlu oluyoranız veri bilimcisi olmamlısınız. Platform veya veri mühendisliği hoşunuza gidiyorsa büyük veri yolunu izlemelisiniz.

Büyük Veri Nedir?

Büyük veri demek kabaca şöyle açıklanabilir. Desenleri, eğilimleri ve dernekleri, özellikle de insan davranışları ve etkileşimlerini ortaya çıkarmak için hesaplanabilir biçimde analiz edilebilecek son derece geniş veri setleri.

Büyük veri, şirketinizin içindeki ve dışındaki geleneksel ve dijital kaynaklardan gelen, devam eden keşif ve analiz için bir kaynak gösteren bir veri koleksiyonudur.

veri-bilimcisi-olmak-2

Bazı insanlar, büyük verileri web davranışları ve sosyal paylaşım ağı etkileşimleri gibi dijital girdilere kısıtlamaya çalışıyor farkında olmadan. Ya da IoT sistemlerinden gelen bilgilere bağımlı kılmak ister. Ancak çağrı merkezi ve satış noktası gibi ürün işlem bilgileri, finansal kayıtlar ve etkileşim kanallarından türetilen geleneksel verileri dışlayamayız. Tüm bunlar, büyük veridir, bununla birlikte şimdi üstel bir hızda büyüyen dijital veri hacmi nedeniyle çok daha cüretkar olunabilir.

Büyük verileri tanımlarken, bilgi hacmini oluşturan yapılandırılmamış (Unstructured) ve çoklu yapılandırılmış (Multi-structured) verilerin karışımını anlamak da önemlidir.

Yapılandırılmamış veriler, geleneksel veritabanları veya veri modelleri tarafından organize edilmemiş veya kolayca yorumlanmayan bilgilerden gelir ve genellikle metin ağırlıklıdır. Meta veriler, Twitter uygulamasından alından tweetler ve diğer sosyal medya mesajları yapılandırılmamış verilere iyi örnektir.

Çoklu yapılandırılmış veriler, çeşitli veri biçimleri ve türleri ile ilgilidir. Web uygulamaları veya sosyal ağlar gibi kişiler ve makineler arasındaki etkileşimlerden türetilebilir.Metin ve görsel imajların yanı sıra form veya işlem bilgisi gibi yapılandırılmış veriler içeren bir web bloğu içeriği bu veri tipine çok iyi bir örnektir.

3V kuralı vardır. "hacim" (Volume - veri miktarı), "hız" ( Velocity - işletmenin ürettiği ve giren bilginin hızı) ve "çeşitlilik" (variety - mevcut veri türü) ile ölçülürler. Büyük veri tartışmalarında birçok kişi, büyük verilerin "doğruluğu" (veracity) ve "değeri" (value) gibi ek V'lere odaklanmış durumda.

Bir şey açık: Birçok kuruluş, büyük veriye veri odaklı pazarlama potansiyelini kullanmak için de yoğunlaşmışlardır. Kesinlikle her firma bir an önce büyük veri ile ilgilenmeye başlamak zorundadır. Kesinlikle beklemeden, hemen.. Beklemek yalnızca kaçınılmaz olanı geciktirecek ve karışıklığın çözülmesini daha da zorlaştıracaktır.

Büyük veriyle uğraşmaya başladıktan sonra firmalar bilmedikleri şeyleri öğreneceklerdir. Sorunları çözmek için gerekli adımları atarken ilham alacaklardır. Hepsinden önemlisi, müşteri etkileşimi stratejilerinizi geliştirmeye başlama yolunda her adımda topladıkları bilgileri bir araya getirebileceklerdir.

veri-bilimcisi-olmak-3

Big Data rolleri arayan kişilerin aşağıdaki yetkinliklere ihtiyacınız olacak:

  • Analitik Beceriler: Elde ettiğiniz muazzam miktarda veriyi anlamayı becerebilme. Analitik problem çözme yetenekleriyle, hangi verilerin çözümünüzle alakalı olduğunu belirleyebileceksiniz.
  • Yaratıcılık: Veri stratejisini toplamak, yorumlamak ve analiz etmek için yeni yöntemler oluşturma yeteneğiniz olmalıdır.
  • Matematik ve istatistiksel beceriler: İyi, eski moda "sayı çarpması" kesinlikle gereklidir.
  • Bilgisayar bilimi: Bilgisayarlar, her veri stratejisinin arkasındaki işçilerdir. Programcıların verilerin içgörülere dönüştürülmesi için algoritmalar üretmeleri sürekli bir ihtiyacı olacaktır.
  • İş becerileri: Büyük Veri uzmanları, işin büyümesini ve kârını yönlendiren temel süreçlerle birlikte, yerinde olan işletme hedeflerini anlamalıdır.

Büyük veri işine girmeyi düşünüyorsanız, Java öğrenmek her zaman çok iyi bir seçimdir. Java çok yönlüdür ve büyük veri ile de kullanılabilir. Araçlar genellikle Java API'leri ve Java kitaplıklarına sahiptir. Bu araç geliştirme ve algılama ile çok yardımcı olur. Araçlar çoğunlukla açık kaynaktır ve Java ile kodlanmıştır. Bu, daha derinlere gitmeniz gerektiğinde işlerin nasıl yürüdüğünü anlamada çok yardımcı olur.

veri-bilimcisi-olmak-4

Bunun dışında önemli olan kodlama yetenekleriniz yanında veriyi anlama işidir. Büyük veri araçlarından pig, hive, impala gibi script dilleri ile çok hızlı bir şekilde çıktılar üretebilirsiniz.

İstatistiklere çok giriyorsanız, istatistiksel işler için R çok iyidir. R'deki görselleştirme kütüphaneleri oldukça başarılıdır.

Veri Bilimi Nedir?

Veri tabanlı bilim olarak da bilinir Veri madenciliğine benzer biçimde yapısal ya da yapılandırılmamış çeşitli biçimlerdeki verilerden bilgi veya bilgiler elde etmek için disiplinlerarası bir bilimsel yöntem, süreç ve sistem alanıdır. Gerçekten tekerleme gibi oldu değil mi. :)

Yapılandırılmamış ve yapılandırılmış verilerle uğraşan Veri Bilimi, veri temizleme, hazırlama ve analiz ile ilgili her şeyi kapsayan bir alandır. Basitçe söylemek gerekirse, Veri Bilimi, verilerden kavrayış ve bilgileri ayıklamaya çalışırken kullanılan teknikler için bir şemsiye terimdir.

Veriler üzerinde istatistiksel analizler yapmak, bir sürü makine öğrenimi yapmak isterseniz veri bilimcisi olabilirsiniz. Veri bilimi yolunda ilerlerken, özellikle de makine öğrenimine giderken, Python ile gidebilirsiniz.

Veri biliminde kendinizi geliştirmek istiyorsanız makine öğrenme yöntemlerine ve istatistik bilgilerine hakim olmanız gerekiyor. Bu çok önemli bir konudur.

veri-bilimcisi-olmak-5

Makineler Öğreniyor ve Yapay Zeka Nedir konulu yazılarımıza göz gezdirmenizi tavsiye ederim.

Deneyim çok önemli. Mümkün olduğunca çabuk birşeylerle uğraşmaya başlayın. İnternette birçok yardım alabileceğiniz örnek kodlar da var.

Veri bilimcilerin %89'u yüksek lisans derecesine, %46'sı da doktora programına sahiptir. Veri bilimcilerinin ihtiyaç duyduğu diğer beceriler de şunları içerir:

  • SAS ve / veya R'nin derinlemesine bilgisi. Veri Bilimi için R genellikle tercih edilir.
  • Python kodlaması: Python, veri biliminde Java, Perl, C / C ++ ile birlikte kullanılan en yaygın kodlama dilidir.
  • Hadoop platformu: Her zaman bir gereklilik olmamasına rağmen, Hadoop platformunun bilinmesi alan için hala tercih edilmektedir. Hive veya Pig deneyim büyük bir artıdır.
  • SQL veritabanı / kodlama: NoSQL ve Hadoop, veri bilimcileri için en önemli odak noktası olmasına rağmen, tercih edilen adaylar SQL'de karmaşık sorgular yazabilir ve yürütebilir.
  • Yapılandırılmamış verilerle çalışma: Bir Veri Bilimcisinin sosyal medyadan, video yayını, ses veya diğer kaynaklardan da olsa, yapılandırılmamış verilerle çalışabilmesi son derece önemlidir.

veri-bilimcisi-olmak-6

Veri Analizi rolleri için de genellikle aşağıdaki yetkinlikle gerekmektedir:

  • Programlama becerileri: Programlama dillerini bilmek R ve Python, herhangi bir veri analisti için son derece önemlidir.
  • İstatistiksel beceri ve matematik: Tanımlayıcı ve çıkarımsal istatistikler ve deneysel tasarımlar da veri analistleri için zorunluluktur.
  • Makine öğrenme becerileri.
  • Veri anlama becerileri: Ham verileri haritalama ve verinin daha rahat bir şekilde tüketilmesini sağlayan başka bir formata dönüştürme becerisi.
  • İletişim ve Veri Görselleştirme becerileri.

Çevrimiçi Kurslar

Bakabileceğiniz birçok üretli / ücretsiz kurs var. Kursların yalnızca başlamanız için olması gerektiğini unutmayın. Pahalı bir eğitim setine başlamanız gerekmez.

Aşağıdaki çevrim içi eğitim sitelerini inceleyerek kendinize çok güzel eğitimler bulabilirsiniz. Benim kişisel olarak en çok takip ettiğim siteler aşağıda listelenmiş durumda

  • www.coursera.org
  • www.pluralsight.com
  • www.udemy.com
  • www.microsoft.com/en-eg/learning/
  • www.cognitiveclass.ai
  • www.bigdatauniversity.com

veri-bilimcisi-olmak-7

Örnek Veri Kümeleri

Kendinize örnek bir veri seti edinin. İnternette erişiminize açık bir sürü makine öğrenme veri seti vardır.

  • Iris veri kümesi: Çiçekleri sınıflandırdığınız bir veri kümesidir. Üç çeşit çiçek ve dört özellik var. Bir özellik, belirli uzunlukta bir çiçek ölçülmüştür. Makine öğrenimi ile ne yapmak istiyorsun çiçeğin ne olduğunu tahmin etmeye çalışmaktır. Bir çiçek özellik kombinasyonlarına dayanarak.
  • Dolphins veri kümesi : Özellikle sosyal ağ analizi yapmak için kullanacağınız yunus balıklarının etkileşimlerini barındıran bir veri kümesidir. Bu verilerdeki ağ yapısı tüm dünyadaki sosyal ağlarla aynı davranışlara sahip olduğu için tüm modellerinizi çok rahatlıkla uygulayabilirsiniz.
  • www.image-net.org : ImageNet, hiyerarşinin her bir düğümünün yüzlerce ve binlerce imge tarafından tasvir edildiği WordNet hiyerarşisine (şu an sadece isimler) göre düzenlenmiş bir görüntü veritabanıdır. Şu anda, düğüm başına ortalama beş yüz görüntüsünün var. ImageNet'in yararlı bir kaynak haline geleceğini umuyorum. Özellikle makine öğrenmesi ve derin öğrenme için biçilmiş kaftandır.

Sadece oynayın, elinizi kirletin. Farklı algoritmalar deneyin. Sonuçlarınızı iyileştirin.

Temelde aslolan şey başlamaktır.

Bir kere daha tekrar edelim.

Bunu tekrar ve tekrar belirtmen benim için gerçekten çok önemli. Lütfen büyük veri ve / veya veri bilimi alanına giriyorsanız, tam olarak ne yapmak istediğinizi bildiğinizden emin olun.

veri-bilimcisi-olmak-8

Ayrıca, lütfen, lütfen, sadece çok havalı olduğu için veri bilimi veya büyük veri kullanmayın. Veya sadece böyle duyduğunuz için çok para kazanamazsınız. Önce şu soruya cevap verin.

Hangi sorunları çözmek istiyorsunuz?


  Sen Ne Düşünüyorsun ?