Bir IMDb listesinin veri analizi hikayesi.

Image for post
Image for post
Huacachina, Peru

2011 yılında üye olduğum IMDb’de izlediğim filmleri eklediğim ve oyladığım bir listem var. Listedeki verilerin bana neler söylediğine kısaca bakmak istedim. IMDb listenizi hesabınızdan .csv formatında indirebiliyorsunuz. Python kütüphanelerinden Pandas ile yüklediğim .csv dosyasını yine bir Python kütüphanesi olan Seaborn ile basit de olsa görselleştirdim. Bakalım izlediğim filmler verisinde neler var.

Kaynak dosyasından erişebildiğiniz hesaplamalara göre bu yazının yayınlandığı tarih itibarıyla listemde -kısa film, dizi gibi türler de dahil- 279 film varmış. Bu filmlerin IMDb puanlarının ortalaması 7.7 iken benim puanlarımın ortalaması 7.2'ymiş. Filmlerin süresi ortalama 127 dakika. (Şimdi 127 demişken 127 Hours filmi aklıma geldi, izlerken bayılmıştım, ciddi anlamda…


Image for post
Image for post

Bilmeyenler için Reddit, oylama ve tartışma üzerine kurulu bir sosyal paylaşım platformu. Üyeler dilediği herhangi bir konuda kanallar (subreddit) açabilir veya daha önce açılmış kanallara katılarak o kanallarda bağlantı, metin, fotoğraf veya video içerikleri paylaşabilir. Dünya üzerinde en çok ziyaret edilen 17'nci web sitesi olan Reddit, tüm internet trafiğinin hiç de azımsanmayacak bir bölüme sahip. Kolay değil, sadece 2020 yılında günlük 52 milyon aktif kullanıcı, 303 milyon adet gönderi, 2 milyar yorum ve kullanılan 49 milyar artı oy inanılmaz bir hareketlilik demek.

Yani anlayacağınız içerisi tam bir derya deniz, arayıp da bulamayacağınız çok az şey olduğuna eminim. En güzeli de…


Image for post
Image for post
Yaklaşık bir aydır Bursa’dayız ailecek. Sabah toplantılarına bu parkta yürüyerek katılıyorum.

Kişisel bloglar yazdığımız on yıl öncesine tekabül eden o ışıltılı dönemlerde ben dahil çoğu kişi yıl sonunda o yıl neler yaptığına dair özetler yazardı. O yazılar aslında birer hap içerikler de olduğu için kaçırdığın iyi şeyler varsa yakalamanı da sağlardı. Zaten oldum olası aralık ayını sırf bu yüzden sevmişimdir. O zamanlar tasarım örnekleri ve Wordpress temalarından en iyilerinin yayınlandığı listeleri iple çektiğimi hatırlarım. Halen tasarım, fotoğraf, veri görselleştirme, hikaye, video, film, müzik, haber ve daha birçok alanda ne varsa yayınlanan iyi bir yıl özeti beni heyecanlandırabiliyor. Bugün sabah toplantısı için yürümeye çıktığımda geçmiş yılların o özetleri aklıma geldi. Kişisel olarak…


Image for post
Image for post
Fotoğraf: Maxime Agnelli

Pandemi zamanındaki evden çalışmayı kastettim sandınız değil mi? Hayır, son 150 yıldan bahsediyorum. Gerçi evden çalışma imkanı olan kişilerden bu cümleyi çokça duymuş olabilirsiniz ama o ayrı bir tartışmanın konusu. Şimdi biraz gerilere gidelim.

Ortalama bir işçinin çalışma süresi son 150 yıldır dramatik bir şekilde düştü. Bu, her gün daha az saat, her hafta daha az gün ve her yıl daha az hafta çalışmaktan kaynaklanıyor. Özellikle zengin ülkelerde çalışma saatleri azalsa da ülkeler arasında hala büyük farklılıklar var. İnsanların çalışma sürelerini incelemek yalnızca ekonomik üretkenlik değil, genel olarak refahı anlamak ve ekonomik ilerleme hakkında da fikir veriyor.


Image for post
Image for post
Fotoğraf: D A V I D S O N L U N A

Suçlu bulmak için kurulan modellerden çıkan verilerin oluşturduğu güçlü korelasyon, yapay da olsa böyle bir ilişki olduğunu söylüyor. Ama veri bilimci Cathy O’Neil’a göre bu bir matematiksel imha silahı.

2009’da Chicago Emniyeti suçu önlemeye dönük bir program geliştirmek için Ulusal Adalet Enstitüsü’nden iki milyon dolarlık bir hibe alır. Hibeye hak kazanan programın teorisine göre yeterli veriyle suçtaki yaygınlaşmanın, aynı salgın hastalıklar gibi belli örüntüler izlediği gösterilebilir. Öngörülebilir ve umut ettikleri gibi önlenebilir.

Programın başındaki biliminsanı Miles Wernick’ti. Yıllar önce ABD ordusunun savaş alanındaki hedefleri ayırt edecek analizler yapmasına yardımcı olmuştu. …


Image for post
Image for post
Fotoğraf: Rostyslav Savchyn

İstatistik temelli algoritmalar ve matematiksel modeller, yani kısaca büyük veri, eşitsizliği artırıp demokrasiyi ve adaleti tehdit edebilir mi?

Veri bilimci Cathy O’Neil’a göre bu sorunun cevabı evet.

1997’de cinayetle suçlanan Duane Buck isimli bir Afro-Amerikan Teksas’ta jüri karşısına çıkarılır. Buck iki kişiyi öldürmüştür ve jüri onu idam mı edeceğine yoksa şartlı tahliye olasılığına karşı müebbet hapse mi çarptıracağına karar vermek zorundadır.

Savcı, Buck eğer serbest kalırsa tekrar cinayet işleyebileceğini iddia ederek idam talebinde bulunur. Buck’ı savunan avukat da Walter Quijano isimli psikoloğu mahkemeye çağırır. Yeniden suç işleme oranlarını araştırmış olan Quijano, Buck’ın ırkına gönderme yapar.

“Çeşitli karmaşık sebeplerden ötürü ırk…


Image for post
Image for post

Çocuklu ailelerin YouTube ile imtihanı malumdur. İçi sizi, dışı beni yakar misali. Öyle bir hale geliyor ki bazen “ya şuna bir çizgi film aç da biraz sakinleşsin” dediğiniz zamanlar olabiliyor. O zaman da gidebileceğiniz iki yer var: Birincisi -çocuğu artık kesiyorsa- televizyon, ikincisi de YouTube. O da malum, öyle bir yer ki YouTube’da yok yok. İşte o zaman da ailelerin derdi başlıyor acaba çocuğuma ne izletebilirim diye. Bu soruyu şu an 5 yaşına gelen kızım Meryem için ben de sordum, soruyorum, soracağım.

Çok şükür bu yaşına kadar telefonu eline hiç vermedik. Telefonla hiçbir şey izlemedi. Etfamızda görüyorum maalesef bazı çocuklar…


Image for post
Image for post
Fotoğraf: Fredy Jacob

Veri bilimiyle uğraşan herhangi birine bu işin en zor tarafı nedir diye sorsanız muhtemelen büyük çoğunluğu veriyi temize çıkarmak diyecektir. Bunu son birkaç yıldır ben de yakinen yaşıyorum.

Bu yılın başında Twitter’a şöyle bir şey yazmıştım:

Devamı da şöyleydi: “Veri setine çalışarak oluşturduğum görselleştirmeyi ilgililerine teslim etmem (teyitleşme dahil) 8 günümü aldı. Toplamda bu 9 günün geçen seneki maliyeti taslak hariç, teyitleşme dahil tam 2 aydı.”

Neler çektiğimi anlaşılır halde şu birkaç cümleye sığdırmak kolay olmadı, tıpkı önceki yıllarda tabiri caizse kapı kapı dolaşıp oluşturduğum veri setleri gibi.

Uluslararası düzeyde çalışan, gıda, barınma, eğitim, gıda dışı gibi farklı sektörlerde…


Image for post
Image for post
Fotoğraf: Steve Johnson

Ben, hanım ve kızımdan oluşan bir aile olarak biz, sadece 2019 yılında 939 kilogram evsel atık üretmişiz.

2019 yılında İstanbul’da belediyeler tarafından 4.376.191 ton evsel atık toplanmış. En çok atık üreten ilçe 262.284 ton ile Esenyurt. Adalar ise 13.126 ton atık ile son sırada. Şehir genelinde kişi başına düşen toplanan atık ise ortalama 287 kilogram. Oysa bu sayı 2018 yılında tam 409 kilogrammış. Sevindirici bir düşüş var. Şaşırtıcı ama Silivri, 1.770 kilogram ile kişi başına düşen ortalama atık miktarında ilk sırada. Şile ise 65 kilogramla son sırada.


Image for post
Image for post
Fotoğraf: Ben Ashby

YouTube bir şeyler öğrenmek konusunda gerçek bir derya. Hele de iş İngilizce olunca. Daha önce İngilizce için takip ettiğim kanallara dair kısa bir liste hazırlamıştım ama zaman geçtikçe değişiklikler oldu. Bazı kanalları izlemeyi bırakıp bazılarına yeni başlayıp bazılarında da artık karar kıldım. Aralarında elbette kaçırdıklarım olmuştur ama aşağıda isimlerini yazdığım kanalların videolarının çoğunu izlemişimdir. İzlerken takip ettiğim özel bir yöntem yok, genelde yayınlandıkları gün izliyorum. Anlama konusunda fark edilir düzeyde bana katkısı olduklarını rahatlıkla söyleyebilirim.

Her birinin ortak özelliği çok hızlı olmayan bir Amerikan aksanıyla konuşmaları -çünkü İngilizleri anlamakta gerçekten zorlanıyorum-, günlük iletişim konularına odaklanmaları ve kadın olmaları. …

Bekir Arslan

Veri bilimci, editör ve içerik yazarıyım. Okumayı, dağları ve yolu seviyorum.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store