Bir adam uykusuzluk çekiyor ve sabah 4:30'da yataktan kalkıyor. Güneşin ilk çıkışını yapmasına saatler kaldı ama bu adam için bunun bir önemi yok. Tıraş olmaya gerek yok. Dört gündür gelmedi. Hemen bir sigara yakar; (sizin için) kaynağı bilinmeyen elle sarılmış bir sigara. Radyoyu açıyor. Hemen kapatır. Bu an sessizliği hak ediyor. Aynaya bakar. Çıplak. Çıplak Buck. Kendi içine bakar. Kendi derinliklerinde. Sigarayı elinin tersiyle söndürüp tuvalete fırlattı. Sonunda, beyninde tıngırdayan kelimeler bıkkın bir mırıltı halinde dudaklarının arasından kayıp gidiyor: "Eğitim verilerimiz berbat."
Ve çok da pahalı!
Bakın, herkes ve büyükanneleri yapay zekanın çok büyük olduğunu biliyor. Belki büyükanneniz muhtemelen Snapchat AI ile sizinle konuştuğundan daha fazla konuşuyordur. Her iki durumda da yapay zeka kesinlikle bir eğlence faktörü sağlarken, her şeyden çok düpedüz faydalı olabilir. İşletmeler yapay zeka girişimlerini benzeri görülmemiş bir hızla benimsiyor. Dünyanın yapay zekanın büyümesiyle ilgili başka bir bloga ihtiyacı olmadığını biliyorum ama birazdan konuyu karıştıracağım.
Öncelikle şunu anlayın: 1923'te işletmelerin yalnızca %0'ı yapay zekanın organizasyonları için yüksek önceliğe sahip olduğunu düşünüyordu. Vay. 2020 itibarıyla ankete katılan BT profesyonellerinin %54'ü yapay zekaya oldukça öncelik veriyordu. 2022'nin sonunda bu sayı sadece iki yılda %15 artışla %69'a (iyi) çıktı .
Ancak AI/ML kullanıcılarının yarısına yakını (%47) girişimlerine son iki yılda başladı ve ankete katılanların %78'i fikir aşamasını geçip uygulamaya geçti. Bu ne anlama gelir? İstatistiksel olarak konuşursak, yapay zeka programlarını ve girişimlerini yürüten, bu alanda tamamen yeni olan ve muhtemelen ne yaptıkları hakkında hiçbir fikri olmayan pek çok işletme var. Bu yaşlı köpek kimyagerinin memi %47'nin yüzde kaçı? Peki, buna senin adına cevap veremem. Size söyleyebileceğim şey, şirketlerin AI/ML yolculuklarında bildirilen en büyük zorluğun vasıflı yetenek eksikliği (%67) olduğu ve bunu algoritma ve model başarısızlığının (%61) takip ettiğidir. Yapay zekanın benimsenmesi söz konusu olduğunda en çok bildirilen engel uygulama maliyetidir. Peki yapay zeka bütçelerinin en büyük kısmını ne kaplıyor? Eğitim verilerinin sağlanması ve uygulanması, bütçelerin %13'ünün karşılanması.
Verilerin çoğu kesinlikle kötü . Güvenilmezdir, yönetilmesi zordur ve yapay zekanın aklanmış veriler üzerinde eğitilmesi tamamen mümkündür; bu, modeli eğitmek için kullanılan verilerin, halihazırda yarım yamalak veriler üzerinde eğitilmiş başka bir yapay zeka modelinden kaynaklandığı anlamına gelir. Bu terminolojiye giriş için Olga Mack'e teşekkürler.
Yani veriler kötü, pahalı, ikinci el bir mağazadan satın alınan yazım hataları olan bir tişörtle eşdeğer olabilir (arkadaşımın Nomar “Garciapara” Red Sox gömleğine sesleniyorum) ve yapay zekayı uygulayan devasa sayıda işletme yeni. ve sürdürülebilir kılmak şöyle dursun, işlerin yürümesini sağlayacak kaynaklara ve yeteneğe sahip değiller.
Bu amaçla, yöneticilerin çok büyük bir kısmı %87'si daha kaliteli eğitim verileri için daha fazla para ödemeye istekliyken , %66'sı eğitim verilerine olan ihtiyaçlarının yalnızca artacağını öngörürken, %0'ı azalacağını tahmin ediyor. Bu, 1923'teki uydurma anketime göre %0'lık bir artış.
Daha fazla rakam mı söylüyorsun? Daha fazla numara alacaksınız. 2022 yılında yapay zekaya yapılan küresel harcama 118 milyar dolar civarındaydı . 2026 yılında bu rakamın 300 milyar dolara ulaşması bekleniyor. 300 milyar doların %13'ü... 39 milyar dolar. İstatistiklerin tam olarak bu şekilde işlemediğini biliyorum, o yüzden beni kızdırmayın. Ancak kısacası: Yapay zekaya yönelik eğitim verileri için yapılan küresel harcama, milyarlarca dolarlık bir endüstridir. Bu yöneticilerin %66'sının eğitim verilerine olan ihtiyacın artacağını beklediğini ve %87'sinin daha yüksek kaliteli veriler için daha fazla harcama yapmaya istekli olduğunu hesaba katarsak... o zaman ne demek istediğini anladınız.
Üstelik güvenilir veri elde etmek 2023'te geçmişe göre çok daha zor. GDPR ve CCPA gibi gizlilik girişimleri tüketici verilerini korumayı amaçlamaktadır. Google ve Apple gibi büyük teknoloji oyuncuları üçüncü taraf veri toplamayı giderek daha da zorlaştırıyor. Devam eden hukuki mücadelelerde yapay zeka eğitim verileri ön planda; yapay zekayı eğitmek için web verilerini kazımanın ve bunun "adil kullanım" olduğunu iddia etmenin geçmişte kalma tehlikesiyle karşı karşıya olduğu yönündeki popüler düşünce. Uygun bir karşılaştırma, 2000'li yılların başındaki Napster serpintisi olabilir. O zamanlar Napster'ın telif hakkıyla korunan materyallerin ve fikri mülkiyetin yasa dışı paylaşımıyla güçlendirildiği açık bir şekilde ortadayken, benzer bir gidişat, yapay zeka kullanan işletmelerin de dikkate almak zorunda olduğu bir şey. Kum, kum saatinin içinden süzülebilir ve Metallica'nın "Çanlar Kime Çalıyor" şarkısı muhtemelen yapay zeka girişimlerini geleceğe hazırlamak için çaba harcamamış olanlar için çalacaktır.
Peki çözüm nedir? Aslında durum karmaşık. Ancak Napster, Kazaa ve Limewire'ın küllerinden "korsanlıktan daha iyi" bir şey inşa etme öncülüyle faaliyet gösteren Spotify ortaya çıktı. Bu, Spotify platformlarında yayınlanan içeriğin uygun şekilde lisanslanması için plak şirketleri ve ajanslarla anlaşmalar yapılmasını içeriyordu. Aynı şey yapay zeka için de mümkün mü? Biz öyle düşünüyoruz. Tüketicilerin %85'i kupon veya indirim karşılığında veri alışverişinde bulunacak. Bu, yapay zeka eğitimi de dahil olmak üzere pek çok şey için kullanılabilecek değerli sıfır taraf verileri üreten, kullanıcıları katılmaya teşvik eden bir veri toplama modelinin önünü açıyor. Sıfır taraf verilerini lisanslayacak bir şey geliştirdik ve hatta işletmelerin lisanslı sıfır taraf verilerini yeniden listelemesine olanak tanıyan Snowflake ile ortaklaşa bir özellik geliştirdik. Daha yüksek kalitede eğitim verilerine duyulan arzuya dayalı olarak bu, aynı zamanda müşteri sadakati oluşturabilecek ek bir gelir akışı için devasa bir fırsat olabilir. Ama yeterince markalı şeyler. Daha fazlasını buradan öğrenebilirsiniz.
Bir sürü eğitim verisi berbat. Veri emme eğitimi ile Gillette tıraş makinelerinin satışları arasındaki ilişkiyi araştırmadım ama orada bir şeyler olduğunu hayal ediyorum. Berbat olmasının yanı sıra pahalıdır. Giderek daha fazla şirket yapay zekayı uygulamaya zaman ve kaynak ayırıyor, ancak bunların çoğu oyunda yeni ve girişimlerini optimize etmek için uygun ekip, altyapı ve kaliteli verilere sahip değil. Yasal mücadeleler, yapay zeka eğitimi verisi sağlama ve toplamanın "eski yöntemleri"ni zora soktu ve gizlilik girişimleri, işletmelerin işlerini desteklemek için ihtiyaç duydukları verileri toplamasını giderek daha da zorlaştırdı. İlham almak için Spotify gibi şirketlere baktığımızda hukuki boyutun aşılabileceği biliniyor. Tüketicilerin veri paylaşımı konusundaki hassasiyeti ile marka deneyimlerinde daha fazla kişiselleştirme ve kişiselleştirme arzusu göz önüne alındığında, (diğer birçok kullanım durumunun yanı sıra) sıfır taraf verilerinin yeniden satış için lisanslanması konusunda dev bir pazar olduğunu fark ettik. Hey, yine 300 milyar doların %13'ü nedir?
@TIKI'nin kurucu ortağı Shane Faria tarafından yazıldı.