paint-brush
Vektörler, Rag ve Llama 3 Birinci Taraf Verilerini Nasıl Değiştiriyor?ile@danielsvonava
1,110 okumalar
1,110 okumalar

Vektörler, Rag ve Llama 3 Birinci Taraf Verilerini Nasıl Değiştiriyor?

ile Daniel Svonava6m2024/06/27
Read on Terminal Reader

Çok uzun; Okumak

Birinci taraf verilerine yönelik baskı, genellikle şirketlerin veri toplama ve yönetimi konusunda daha iyi hizmetçiler haline gelme ihtiyacını doğuruyor. Tüketiciler kişisel bilgilerinin kimin elinde olduğunu, bu bilgileri nasıl elde ettiklerini, neden ellerinde olduklarını ve bu bilgilerle ne yapıldığını giderek daha fazla bilmek istiyorlar. Verilerin kontrolünü geri alma çabası önemli görünüyor ancak pratik mi?
featured image - Vektörler, Rag ve Llama 3 Birinci Taraf Verilerini Nasıl Değiştiriyor?
Daniel Svonava HackerNoon profile picture
0-item

Birinci Taraf Verileri Geri Döndü… Arkadaşlarının Küçük Bir Yardımıyla. Vektörler, RAG ve LLAMA 3 Denizde Değişimi Nasıl Sağlıyor?


Son beş yılda, veri altyapısını çevreleyen hakim anlatı, şirketlerin kullanıcıları ve müşterileri hakkında mümkün olduğunca fazla bilgi elde ederken verilere sahip olmasının ve bu verilerden faydalanmasının önemini vurguladı. Artan gizlilik düzenlemeleri nedeniyle, reklam ağları veya Google, Meta ve Amazon gibi platformlar gibi üçüncü taraf veri operatörlerine güvenmek yerine verileri kendilerinin toplaması gerekiyor. Şirketler bu anlatıya uydu ve değişimi gerçekleştirdi.


Peki en iyi verilere ulaşma mücadelesinde birinci taraf gerçekten daha mı iyi? Tek başına değil ama vektörlerin, RAG gibi çerçevelerin ve Llama 3 gibi açık kaynaklı temel modellerin biraz yardımıyla olabilir.

Birinci Taraf Verilerine Yönelik Baskı

Birinci taraf verilerine ilişkin argüman genel olarak şu şekildedir: Şirketlerin, veri gizliliğine yönelik artan çağrıların ortasında, veri toplama ve yönetimini daha iyi yönetebilmeleri gerekiyor. Tüketiciler, kişisel bilgilerine kimin sahip olduğunu, bu bilgileri nasıl elde ettiklerini, neden ellerinde olduklarını ve bu bilgilerle ne yapıldığını giderek daha fazla bilmek istiyorlar ve genellikle bu soruların yanıtlarından hoşlanmıyorlar. Erişim Ve Silmek talepler hızla artıyor ve veri gizliliği ortamı hızla değişiyor. Şirketler kendi gizlilik yönetimi süreçlerini çözmenin yeterince zor olduğunu düşünüyor; üçüncü bir tarafın endişesini de yaşamak istemiyorlar.


Kullanıcılar, şirketlere verdikleri verilere ne olacağı konusunda giderek daha fazla endişe duyuyor ve veri gizliliği yasaları daha katı hale geliyor.


Ancak birinci tarafa geçiş tamamen gizlilikle ilgili değil. Ayrıca, çerezsiz bir geleceğe doğru ilerledikçe üçüncü taraf verilerinin değer kaybedeceği fikri de mevcut. Şirketler bir zamanlar elde edebildikleri ayrıntılı ayrıntıları alamıyorlar, o halde neden eskisinden daha azını sunan bir hizmete bütçe ayırsınlar ki?


Ayrıca büyük platformların ve reklam ağlarının beklenmedik değişiklikler yapacağına dair sürekli bir endişe var. Örneğin, çok az bildirimde bulunarak veya hiç bildirimde bulunmadan algoritmalarını değiştirebilir, belirli veri türlerine erişimi kısıtlayabilir veya bir işletmenin performansına zarar verebilecek şekilde reklam politikalarını değiştirebilirler. Başka bir şirketin uygulamalarına bağımlı olmak kişiyi savunmasız bırakır. Şirketler veri stratejilerine zaten çok fazla zaman, para ve kaynak yatırdıkları için kendilerini sıkışmış hissediyorlar. Bu açıdan bakıldığında, verilerin kontrolünü geri alma çabası önemli görünüyor. Ama pratik mi?


Kimsenin Bahsetmediği İlk Veri Sorunları

Birinci taraf verileriyle kumar oynayan şirketlerin ilk sonuçları beklentileri karşılamadı. Değişimi sıkıntıya sokan tüketici şirketlerinin vakalarını ardı ardına görüyoruz. Farfetch , Bütün kuşlar , Ve SmileDirectClub sadece birkaç örnektir. Birinci taraf verilerinin daha iyi ve daha stratejik kullanımı, artan müşteri edinme maliyetlerini tersine çevirir mi?


Yine de birinci taraf verilerine duyulan güven ve bu verileri çıkarmaya yönelik uygulamalar, bugün daha zor zamanlar yaşayan birçok şirket arasında ortak bir özellik. Bu durum analistlerin, risk sermayedarlarının ve pazarlamacıların birinci taraf verilerine öncelik vermelerinin yanlış olup olmadığını sormalarına neden olacak kadar dikkat çekicidir.


Şu anda elde edilen ve kullanılan birinci taraf verilerinin olumsuz yönleri arasında genellikle cihaz kimliklerinin ortadan kaybolması, IP adreslerinin değişmesi, tüketicilerin sahte e-postaları benimsemesi ve reklam engelleyicilerin hafife alınması olduğu düşünülmektedir. Doğru olsa da, çok daha önemli sorunlar söz konusu.


Öncelikle çok büyük bir yetenek açığı var. Big Tech ve platform şirketleri en iyiyi yakalıyor. Sunabilecekleri en fazla şeye sahip olmaları, gelecek vaat eden tüketici şirketlerinin, toplanan ve analiz edilen bilgileri anlamlandırmak için ihtiyaç duyulan veri bilimcileri ve makine öğrenimi yetenekleri için rekabet etmesini zorlaştırıyor. Gerçekten istisnai insanlar olmadan şirketler zor durumda kaldı.


Ayrıca gerçek bir alet sorunu da var. Şirketlere sunulan teklifler, Büyük Teknoloji şirketlerinin şirket içinde övündüğü araçlara asla eşdeğer değildir (bu da yetenek açığında bir faktör olabilir). Takımlama bir fark yaratıyor ve çoğu şirket şu anda rekabet edemiyor.


Son olarak, bir hacim sorunu var. Big Tech ve reklam ağları, modellerinin etkili bir şekilde çalışmasını sağlamak için yüz milyarlarca veri noktasını bir araya toplayıp anonimleştirdiğinden, dağlar kadar veri var. Buna karşılık, bir şirketin yalnızca üzerinde çalışabileceği verileri varsa, ML'nin söz verildiği gibi çalışması için yeterli değildir.


Bu sorunlar ciddi görünse de, birinci taraf verilerine duyulan ihtiyaçtan ve potansiyelden vazgeçmenin zamanı geldi mi? Mümkün değil!


Vektörlerin Gücü

Birinci taraf verilerinin önündeki en büyük sorun, şirketlerin bu verilere nasıl erişmeye çalıştığıdır. Bu noktaya kadar işletmeler Eski Dünya yaklaşımını benimsediler. İşletmelerin ihtiyaç duyduğu verilerden değer elde etmek için modeller sıfırdan oluşturulmalıdır. Bu zaman, para ve hepsinden önemlisi yetenek gerektirir; bu, makine öğrenimi mühendislerinizin ve veri bilimcilerinizin ne kadar iyi olduğuna bağlıdır. Ancak yukarıda tartışıldığı gibi, bu yaklaşımın üçüncü taraf verilerinden yararlanmaktan daha iyi çalışmasını sağlayacak yeterli yetenek mevcut değildir. Yetenek eksikliği darboğaz yaratır.


Bilginin vektörler olarak temsil edilmesi, daha derin anlayışa ve anlamsal ilişki analizine olanak tanır.


Ancak bu, birinci taraf verilerinden vazgeçmemiz gerektiği anlamına gelmiyor. Sadece ona yaklaşımımızı değiştirmemiz gerekiyor. Bugün mümkün olan Yeni Dünya'da, vektörler ve vektör yerleştirmeler anahtardır. Vektörler, veri noktalarının özelliklerini veya niteliklerini temsil edebilen genel matematiksel nesnelerdir ve gömülü modeller, verilerden öğrenilen bu bilgi dolu, anlamlı temsilleri oluşturmak için verilerdeki kalıpları analiz eder; anlamsal ilişkileri yakalarlar. Vektör yerleştirmeleri, bir kullanıcı veya müşteri hakkında bildiğiniz her şeyi kodlayabilen ve bu bilgileri bir analiz sistemi için erişilebilir hale getiren veya kullanıcı deneyimini kişiselleştirmek ve hatta sahtekarlığı yakalamak için kullanılabilir hale getiren formattır. Pek çok olasılık vardır. Vektörler büyük bir değişime yol açmaya hazırlanıyor çünkü analitiği temelden farklı bir şekilde güçlendirebilirler.


Geri almayla artırılmış nesil (RAG), şu anda sağlayabileceği her şey için çok fazla ses getiriyor, ancak vektör yerleştirmeleri RAG'ı kullanışlı kılan şey. Bunlar çerçevenin, bağlam, yanıtlar, erişim entegrasyonu ve modellerin ince ayarına yardımcı olan merkezi bir bileşenidir. Yüksek kaliteli vektörler oluşturmak ve bunları doğru şekilde sorgulamak, herhangi bir RAG sisteminin gerçekten çalışmasını sağlayan kritik bir görevdir. Başka çerçeveler de mevcut ancak RAG, birinci taraf veri devrimi için özellikle çok uygun.


Kulağa harika geliyor. Hep birlikte vektörlerin ve vektör yerleştirmelerin nasıl kullanılacağını bulalım. Bu tam cevap değil. Sınırlı veri kümeleri ve araçlar gibi sorunlar devam etmektedir. Henüz her şey güzel bir şekilde tamamlanmamış ama yakında olacağına inanıyorum. Çünkü Temmuz ayında yerini daha sağlam Llama 3'e bırakacak olan Meta'nın Llama 2'si gibi açık kaynaklı, önceden eğitilmiş temel modelleri oyun alanını eşitleyebilir. BigTech'e göre yeterli veri hacmine sahip olmama sorunu ortadan kalkıyor. Büyük ve çeşitli veri kümeleri üzerinde önceden eğitilmiş açık kaynaklı bir model kullanılarak, bu model belirli bir düzeyde yerleşik bilgi ve anlayışa sahiptir. Şirketlerin, Llama 2'ye (veya Llama 3'e) kendi özel etki alanları veya görevleriyle ilgili ince ayar yapmaları yeterlidir. veri. Bu, darboğazı hafifletir çünkü çoğu durumda artık bir modeli sıfırdan eğitmeniz gerekmez.


Llama'nın şirketlerin metinlerle başa çıkmasına yardımcı olduğu göz önüne alındığında, bu aşırı basitleştirme gibi görünebilir, ancak şirketlerin kullandığı verilerin çoğu metin değildir. Şirketlerin kullandığı yapılandırılmış verinin bu sürece entegre edilmesi gerekiyor. Örneğin, birinci taraf verilerinin büyük bir yüzdesini oluşturan kullanıcı davranışı olayları, genellikle herhangi bir LLM tarafından işlenmeye uygun değildir. Bu durum değişiyor, dolayısıyla şirketlerin yeni çok modelli çözümler ortaya çıktıkça hazır olmaları gerekiyor. Benzer şekilde, aletler hala eksik, ancak alana çok fazla ilgi var, dolayısıyla büyük adımlar atılıyor. Yaklaşıyor!


En büyük sorunların temelden çözülmesiyle, birinci taraf veri heyecanı geri döndü bebeğim! Şirketlerin üçüncü tarafların mahremiyeti ihlal etmesi konusunda endişelenmelerine veya müşterilerini tanımalarına yardımcı olması için Big Tech'e güvenmelerine gerek yok. Şirketler nihayet tüm avantajlardan yararlandıkça bu yıl birinci taraf verilerinde patlama görmeyi bekleyebilirsiniz - özellikle de Llama 3 hazırken. Tüm vaatlerine rağmen, belki de Llama 3'ün en büyük potansiyeli, birinci taraf veri problemini kesin olarak çözmek olacaktır.