Büyük dil modellerinin (LLM'ler) dikkat çekici yeteneklerine tanık olduk, ancak bir boşluk var; etrafımızdaki dünyaya dair anlayışlarında eksik bir parça. Metin, kod ve görsellerde başarılı oldular ancak gerçekliğimizle gerçek anlamda bağlantı kurmakta zorlandılar. Yani şimdiye kadar. İşte yapay zeka dünyasında çığır açan bir adım: 3D-LLM.
3D-LLM, dil ile içinde yaşadığımız 3D dünya arasındaki boşluğu dolduran yeni bir modeldir. Dünyamızın tamamını kapsamasa da hayatlarımızı şekillendiren önemli boyutları ve metni kavramak açısından muazzam bir adımdır. Videoda keşfedeceğiniz gibi, 3D-LLM yalnızca dünyayı algılamakla kalmıyor, aynı zamanda onunla etkileşime de giriyor. Çevre hakkında sorular sorabilir, nesneleri arayabilir veya alanlarda gezinebilir ve ChatGPT ile deneyimlediğimiz hayranlık uyandıran becerileri anımsatan sağduyulu akıl yürütmesine tanık olabilirsiniz.
İlginç bir şekilde, gördüğü dünya geleneksel olarak güzel olmayabilir, ancak anlayışının kökleri nokta bulutlarına ve dile dayanmaktadır. 3D veri temsilinin temeli olan nokta bulutları, nesnelerin ve ortamların uzamsal koordinatlarını kodlayarak yapay zekanın gerçek dünyayla somut bir şekilde etkileşime girmesini sağlar. Otonom sürüş, robot bilimi ve artırılmış gerçeklikteki rollerini düşünün; 3D-LLM bu alandan faydalanıyor.
Merakla, böyle bir modelin 3 boyutlu verileri ve dili anlayacak şekilde nasıl eğitildiğini merak edebilirsiniz. Yazarların benzersiz bir 3 boyutlu metin veri seti oluşturmasıyla süreç yenilikçi ve karmaşıktı. ChatGPT'nin bu verileri öğreneceğiniz üç farklı yöntemle toplama becerisinden yararlandılar ve her sahne için kapsamlı bir görev ve örnek deposu oluşturdular.
Yazarlar, bu zengin veri kümesinden hem metin hem de 3 boyutlu nokta bulutlarını işleyebilen bir yapay zeka modeli oluşturdular. Model sahneyi alır, çeşitli perspektiflerden önemli özellikleri çıkarır ve onu modelin anlayışına uygun bir biçimde yeniden yapılandırır.
Sonuç? Dünyamızı gerçekten gören ve kavrayan, yapay zekanın evrimine ilgi çekici bir bakış sunan bir model olan ilk 3D-LLM'nin doğuşu. Video, yolculuğun anlık görüntüsünü sunuyor ancak bu yeniliğin ardındaki etkileyici mühendislik başarılarını daha derinlemesine incelemek için makaleyi incelemenizi tavsiye ediyorum. Bağlantı aşağıdaki referanslarda verilmiştir.
Şovun keyfini sür!
Referanslar:
►Yazının tamamını okuyun: https://www.louisbouchard.ai/3d-llm/
►Video demosunu içeren proje sayfası: https://vis-www.cs.umass.edu/3dllm/ ►Kod: https://github.com/UMass-Foundation-Model/3D-LLM
►Makale: Hong ve diğerleri, 2023: 3D-LLM, https://arxiv.org/pdf/2307.12981.pdf
►Twitter: https://twitter.com/Whats_AI
►Bültenim (E-postalarınıza haftalık olarak açıklanan yeni bir AI uygulaması!): https://www.louisbouchard.ai/newsletter/
►Beni Patreon'da destekleyin: https://www.patreon.com/whatsai
►Yapay Zeka Anlaşmazlığımıza Katılın: https://discord.gg/learnaitogether