paint-brush
Daha ağıllı süni intellekt tövsiyələri üçün xüsusiyyətlərin çıxarılmasının yeni yolutərəfindən@yaml
Yeni tarix

Daha ağıllı süni intellekt tövsiyələri üçün xüsusiyyətlərin çıxarılmasının yeni yolu

tərəfindən YAML4m2025/02/16
Read on Terminal Reader

Çox uzun; Oxumaq

Ducho-nun arxitekturası səmərəli multimodal xüsusiyyətlərin çıxarılması üçün nəzərdə tutulmuş üç əsas moduldan - Dataset, Extractor və Runner-dən ibarətdir. O, TensorFlow, PyTorch və Transformers-ı dəstəkləyir, çevik verilənlər toplusunun işlənməsi, model seçimi və tövsiyə sistemlərinə mükəmməl inteqrasiya üçün YAML əsaslı konfiqurasiyaya imkan verir.
featured image - Daha ağıllı süni intellekt tövsiyələri üçün xüsusiyyətlərin çıxarılmasının yeni yolu
YAML HackerNoon profile picture
0-item

Müəlliflər:

(1) Daniele Malitesta, Politecnico di Bari, İtaliya və [email protected] Müvafiq müəlliflərlə: Daniele Malitesta ([email protected]) və Cüzeppe Qassi ([email protected]);

(2) Giuseppe Gassi, Politecnico di Bari, İtaliya və [email protected] Müvafiq müəlliflərlə: Daniele Malitesta ([email protected]) və Cüzeppe Qassi ([email protected]);

(3) Claudio Pomo, Politecnico di Bari, İtaliya və [email protected];

(4) Tommaso Di Noia, Politecnico di Bari, İtaliya və [email protected].

Abstrakt və 1 Giriş və Motivasiya

2 Memarlıq və 2.1 Dataset

2.2 Çıxarıcı

2.3 Qaçışçı

3 Çıxarma Boru Kəməri

4 Ducho Docker Tətbiqi kimi

5 Nümayişlər və 5.1 Demo 1: vizual + mətn elementləri xüsusiyyətləri

5.2 Demo 2: audio + mətn elementləri xüsusiyyətləri

5.3 Demo 3: mətn elementləri/qarşılıqlı əlaqə xüsusiyyətləri 6

Nəticə və Gələcək İş, Təşəkkür və İstinadlar

2 MEMARLIK

Ducho-nun arxitekturası üç əsas modul üzərində qurulub, yəni Dataset, Extractor və Runner, burada ilk iki modul nəzərə alınan xüsusi modallıqdan (yəni, audio, vizual, mətn) asılı olaraq müxtəlif tətbiqləri təmin edir. Konfiqurasiyanı digər köməkçi komponentlərdən birini də xatırladırıq. Memarlıq yüksək modul olmaq üçün nəzərdə tutulmuşdur, bəlkə də yeni modulları birləşdirə və ya mövcud olanları fərdiləşdirə bilər. Aşağıda hər bir qeyd olunan modula/komponentə dərindən giririk.

2.1 Məlumat dəsti

Dataset modulu istifadəçi tərəfindən təqdim edilən giriş məlumatlarının yüklənməsini və işlənməsini idarə edir. Bütün mövcud üsullar üçün ümumi paylaşılan sxemdən başlayaraq, bu modul üç ayrı tətbiqi təmin edir: Audio, VizualMətn Məlumat Kütlələri. Ədəbiyyatda ümumi yanaşma kimi, Audio və Visual Datasets şəkil/audio fayllarının yükləndiyi qovluğa gedən yolu tələb edir, mətn verilənlər toplusu isə bütün mətn xüsusiyyətlərini girişlərə uyğunlaşdıran tsv faylı vasitəsilə işləyir.


Diqqətəlayiq və digər mövcud həllərdən fərqli olaraq, Ducho xüsusi modallığın ya elementləri (məsələn, məhsulun təsvirləri) və ya istifadəçilər və maddələr arasında qarşılıqlı əlaqəni (məsələn, rəylər [1]) təsvir etməsindən asılı olaraq hər bir modallığı iki şəkildə idarə edə bilər. Konkret olaraq, elementlər öz unikal identifikatorlarına uyğunlaşdırılarkən (fayl adından və ya tsv faylından çıxarılır), qarşılıqlı əlaqə onların istinad etdikləri istifadəçi-element cütlüyünə (tsv faylından çıxarılır) uyğunlaşdırılır. Əvvəlcədən emal və çıxarma mərhələləri elementlər və qarşılıqlı təsirlər səviyyəsində dəyişməsə də (sonra bax), biz inanırıq ki, bu sxem hər növ daxiletmə mənbəyini (hətta istifadəçilər ) təsvir edən modallıqlara malik yeni multimodal xəbərdar tövsiyə edən sistemlərə mükəmməl uyğunlaşa bilər.


Dataset modulu üçün digər vacib vəzifə verilənlərin daxil edilməsinin əvvəlcədən işlənməsi mərhələsini idarə etməkdir. Xüsusi modallıqdan asılı olaraq, Ducho aşağıdakıları təklif edir:


• audio: dalğa formasını və nümunə sürətini çıxarmaqla daxil olan audionu yükləyin və əvvəlcədən öyrədilmiş modelin öyrədildiyi nümunə sürətinə uyğun olaraq onu yenidən nümunə götürün;


• vizual: daxil edilmiş şəkilləri RGB-yə çevirin və əvvəlcədən öyrədilmiş çıxarış modeli ilə uyğunlaşdırmaq üçün onların ölçüsünü dəyişdirin/normallaşdırın;


• mətn: (istəyə görə) durğu işarələri və rəqəmlər kimi səs-küylü mətn nümunələrini silmək və ya dəyişdirmək üçün daxil edilmiş mətnləri təmizləyin


Çıxarma mərhələsindən sonra (sonra bax), Dataset modulu nəhayət, əvvəlki xəritələşdirmədən fayl adlandırma sxeminə uyğun olaraq yaradılan multimodal xüsusiyyətlərin numpy massiv formatında saxlanmasına cavabdehdir.


2.2 Çıxarıcı

Extractor modulu əvvəlcədən hazırlanmış şəbəkədən çıxarma modelini qurur və onun multimodal xüsusiyyətlərini çıxarmaq üçün hər yüklənmiş/əvvəlcədən işlənmiş giriş nümunəsi üzərində işləyir. Dataset moduluna bənzər şəkildə, Extractor hər bir modallıq üçün üç fərqli tətbiq təqdim edir, yəni Audio, Vizual və Mətn Çıxarıcıları. Ducho üç əsas arxa hissədən geniş çeşiddə əvvəlcədən hazırlanmış modelləri nümayiş etdirir: TensorFlow, PyTorch və Transformers. Aşağıdakı modallıq/backend birləşmələri hazırda mövcuddur:


audio: PyTorch (Torchaudio) və Transformers;


vizual: Tensorflow və PyTorch (Torchvision);


• mətn: Transformers (və SentenceTransformers).


Xüsusiyyətlərin çıxarılmasını yerinə yetirmək üçün Ducho, əvvəlcədən öyrədilmiş hər hansı bir model üçün çıxarış təbəqələrinin (siyahısını) giriş kimi qəbul edir. Hər bir backend şəbəkə daxilində gizli təbəqələrin çıxarılmasını fərqli şəkildə idarə etdiyinə görə, istifadəçinin təbəqələrin eyni adlandırma/indeksləşdirmə sxeminə əməl edəcəyini və seçilmiş əvvəlcədən hazırlanmış modelin strukturunu əvvəlcədən bildiyini nəzərə alaraq, rəsmi sənədlərdə verilmiş təlimatlara əməl edirik. Maraqlanan oxucu GitHub-da konfiqurasiya/qovluq altındakı README[2]-ə müraciət edə bilər ki, hər bir modallıq/backend parametrində hasilat qatını necə təyin etmək barədə ətraflı izahat əldə etsin.


Nəhayət, mətn nümunəsi üçün istifadəçi əvvəlcədən hazırlanmış modelin öyrədilməli olduğu xüsusi tapşırığı da müəyyən edə bilər (məsələn, əhval-ruhiyyənin təhlili), çünki hər bir əvvəlcədən hazırlanmış şəbəkə təlim strategiyasından asılı olaraq müxtəlif versiyalarla gələ bilər.


2.3 Qaçışçı

Runner modulu Ducho-nun orkestratorudur, onun məqsədi təsvir olunan bütün modulları yaratmaq, çağırmaq və idarə etməkdir. API metodları ilə bu modul bir modallığın və ya eyni vaxtda iştirak edən bütün üsulların tam çıxarılması boru kəmərini (sonra bax) işə sala bilər.


Runner modulu hasilat boru kəmərini konfiqurasiya etmək üçün bütün parametrləri saxlayan və ifşa edən köməkçi Konfiqurasiya komponenti vasitəsilə rahat şəkildə fərdiləşdirilib. Defolt konfiqurasiya istifadəçinin xatirinə artıq mövcud olsa belə, Ducho onun bəzi (və ya hamısını) parametrlərini xarici konfiqurasiya faylı (YAML formatında) və/yaxud skriptləri əmr satırından işlədirsə, giriş arqumentləri kimi açar-dəyər cütləri vasitəsilə ləğv etməyə imkan verir. Bir daha oxuculara YAML konfiqurasiya faylının ümumi sxemini başa düşmək üçün GitHub-da konfiqurasiya/qovluq altındakı README-ə müraciət etməyi təklif edirik.