paint-brush
Ухаалаг AI зөвлөмжүүдэд зориулсан онцлогуудыг задлах шинэ аргаby@yaml
Шинэ түүх

Ухаалаг AI зөвлөмжүүдэд зориулсан онцлогуудыг задлах шинэ арга

by YAML4m2025/02/16
Read on Terminal Reader

Хэтэрхий урт; Унших

Ducho-ийн архитектур нь гурван үндсэн модулиудаас бүрддэг - Өгөгдлийн багц, Экстрактор, Runner - үр ашигтай мультимодаль шинж чанарыг задлахад зориулагдсан. Энэ нь TensorFlow, PyTorch, Transformers-ийг дэмждэг бөгөөд уян хатан өгөгдлийн багц боловсруулах, загвар сонгох, YAML-д суурилсан тохиргоог санал болгож буй системд саадгүй нэгтгэх боломжийг олгодог.
featured image - Ухаалаг AI зөвлөмжүүдэд зориулсан онцлогуудыг задлах шинэ арга
YAML HackerNoon profile picture
0-item

Зохиогчид:

(1) Daniele Malitesta, Politecnico di Bari, Итали болон [email protected] холбогдох зохиогчидтой: Daniele Malitesta ([email protected]) болон Жузеппе Гасси ([email protected]);

(2) Жузеппе Гасси, Политекнико ди Бари, Итали болон [email protected] холбогдох зохиогчидтой: Daniele Malitesta ([email protected]) болон Жузеппе Гасси ([email protected]);

(3) Клаудио Помо, Политекнико ди Бари, Итали болон [email protected];

(4) Tommaso Di Noia, Politecnico di Bari, Итали болон [email protected].

Хураангуй болон 1 Оршил ба сэдэл

2 Архитектур ба 2.1 Өгөгдлийн багц

2.2 Олборлогч

2.3 Гүйгч

3 Олборлох дамжуулах хоолой

4 Ducho нь Docker програмын хувьд

5 Үзүүлэн үзүүлэх ба 5.1 Үзүүлэн 1: визуал + бичвэрийн зүйлсийн онцлог

5.2 Демо 2: аудио + бичвэрийн зүйлсийн онцлог

5.3 Демо 3: Текстийн зүйлс/харилцааны онцлогууд 6

Дүгнэлт ба цаашид хийх ажил, талархал, лавлагаа

2 АРХИТЕКТУР

Ducho-ийн архитектур нь Dataset, Extractor, Runner гэсэн гурван үндсэн модуль дээр суурилагдсан бөгөөд эхний хоёр модулиуд нь харгалзан үзсэн тодорхой горимоос (өөрөөр хэлбэл аудио, визуал, текст) өөр өөр хэрэгжилтийг хангадаг. Бид мөн бусад туслах бүрэлдэхүүн хэсгүүдийн дотроос Тохиргоог сануулж байна. Архитектур нь маш модульчлагдсан байхаар бүтээгдсэн бөгөөд магадгүй шинэ модулиудыг нэгтгэх эсвэл одоо байгаа модулиудыг өөрчлөх боломжтой. Дараах хэсэгт бид тодорхойлсон модуль/бүрэлдэхүүн бүрийг гүнзгийрүүлэн судлах болно.

2.1 Өгөгдлийн багц

Dataset модуль нь хэрэглэгчийн өгсөн оролтын өгөгдлийг ачаалах, боловсруулах ажлыг удирддаг. Бүх боломжит горимуудын ерөнхий хуваалцсан схемээс эхлэн энэ модуль нь Аудио, Визуал, Текстийн өгөгдлийн багц гэсэн гурван тусдаа хэрэгжилтийг хангадаг. Уран зохиолын нийтлэг арга болох Аудио болон Визуал өгөгдлийн багц нь зураг/аудио файлуудыг ачаалах хавтсанд хүрэх замыг шаарддаг бол Текстийн өгөгдлийн багц нь tsv файлаар дамжуулан бүх текстийн шинж чанарыг оруулгад буулгадаг.


Анхаарал татахуйц бөгөөд одоо байгаа бусад шийдлүүдээс ялгаатай нь Ducho нь тухайн загвар нь тухайн зүйлийг (жишээ нь, бүтээгдэхүүний тайлбар) эсвэл хэрэглэгчид болон зүйлсийн хоорондын харилцан үйлчлэлийг (жишээ нь, тойм [1]) тодорхойлсон эсэхээс хамаарч горим бүрийг хоёр загвараар зохицуулж болно. Тодорхой хэлбэл, зүйлсийг өвөрмөц id-д нь буулгасан байхад (файлын нэр эсвэл tsv файлаас задалсан) харилцан үйлчлэл нь тэдний дурьдсан хэрэглэгчийн зүйлийн хос (tsv файлаас задалсан) дээр дүрслэгдсэн байдаг. Урьдчилан боловсруулах болон олборлох үе шатууд зүйлс болон харилцан үйлчлэлийн түвшинд өөрчлөгддөггүй ч (дараа нь үзнэ үү) энэ схем нь оролтын эх үүсвэрийн бүх төрлийг ( хэрэглэгч ч гэсэн) тайлбарлах горим бүхий шинэ мультимодалыг мэддэг зөвлөмж өгөх системд төгс тохирно гэж бид үзэж байна.


Өгөгдлийн багц модулийн өөр нэг чухал ажил бол өгөгдөл оруулахын өмнөх боловсруулалтын үе шатыг зохицуулах явдал юм. Тусгай аргачлалаас хамааран Ducho нь дараахь боломжийг санал болгодог.


• аудио: долгионы хэлбэр болон дээжийн хурдыг задлах замаар оролтын аудиог ачаалж, урьдчилан бэлтгэсэн загварт сургасан түүврийн хурдны дагуу дахин дээж авах;


• визуал: оролтын зургийг RGB болгон хувиргаж, урьдчилан бэлтгэсэн олборлолтын загварт нийцүүлэхийн тулд хэмжээг өөрчлөх/хэвийн болгох;


• текст: (заавал биш) цэг таслал, цифр гэх мэт чимээ шуугиантай бичвэрийн хэв маягийг арилгах эсвэл өөрчлөхийн тулд оролтын текстийг цэвэрлэх


Олборлох үе шат дууссаны дараа (дараа нь үзнэ үү) Dataset модуль эцэст нь өмнөх зураглалаас файлын нэршлийн схемийн дагуу үүсгэсэн мультимодаль функцуудыг numpy массив формат руу хадгалах үүрэгтэй.


2.2 Олборлогч

Экстракторын модуль нь урьдчилан бэлтгэгдсэн сүлжээнээс олборлох загварыг бүтээж, ачаалагдсан/урьдчилан боловсруулсан оролтын дээж бүр дээр ажиллаж, түүний олон талт шинж чанарыг гаргаж авдаг. Өгөгдлийн багц модультай адил аргаар Extractor нь дуу, дүрс, текст олборлогч гэх мэт горим бүрийн хувьд гурван өөр хэрэгжилтийг хангадаг. Ducho нь TensorFlow, PyTorch, Transformers гэсэн гурван үндсэн хэсгээс урьдчилан бэлтгэгдсэн өргөн хүрээний загваруудыг дэлгэн харуулж байна. Дараах горим/арын хослолууд одоогоор бэлэн байна:


аудио: PyTorch (Torchaudio) болон Transformers;


харааны: Tensorflow болон PyTorch (Torchvision);


• текст: Transformers (болон SentenceTransformers).


Онцлог шинж чанарыг задлахын тулд Ducho нь урьдчилан бэлтгэгдсэн загварт зориулсан олборлох давхаргуудын (жагсаалт) оролт болгон авдаг. Сүлжээн дэх далд давхаргыг задлах ажлыг арын хэсэг бүр өөр өөр байдлаар гүйцэтгэдэг тул хэрэглэгч давхаргуудын ижил нэрлэх/индексжүүлэх схемийг дагаж, урьдчилан бэлтгэсэн сонгосон загварын бүтцийг урьдчилан мэдэж байх болно гэж үзэн бид албан ёсны баримт бичигт заасан удирдамжийг дагаж мөрддөг. Сонирхсон уншигч GitHub дээрх config/ хавтасны доор байрлах README[2]-оос горим/арын тохиргоо бүрд олборлох давхаргыг хэрхэн тохируулах талаар дэлгэрэнгүй тайлбарыг авч болно.


Эцэст нь, текстийн хувьд хэрэглэгч урьдчилан бэлтгэгдсэн загварт сургах ёстой тодорхой даалгаврыг (жишээ нь, мэдрэмжийн шинжилгээ) зааж өгч болно, учир нь урьдчилан бэлтгэгдсэн сүлжээ бүр сургалтын стратегиас хамааран өөр өөр хувилбартай байж болно.


2.3 Гүйгч

Runner модуль нь Ducho-ийн найруулагч бөгөөд түүний зорилго нь тайлбарласан бүх модулийг үүсгэх, дуудах, удирдах явдал юм. API аргуудын тусламжтайгаар энэ модуль нь нэг горимын бүрэн олборлолтын шугамыг (дараа нь үзнэ үү) эсвэл нэгэн зэрэг оролцдог бүх аргыг идэвхжүүлж чадна.


Runner модулийг олборлох дамжуулах хоолойг тохируулахын тулд бүх параметрүүдийг хадгалж, ил гаргадаг туслах Тохиргооны бүрэлдэхүүнээр дамжуулан хялбархан тохируулсан. Хэрэглэгчийн хэрэгцээнд зориулж анхдагч тохиргоог аль хэдийн ашиглах боломжтой байсан ч Ducho нь командын мөрөөс скриптүүдийг ажиллуулж байгаа тохиолдолд гадаад тохиргооны файл (YAML форматаар) болон/эсвэл түлхүүр-утга хосоор дамжуулан түүний зарим (эсвэл бүх) параметрүүдийг оруулах аргумент болгон хүчингүй болгохыг зөвшөөрдөг. Уншигчид YAML тохиргооны файлын ерөнхий схемийг ойлгохын тулд GitHub дээрх config/ хавтасны доорх README руу хандахыг дахин санал болгож байна.



Энэхүү баримт бичгийг CC BY 4.0 DEED лицензийн дагуу архиваас авах боломжтой .


L O A D I N G
. . . comments & more!

About Author

YAML HackerNoon profile picture
YAML@yaml
YAML's human-friendly syntax shines, a language of structure, organizing complexity with ease, in a neat and tidy line.

TAG ҮҮ

ЭНЭ ӨГҮҮЛЛИЙГ ТОЛГОЙЛУУЛСАН...