paint-brush
Нови начин за издвајање функција за паметније АИ препорукеод стране@yaml
Нова историја

Нови начин за издвајање функција за паметније АИ препоруке

од стране YAML4m2025/02/16
Read on Terminal Reader

Предуго; Читати

Дуцхоова архитектура се састоји од три кључна модула — Датасет, Ектрацтор и Руннер — дизајнирана за ефикасно мултимодално издвајање карактеристика. Подржава ТенсорФлов, ПиТорцх и Трансформерс, омогућавајући флексибилну обраду скупова података, избор модела и конфигурацију засновану на ИАМЛ-у за беспрекорну интеграцију у системе препорука.
featured image - Нови начин за издвајање функција за паметније АИ препоруке
YAML HackerNoon profile picture
0-item

Аутори:

(1) Даниеле Малитеста, Политецницо ди Бари, Италија и даниеле.малитеста@полиба.ит са ауторима за дописивање: Даниеле Малитеста (даниеле.малитеста@полиба.ит) и Гиусеппе Гасси (г.гасси@студенти.полиба.ит);

(2) Гиусеппе Гасси, Политецницо ди Бари, Италија и г.гасси@студенти.полиба.ит са ауторима за дописивање: Даниеле Малитеста (даниеле.малитеста@полиба.ит) и Гиусеппе Гасси (г.гасси@студенти.полиба.ит);

(3) Цлаудио Помо, Политецницо ди Бари, Италија и цлаудио.помо@полиба.ит;

(4) Томмасо Ди Ноиа, Политецницо ди Бари, Италија и томмасо.диноиа@полиба.ит.

Апстракт и 1 Увод и мотивација

2 Архитектура и 2.1 Скуп података

2.2 Екстрактор

2.3 Тркач

3 Цевовод за екстракцију

4 Дуцхо као Доцкер апликација

5 Демонстрације и 5.1 Демо 1: карактеристике визуелних + текстуалних ставки

5.2 Демо 2: карактеристике аудио + текстуалних ставки

5.3 Демо 3: карактеристике текстуалних ставки/интеракција 6

Закључак и будући рад, захвалнице и референце

2 АРХИТЕКТУРА

Дуцхоова архитектура је изграђена на три главна модула, наиме, Датасет, Ектрацтор и Руннер, где прва два модула пружају различите имплементације у зависности од специфичног модалитета (тј. аудио, визуелни, текстуални) који се узима у обзир. Такође подсећамо на конфигурацију међу осталим помоћним компонентама. Архитектура је дизајнирана тако да буде високо модуларна, уз могуће интеграцију нових модула или прилагођавање постојећих. У наставку ћемо заронити дубоко у сваки наведени модул/компоненту.

2.1 Скуп података

Модул Датасет управља учитавањем и обрадом улазних података које даје корисник. Почевши од опште дељене шеме за све доступне модалитете, овај модул пружа три одвојене имплементације: аудио, визуелне и текстуалне скупове података. Као уобичајен приступ у литератури, скупови аудио и визуелних података захтевају путању до фасцикле из које се учитавају сликовне/аудио датотеке, док текстуални скуп података ради кроз тсв датотеку мапирајући све текстуалне карактеристике на улазе.


Занимљиво, и другачије од осталих постојећих решења, Дуцхо може да обрађује сваки модалитет на два начина, у зависности од тога да ли специфични модалитет описује или ставке (нпр. описи производа) или интеракције између корисника и артикала (нпр. рецензије [1]). Конкретно, док се ставке мапирају на своје јединствене ИД-ове (извучене из имена датотеке или тсв датотеке), интеракције се мапирају на пар корисник-ставка (издвојен из тсв датотеке) на који се односе. Иако се фазе предобраде и екстракције не мењају на нивоу ставки и интеракција (погледајте касније), верујемо да ова шема може савршено да одговара новим мултимодалним системима за препоруке са модалитетима који описују сваки тип извора уноса (чак и кориснике ).


Још један важан задатак за модул Датасет је да се бави фазом пре-процесирања уноса података. У зависности од специфичног модалитета укљученог, Дуцхо нуди могућност:


• аудио: учитајте улазни аудио тако што ћете издвојити таласни облик и брзину узорковања и поново га узорковати у складу са брзином узорковања на којој је претходно обучени модел био обучен;


• визуелно: конвертујте улазне слике у РГБ и промените њихову величину/нормализујте да буду усклађене са унапред обученим моделом екстракције;


• текстуални: (опционо) очистите уносне текстове да бисте уклонили или изменили бучне текстуалне обрасце као што су интерпункција и цифре


Након фазе екстракције (погледајте касније), модул Датасет је коначно задужен за чување генерисаних мултимодалних карактеристика у формату нумпи низа према шеми именовања датотека из претходног мапирања.


2.2 Екстрактор

Модул Ектрацтор гради модел екстракције из унапред обучене мреже и ради на сваком учитаном/претходно обрађеном улазном узорку како би издвојио његове мултимодалне карактеристике. На сличан начин као и модул скупа података, Ектрацтор обезбеђује три различите имплементације за сваки модалитет, наиме, аудио, визуелни и текстуални екстрактор. Дуцхо излаже широк спектар унапред обучених модела из три главна позадина: ТенсорФлов, ПиТорцх и Трансформерс. Тренутно су доступне следеће комбинације модалитета/позадине:


аудио: ПиТорцх (Торцхаудио) и Трансформерс;


визуелни: Тенсорфлов и ПиТорцх (Торцхвисион);


• текстуални: Трансформерс (и СентенцеТрансформерс).


Да би извршио екстракцију карактеристика, Дуцхо узима као улаз (листу) слојева екстракције за било који претходно обучени модел. Пошто свака позадина различито рукује екстракцијом скривених слојева унутар мреже, следимо смернице дате у званичној документацији, под претпоставком да ће корисник следити исту шему именовања/индексирања слојева и унапред знати структуру изабраног унапред обученог модела. Заинтересовани читалац може да погледа РЕАДМЕ[2] у фасцикли цонфиг/ на ГитХуб-у за исцрпно објашњење о томе како да подеси слој за екстракцију у сваком модалитету/позадинском подешавању.


Коначно, за текстуални случај, корисник такође може да наведе специфичан задатак за који претходно обучени модел треба да буде обучен (нпр. анализа осећања), пошто свака унапред обучена мрежа може имати различите верзије у зависности од стратегије обуке.


2.3 Тркач

Руннер модул је Дуцхоов оркестратор, чија је сврха инстанцирање, позивање и управљање свим описаним модулима. Са својим АПИ методама, овај модул може покренути комплетан цевовод за екстракцију (погледајте касније) једног јединог модалитета или свих модалитета који су укључени истовремено


Руннер модул је погодно прилагођен преко помоћне компоненте за конфигурацију која чува и излаже све параметре за конфигурисање цевовода за екстракцију. Чак и ако је подразумевана конфигурација већ доступна за добробит корисника, Дуцхо дозвољава да замени неке (или све) своје параметре преко екстерне конфигурационе датотеке (у ИАМЛ формату) и/или парова кључ-вредност као улазних аргумената ако се скрипте извршавају из командне линије. Још једном, предлажемо читаоцима да погледају РЕАДМЕ у фасцикли цонфиг/ на ГитХуб-у да би разумели општу шему ИАМЛ конфигурационе датотеке.



Овај рад је доступан на аркив под лиценцом ЦЦ БИ 4.0 ДЕЕД.