Сілтемелер кестесі
3 Алдын ала
3.1 Әділ бақыланатын оқу және 3.2 Әділдік критерийлері
3.3 Әділ басқарылатын оқытуға тәуелділік шаралары
4 DP негізіндегі әділ бақыланатын оқытудың индуктивті ауытқулары
4.1 Теориялық нәтижелерді кездейсоқ болжау ережесіне дейін кеңейту
5 DP негізіндегі әділ оқытуға үлестіру тұрғысынан сенімді оңтайландыру тәсілі
6 Сандық нәтижелер
6.2 DP негізіндегі Fair Learning жүйесінде оқытылатын модельдердің индуктивті бейімділіктері
6.3 Гетерогенді федеративті оқытудағы DP негізіндегі әділ классификация
7 Қорытынды және пайдаланылған әдебиеттер
B қосымшасы Кескін деректер жинағы үшін қосымша нәтижелер
Аннотация
Сезімтал атрибутқа аз тәуелді белгілерді тағайындайтын әділ бақыланатын оқыту алгоритмдері машиналық оқыту қауымдастығында үлкен назар аударды. Демографиялық тепе-теңдік (DP) түсінігі әділ классификаторларды оқытуда үлгінің әділдігін өлшеу үшін жиі қолданылғанымен, әдебиеттегі бірнеше зерттеулер әділ оқыту алгоритмдерінде DP қолданудың ықтимал әсерлерін ұсынады. Бұл жұмыста біз стандартты DP негізіндегі регуляризация әдістерінің сезімтал атрибут берілген болжамды белгінің шартты таралуына әсерін аналитикалық түрде зерттейміз. Біздің талдауымыз көрсеткендей, сезімтал атрибуттың біркелкі емес бөлінуі бар теңгерімсіз жаттығу деректер жинағы жаттығу деректерінің көпшілігін ұстайтын сезімтал атрибут нәтижесіне бағытталған жіктеу ережесіне әкелуі мүмкін. DP негізіндегі әділ оқытудағы осындай индуктивті бейімділіктерді бақылау үшін біз сезімтал атрибуттың шекті таралуына қарсы беріктікті жақсартатын сезімтал атрибутқа негізделген үлестірімді оңтайландыру (SA-DRO) әдісін ұсынамыз. Соңында біз стандартты орталықтандырылған және бөлінген оқыту мәселелеріне DP негізіндегі оқыту әдістерін қолдану бойынша бірнеше сандық нәтижелерді ұсынамыз. Эмпирикалық нәтижелер DP негізіндегі әділ оқыту алгоритмдеріндегі индуктивті қиғаштықтар және ұсынылған SA-DRO әдісінің теріс әсерлері туралы теориялық нәтижелерімізді қолдайды.
1 Кіріспе
Заманауи машиналық оқыту жүйелерін жоғары тәуекелді шешімдер қабылдау тапсырмаларында жауапкершілікпен қолдану олардың нәтижелерінің жыныс және этникалық сияқты сезімтал атрибуттарға тәуелділігін бақылау механизмдерін талап етеді. Болжамның кіріс мүмкіндіктерге тәуелділігіне бақылаусыз бақыланатын оқыту жүйесі сезімтал атрибуттармен айтарлықтай сәйкес келетін кемсітушілік шешімдерге әкелуі мүмкін. Бірнеше машиналық оқыту қосымшаларында әділдік факторының маңыздылығына байланысты әділ статистикалық оқыту алгоритмдерін зерттеу және әзірлеу әдебиетте үлкен назарға ие болды.
DP негізіндегі оқыту алгоритмдерінің бұрмалануын азайту үшін біз сезімтал атрибутқа негізделген үлестірімді оңтайландыру (SA-DRO) әдісін ұсынамыз, мұнда әділ оқушы деректерге негізделген шекті үлестірімнің айналасында шоғырланған сезімтал атрибуттың шекті үлестірімдерінің жиынтығы бойынша ең нашар жағдайдағы DP-реттелген жоғалтуды азайтады. Нәтижесінде, SA-DRO тәсілі сезімтал атрибут нәтижелерінің әртүрлі жиіліктерін есептей алады және осылайша сезімтал атрибуттың көпшілік нәтижесіндегі өзгерістерге сенімді әрекетті ұсына алады.
Біз деректер жинағында басымдыққа ие сезімтал атрибутқа DDP негізіндегі әділ жіктеу әдістемелерінің ықтимал қиғаштықтары бойынша бірнеше сандық эксперименттердің нәтижелерін ұсынамыз. Біздің эмпирикалық қорытындыларымыз DP негізіндегі әділ жіктеу ережелерінің сезімтал атрибуттарға негізделген көпшілік тобына қатысты индуктивті бейімділіктерін ұсынатын теориялық нәтижелерге сәйкес келеді. Екінші жағынан, біздің нәтижелеріміз DRO-SA негізіндегі әділ оқыту әдісі көпшіліктің сезімтал атрибуты бойынша жапсырманы бөлуге қатысты төмен бейімділікпен әділ жіктеу ережелеріне әкелетінін көрсетеді.
Сонымен қатар, іс жүзінде мұндай индуктивті бейімділіктердің әсерін көрсету үшін біз бірнеше клиенттер орталықтандырылмаған үлгіні үйретуге тырысатын федеративті оқыту контекстінде әділ жіктеу тапсырмасын талдаймыз. Біз клиенттердің көпшілігінің сезімтал төлсипат нәтижесі келіспеуі мүмкін клиенттер арасында гетерогенді сезімтал атрибуттарды бөлуге назар аударамыз. 1-сурет Ересектерге арналған деректер жиыны бойынша осындай федеративті оқыту сценарийін көрсетеді, мұнда 1-клиенттің көпшілік сезімтал атрибуты (әйел үлгілері) желінің көпшілік тобынан (ер үлгілер) ерекшеленеді, демек, DP-негізделген әділ федеративті оқытумен 1-клиенттің сынақ дәлдігі тек жергілікті C стандартындағы стандартты стандартқа қарағанда әлдеқайда төмен. 1 деректері. Мұндай сандық нәтижелер клиенттің әділ федеративті оқытуға қатысу ынтасын күмәндандырады. Төменде осы жұмыстың негізгі үлестерінің қысқаша мазмұны берілген:
• DP негізіндегі әділ оқытудың көпшіліктің сезімтал атрибутына қатысты жақтарын аналитикалық зерттеу,
• DP негізіндегі әділ классификацияның бұрмалануын төмендету үшін тарату жағынан сенімді оңтайландыру әдісін ұсыну,
• Орталықтандырылған және федеративті оқыту сценарийлерінде DP негізіндегі әділ оқытудың қиғаштықтары туралы сандық нәтижелерді беру.
2 Қатысты жұмыстар
Әділдік бұзу көрсеткіштері. Бұл жұмыста біз демографиялық тепе-теңдікке (DP) бағытталған оқыту негіздеріне назар аударамыз. DP-ны қатаң ұстауға мәжбүрлеу қымбатқа түсуі және оқушының үлгеріміне зиян келтіруі мүмкін болғандықтан, машиналық оқыту әдебиеті кездейсоқ шамалар арасындағы тәуелділікті бағалайтын бірнеше метрика қолдануды ұсынды, соның ішінде: өзара ақпарат: [3–7], Пирсон корреляциясы [8, 9], ядроға негізделген максималды орташа сәйкессіздік: [10] паритет (DDP) өлшемдері [11], максималды корреляция [12-15] және экспоненциалды Renyi өзара ақпараты [16]. Талдауымызда біз негізінен DDP негізіндегі әділ реттеу схемасына назар аударамыз, ал біз өзара ақпарат және максималды корреляцияға негізделген әділ оқыту алгоритмдері жағдайында одан әрі сақталуы мүмкін индуктивті қиғаштықтардың әлсіз нұсқаларын ғана көрсетеміз.
Әділ жіктеу алгоритмдері. Әділ машиналық оқыту алгоритмдерін үш негізгі санатқа бөлуге болады: алдын ала өңдеу, кейінгі өңдеу және өңдеу кезінде. Алдын ала өңдеу алгоритмдері [17–19] бейтарап деректер мүмкіндіктерін белгілер мен сезімтал атрибуттар статистикалық тәуелсіз болатын жаңа кеңістікке түрлендіреді. [2, 20] сияқты өңдеуден кейінгі әдістер оның соңғы шешімін өзгерту арқылы жіктеуіштің кемсітушілік әсерін жеңілдетуге бағытталған. Біздің жұмысымыздың фокусы тек оқу процесін DP негізіндегі әділ үлгілерге қарай реттейтін өңдеудегі тәсілдерге ғана бағытталған. Сондай-ақ, [21–23] әділ жіктеу үшін дистрибуциялық сенімді оңтайландыруды (DRO) ұсынады; дегенмен, біздің әдісімізден айырмашылығы, бұл жұмыстар бейімділіктерді азайту үшін сезімтал атрибуттарды бөлуге DRO қолданбайды.
қарапайым ету
Авторлары:
(1) Haoyu LEI, Информатика және инженерия бөлімі, Гонконг Қытай университеті ([email protected]);
(2) Амин Гохари, Гонконг Қытай университетінің ақпараттық инженерия бөлімі ([email protected]);
(3) Фарзан Фарния, Гонконг Қытай университетінің Информатика және инженерия бөлімі ([email protected]).