"د تمثیل نمرې مطابقت د درملنې او نه درملنه شوي مضامینو سره مطابقت لرونکي سیټ رامینځته کوي چې د تناسب نمرې سره ورته ارزښت شریکوي. یوځل چې یو مناسب نمونه جوړه شي، د درملنې اغیزې د مستقیم پایلو پرتله کولو سره اټکل کیدی شي.
تعریف لومړی د Rosenbaum PR، Rubin DB لخوا د 1983 په مقاله کې ورکړل شوی و "د بائنری پایلو سره د مشاهدې مطالعې کې د غیر مشاهده شوي بائنری کوواریټ ته حساسیت ارزونه" کې.
د ساده کولو لپاره، دا د A/B ازموینې اضافي تخنیک دی چې په کار ګمارل کیږي کله چې د نمونې تصادفي کار نه کوي . د درملنې ګروپ (د ازموینې ډلې ته د ګمارل کیدو احتمال) د هر کارونکي لپاره شمیرل کیږي او بیا کارونکي د محصول کارولو تاریخي معلوماتو پراساس د کنټرول ګروپ رامینځته کولو سره د بل کارونکي سره سمون لري. وروسته، د دوو ډلو پایلې د احصایوي ازموینې په کارولو سره پرتله کیږي او د تجربې اغیز اندازه کیږي.
مګر ولې د کنټرول ګروپ موندلو پیچلي تخنیک وکاروئ که چیرې د A/B پلیټ فارم کولی شي دا کار وکړي؟ په ځینو حاالتو کې دا ممکنه نده چې د A/B پلیټ فارم د جوړ شوي جلا کولو فنکشن سره کار وکړي. دلته احتمالي قضیې دي:
ما په خپل تمرین کې څلورم قضیه درلوده او دا د ای کامرس محصول سره کار کولو پرمهال پیښ شوي. د محصول ټیم د لومړي امر ورکولو وروسته کاروونکو ته د بونس ورکولو فعالیت ازموینې لپاره چمتووالی نیولی و. ستونزه دا وه چې فنکشن په ټولو کاروونکو کار نه کاوه چې لومړی امر ورکوي. ځینې شرایط، لکه د امر ارزښت، او داسې نور، باید پوره شي. په دې حالت کې، دا د A/B ازموینې پلیټ فارم له حدودو څخه بهر دی ترڅو د ازموینې او کنټرول ګروپونو ترمنځ ټرافیک وویشي. دلته ولې د پروپینسټي سکور میچ کول اختیار و.
یو بشپړ چوکاټ تقریبا د یوې مقالې پر بنسټ والړ دی " د R: دودیزو میتودونو او نویو ځانګړتیاو سره د تناسب نمرې مطابقت " او پنځه مرحلې لري (شکل 2).
لومړی ګام د معلوماتو راټولول دي په کوم کې چې د تناسب نمرې اټکل کیږي او یو ملګری کاروونکي موندل کیږي.
دوهم ګام د میتودونو په کارولو سره د تمایل نمرې اټکل کول دي ، لکه لوژستیک ریګریشن ، او په ډیټاسیټ کې روزنه ترڅو وړاندوینه وکړي چې ایا کارونکی به د ازموینې ډلې ته ګمارل کیږي. د هر کارونکي لپاره، روزل شوی ماډل د ازموینې ګروپ کې د پاتې کیدو احتمال رامینځته کوي.
دریم ګام د تناسب نمرې پراساس میچ کولو ته اشاره کوي ، چیرې چې د میچ کولو مختلف میتودونه هڅه کیږي ، لکه نږدې ګاونډی.
په څلورم ګام کې، د درملنې او کنټرول ګروپونو ترمنځ د covariates توازن د توازن احصایې محاسبه کولو او د پلاټونو تولیدولو سره چک کیږي. یو ضعیف توازن په ګوته کوي چې د اندازې اټکل کولو ماډل نمرې باید بیا مشخص شي.
په پنځم وروستي ګام کې، د ازموینې اغیزې د میچ شوي ډیټا په کارولو سره اټکل کیږي او احصایوي ازموینه ترسره کیږي.
دا مرحله د اړین متغیرونو، کوویریټس او کنفاؤنڈرونو راټولولو په اړه ده. Covariate (X) یو خپلواک متغیر دی چې کولی شي د تجربې (Y) په پایله اغیزه وکړي، مګر کوم چې مستقیم دلچسپي نلري. Confounder یو فکتور دی پرته له هغه چې مطالعه کیږي چې دواړه د ازموینې ګروپ (W) ته تخصیص او د تجربې (Y) پایلې سره تړاو لري.
لاندې ګراف د متغیرونو اړیکې روښانه کوي. X یو covariate دی، W د درملنې د دندې شاخص دی، او Y پایله ده. په چپ اړخ کې ګراف د کنفډر اړیکه انځوروي او په ښي خوا کې د تجربې پایلې (Y) او د ګروپ تخصیص (W) ازموینې سره د covariate خپلواک تړاو ښیې.
دلته دا په ګوته کول خورا مهم دي چې دا سپارښتنه نه کیږي چې یوازې هغه متغیرونه غوره کړئ چې د ازموینې ګروپ (W) ته د کاروونکو د ګمارنې سره تړاو لري ځکه چې دا ممکن د تعصب کمولو پرته د ګروپ توپیر ارزونه کې دقیقیت کم کړي ( https://www.ncbi) .nlm.nih.gov/pmc/articles/PMC1513192/ ).
تاسو شاید پوښتنه وکړئ چې زه څومره متغیرونه غوره کولو ته اړتیا لرم؟ ځواب ساده دی - څومره چې ډیر وي، د پایلو لوړ اټکل ترلاسه کولو او د مطالعې تعصب کمولو لپاره غوره . او دلته زه د لوی شمیر په اړه خبرې کوم لکه 20-50 یا حتی نور.
بل ګام ته حرکت کول، دا اړینه ده چې ډاټا راټول کړئ او د درملنې ګروپ پورې اړوند بیرغ تنظیم کړئ. نور ټول کاروونکي به په احتمالي توګه د کنټرول ګروپ جوړ کړي. وروسته د تمایل سکور د مختلفو میتودونو په کارولو سره اټکل کیږي، لکه لوژیستیکي ریګریشن یا تصادفي ځنګلونه.
ډیری مقالې چې ما لوستلي دي وړاندیز کوي چې لوژیستیکي ریګریشن ته ودریږي او نور پیچلي ماډلونه ونه کاروي ځکه چې لوړ دقت crucia l نه دی . بیا هم، د بریالي میچ کولو تخنیک په دقت تمرکز کوي.
د میتود غوره کولو وروسته ، وړاندوینې کوونکی ماډل د ټاکل شوي کوواریټونو په کارولو سره په ډیټا کې روزل کیږي ترڅو وړاندوینه وکړي چې ایا کارونکی د ازموینې ګروپ پورې اړه لري. په نهایت کې ، ماډل د هر کارونکي لپاره وړاندوینې کوي ، او د احتمال نمرې ، د ازموینې ګروپ کې د کیدو احتمال محاسبه کیږي. د سافټویرونو په شرایطو کې، په Python کې تاسو کولی شئ هر ډول وړاندوینې کتابتون وکاروئ چې د بنسټیز سکایکټ زده کړې څخه پیل کیږي او پیغمبر ته حرکت کوي.
لاندې عمل د ټیسټ ګروپ څخه کارونکي ته د یو کارونکي موندلو لپاره د سمون تخنیک پلي کول دي. له همدې امله، د کنټرول ډله جوړه شوې ده.
د غوره کولو لپاره مختلف میچینګ میتودونه شتون لري ، د مثال په توګه دقیق میچ کول یا د مهالانوبیس فاصله میچ کول. په دې مقاله کې زه په عمده توګه د نږدې ګاونډی سره سمون او د هغې توپیرونو عام تخنیک په اړه بحث کوم.
نږدې ګاونډی ملګری (NNM) له دوه مرحلو څخه جوړ دی. لومړی، الګوریتم کاروونکي غوره کوي، یو له یو څخه د درملنې ګروپ څخه، په ټاکل شوي ترتیب کې. بیا وروسته، د ازموینې ګروپ د هر کارونکي لپاره، الګوریتم د کنټرول ګروپ کې یو کارن موندلی چې د نږدې احتمالي نمرې سره. دا مرحلې تکرار کیږي تر هغه چې هیڅ کارونکي په ازموینه یا کنټرول ګروپونو کې پاتې نشي. په Python کې، د PSM لپاره ځانګړي کتابتونونه شتون لري لکه PyTorch، Psmpy ، causallib . یا تاسو تل کولی شئ د ورته الګوریتمونو سره کوم کلاسیک کتابتون ته ودریږئ.
دا په ګوته کول خورا مهم دي چې د کلاسیک A/B ازموینې په څیر د کنټرول ګروپ رامینځته کولو په صورت کې ، چیرې چې په ګروپ کې کارونکي ځانګړي دي او د نمونې اندازې مساوي دي ، د بدیل میتود پرته NNM باید پلي شي. میتود پدې معنی دی چې د میچ کولو وروسته ، جوړه جوړه به لرې شي ، نو د کنټرول ګروپ کې یو کارونکي به یوازې یو ځل وکارول شي.
د کیلیپر سره یا پرته د NNM ماډل غوره کولو اختیار هم شتون لري. یو کیلیپر په یوه جوړه جوړه کې د تناسب نمرو د واټن پورتنۍ حد ټاکي. په دې توګه، هر کاروونکي یوازې په محدود حد کې د تناسب سکور کاروونکو سره سمون لري. که چیرې وړ کاروونکي سره سمون ونلري، نو کارونکي به رد شي.
ولې زه باید کیلیپر کاروم؟ دا مشوره ورکول کیږي چې دا پلي کړئ کله چې په جوړه جوړه کې د تناسب نمرې فاصله لوی وي. کله چې د کالیپر د اندازې په اړه پریکړه وکړئ، لاندې په پام کې ونیسئ: که د مطابقت فعالیت د قناعت وړ نه وي، میچ کول د سخت کیلیپر سره ترسره کیدی شي او که چیرې سمون بریالی وي مګر د میلمنو جوړه شمیره لږه وي، کیلیپر پراخ کیدی شي ( https:/ /www.ncbi.nlm.nih.gov/pmc/articles/PMC8246231/ ).
د دې مرحلې په جریان کې دا معاینه کیږي چې آیا د ازموینې او د کنټرول ګروپونو سره مطابقت لري، په دې توګه، دا ادعا کوي چې ایا لوبه سمه ده.
دا یو مهم ګام دی ځکه چې غیر متوازن covariates به د غلط A/B ازموینې پایلې پرتله کړي.
د توازن تشخیص درې لارې شتون لري:
- تشریحي احصایې: د معیاري معنی توپیر (SMD) یا د توپیر تناسب (VR)
- احصایوي ازموینې
- لید لید: qq-پلاټ، هسټوګرام یا د مینې پلاټ
په مقاله کې زه په عمده توګه په لومړي او دریم اختیارونو تمرکز کوم.
لومړی، راځئ چې د معیاري معنی توپیر او توپیر تناسب په اړه بحث وکړو. کوم ارزښتونه په ګوته کوي چې کوواریټ متوازن دی؟ زه وړاندیز کوم چې د SMD ارزښت د 0.1 څخه ښکته وي د VR په شرایطو کې ، 1.0 ته نږدې ارزښت توازن په ګوته کوي .
په دوهم ځای کې، د لیدلو میتودونو په اړه، د پورتنیو توضیحي احصایو څخه یو د هر کوویرایټ لپاره حساب شوی او په ګرافیک ډول ښودل شوی. زه شخصا د مینې پلاټ ته ترجیح ورکوم ځکه چې ټول کوواریټونه په یو ګراف کې ځای په ځای کیدی شي او د میچ کولو دمخه او وروسته په اسانۍ سره پرتله کیدی شي. زه لاندې د ګراف یوه بیلګه وړاندې کوم.
څه شی که covariates بیا هم د میچ کولو وروسته غیر متوازن وي؟ د روښانه کولو لپاره، معیاري منځني توپیر (SMD) د covariates د پیرود فریکونسۍ او AOV شاوخوا 0.5 دی، کوم چې د اړتیا وړ 0.1 څخه پورته دی. دا پدې معنی ده چې کوواریټونه غیر متوازن دي او بیا میچ کولو ته اړتیا ده.
غیر متوازن covariates سیګنال PSM ماډل اغیزمن نه دی او بیا رغولو ته اړتیا لري. له همدې امله، دا اړینه ده چې یو څو ګامونه شاته لاړ شئ او میچ تکرار کړئ.
د سمون بیا کولو لپاره څلور لارې شتون لري:
1. نوي covariates اضافه کړئ
2. په ساده ډول د سمون میتود بدل کړئ ځکه چې ډیری یې شتون لري
3. د پروپینسټي سکور میچینګ د کره میچ کولو میتود سره یوځای کړئ
4. د نمونې اندازه زیاته کړئ
په نهایت کې ، موږ وروستي مرحلې ته رسیدو کله چې د تجربې اغیز اټکل کیږي. په عمده ډول د اغیزې اټکل درې ډوله دي: د اوسط درملنې اغیز (ATE)، په درملنه کې د اوسط درملنې اغیز (ATT)، او په کنټرول کې د اوسط درملنې اغیز (ATC). په اصل کې خبرې کول، ATE د ازموینې او کنټرول ګروپونو ترمنځ په کلیدي میټریک کې حساب شوی توپیر دی (د A/B ازموینې کې د اصلي میټریک اندازه کولو ورته ورته). دا د درملنې اغیزې د یوې وسیلې په توګه محاسبه کیږي، ATE = اوسط (Y1 - Y1) لکه څنګه چې لاندې انځور کې ښودل شوي.
پداسې حال کې چې ATT او ATC په ترتیب سره د ازموینې او کنټرول ګروپ اوسط درملنې اغیزې دي. ټول ساده او د پوهیدو وړ اندازې میتودونه دي.
ATE ترټولو عام ډول دی او کارول کیږي کله چې د کنټرول او ازموینې ګروپونو لوی میټریک پرتله کیږي او ازمول شوي اغیز اندازه کیږي. پداسې حال کې چې ATT او ATC غوره کیږي کله چې د هرې ډلې لپاره مطلق میټریک اړین وي. په نهایت کې ، د پایلو احصایوي اهمیت چیک کولو لپاره مناسب احصایوي ازموینه ترسره کیږي.
د Propensity Score Matching میتود د مفصل وضاحت وروسته، دا ممکن وخت وي چې ستاسو په کار کې یې پلي کول پیل کړئ، مګر ځینې محدودیتونه باید په پام کې ونیول شي.
1. بوټسټریپ سپارښتنه نه کیږي چې د Propensity Score Matching سره کار واخیستل شي ځکه چې دا توپیر زیاتوي. ( https://economics.mit.edu/sites/default/files/publications/ON د بوټسټریپ د ناکامۍ په اړه د.pdf لپاره )
2. Stable unit treatment value assumption (SUTVA) principle must be met. 3. Propensity Score Matching implies using two machine learning algorithms (one for propensity score calculations and the second one for matching), which can be a pricy method to use for a company. On that account, it's advisable to negotiate with your team on A/B test conduction. 4. Finally, as discussed above, a big number of covariates are suggested to be used in the models. Thus, it requires a high-powered machine(-s) to calculate the results of the models. Again, it's a costly method to implement.
ایا تاسو غواړئ چې د دې پوښتنو ځینې ځوابونو کې یو چاقې واخلئ؟ د ټیمپلیټ لپاره لینک دی