649 قرائت
649 قرائت

هوش مصنوعی شما به اندازه داده هایش باهوش است و انسان ها هنوز در برچسب زدن آن بهترین هستند

توسط Keymakr5m2025/03/24
Read on Terminal Reader

خیلی طولانی؛ خواندن

اجماع با جمع آوری نظرات کارشناسان متعدد حاصل می شود. گوگل، تسلا، آمازون و متا به طور فعال از حاشیه نویسی مبتنی بر اجماع برای بهبود عملکرد هوش مصنوعی استفاده می کنند. Google Health اجماع را برای افزایش دقت تشخیصی اعمال می کند. تسلا از اجماع برای برچسب گذاری داده های دوربین های خلبان خودکار استفاده می کند.
featured image - هوش مصنوعی شما به اندازه داده هایش باهوش است و انسان ها هنوز در برچسب زدن آن بهترین هستند
Keymakr HackerNoon profile picture

هنگامی که برای اطمینان از دقت بالا و کاهش ذهنیت در برچسب‌گذاری ضروری باشد، روش اجماع نقش کلیدی در حاشیه‌نویسی داده‌ها دارد. بر اساس تجربه Keymakr، اجرای یک رویکرد اجماع با متخصصان متعدد در موارد خاص می تواند خطاهای حاشیه نویسی را 30 تا 50 درصد کاهش دهد. اجماع اشتباهات را به حداقل می‌رساند، کنترل کیفیت را خودکار می‌کند، و به ایجاد مجموعه‌های داده معیار کمک می‌کند - به‌ویژه در زمینه‌های با مسئولیت بالا مانند پزشکی و رانندگی خودران.


تاتیانا وربیتسکایا، معمار راه حل های فنی در Keymakr ، در مورد نحوه عملکرد این روش و پروژه هایی که در آنها با موفقیت استفاده شده است صحبت می کند.

چگونه کار می کند

اجماع با جمع آوری نظرات کارشناسان متعدد حاصل می شود. هنگام تعریف داده های «حقیقت زمینی»، ایجاد یک استاندارد مورد توافق از دقت حیاتی است. هنگام آموزش یک مدل بر روی داده های ذهنی، مانند رنگ و شکل، یا زمانی که به دقت بالایی نیاز است، اجماع بسیار مهم است. این روش به طور فعال در مراحل اولیه استفاده می شود، زمانی که مدل هنوز بر روی داده های کافی آموزش ندیده است یا زمانی که آموزش اضافی مورد نیاز است، به ویژه برای موارد خاص (به عنوان مثال، قضاوت های ذهنی). علاوه بر این، اجماع در پروژه‌های مقیاس بزرگ، مانند حاشیه‌نویسی داده‌ها برای خودروهای خودران یا نظارت بر حمل‌ونقل، بسیار مهم است، زیرا دقت را افزایش می‌دهد و در عین حال خطاها را کاهش می‌دهد.


اصول کلیدی اجماع:

  • تعداد فرد متخصص: برای جلوگیری از بن بست، اجماع بر تعداد فرد حاشیه نویس متکی است و حتی در موارد اختلاف نظر، نتیجه قطعی را تضمین می کند.
  • تجزیه و تحلیل اختلاف نظر: این روش فقط به رای اکثریت تکیه نمی کند، بلکه فراوانی اختلافات را نیز در نظر می گیرد. اگر مغایرت‌ها خیلی مهم باشند، ممکن است داده‌ها برای بررسی بیشتر علامت‌گذاری شوند یا حتی برای آموزش مدل استفاده نشوند.
  • مکانیسم‌های تشخیص خطا: حتی داده‌های مبتنی بر اجماع می‌توانند حاوی خطا باشند اگر موارد خیلی ذهنی و قطعی نباشند.


رهبران فناوری جهانی مانند گوگل، تسلا، آمازون و متا به طور فعال از حاشیه نویسی مبتنی بر اجماع برای بهبود عملکرد مدل هوش مصنوعی استفاده می کنند. به عنوان مثال، Google Health از چندین حاشیه نویسی رادیولوژیست برای اشعه ایکس استفاده می کند تا دقت تشخیصی را افزایش دهد. تسلا از اجماع برای برچسب گذاری داده های دوربین های خلبان خودکار استفاده می کند و خطاهای آموزشی در رانندگی خودران را کاهش می دهد. Amazon SageMaker Ground Truth از حاشیه نویسی اجماع در NLP، بینایی کامپیوتری و تجزیه و تحلیل تصاویر ماهواره ای استفاده می کند، در حالی که Meta از آن برای پروژه های تشخیص چهره و اشیا استفاده می کند.


یک گردش کار برچسب‌گذاری داده سفارشی با Amazon SageMaker Ground Truth/https://aws.amazon.com/blogs/machine-learning/build-a-custom-data-labeling-workflow-with-amazon-sagemaker-ground-truth/ بسازید.



اجماع پزشکی: شورای حاشیه نویسی

یکی از حیاتی ترین کاربردهای اجماع در حاشیه نویسی تصاویر پزشکی برای تشخیص بیماری است. کارشناسان می گویند تشخیص رادیولوژیست ها می تواند بین 20 تا 30 درصد متفاوت باشد که مستقیماً بر نتایج بیمار تأثیر می گذارد. هنگامی که از یک رویکرد مبتنی بر اجماع استفاده می شود - که در آن رادیولوژیست های متعدد به طور مستقل تصاویر را حاشیه نویسی می کنند و ورودی های آنها بر اساس امتیاز دهی با تخصص تجمیع می شود - دقت حاشیه نویسی می تواند تا 40٪ بهبود یابد.


Keymakr به طور فعال از این رویکرد در پروژه های پیچیده پزشکی استفاده می کند. در نتیجه، این به اطمینان از برچسب‌گذاری دقیق تصویر برای مدل‌های هوش مصنوعی آموزش دیده برای تشخیص آسیب‌شناسی پیچیده کمک می‌کند. در اینجا، این فرآیند با استفاده از پلتفرم Keylabs ساخته شد - جایی که می‌توانید نظرات چندین متخصص را مقایسه کنید، مغایرت‌ها را شناسایی کنید و مجموعه داده‌های با دقت بالا را تشکیل دهید. این رویکرد به طور قابل توجهی قابلیت اطمینان الگوریتم های مورد استفاده در تشخیص خودکار را افزایش می دهد و خطر تشخیص اشتباه را به حداقل می رساند.



اجماع در نظارت بر استفاده از محتوای حق نشر

در حال حاضر، Keymakr با SoundAware همکاری می‌کند، شرکتی که از فناوری تشخیص خودکار موسیقی برای شناسایی استفاده از موسیقی دارای حق نسخه‌برداری استفاده می‌کند. این تیم 10000 URL را برای ارزیابی وجود مطالب دارای حق چاپ بررسی می کند.


پلتفرم‌های ویدیویی مملو از محتوایی است که می‌تواند حاوی مطالب نویسنده باشد، مانند موسیقی، صحنه‌هایی از فیلم‌ها یا قطعات نمایش تلویزیونی. به دلیل حجم گسترده داده ها و ماهیت ذهنی تفسیر حق چاپ، تجزیه و تحلیل دستی هر ویدیو غیرعملی است.

با این حال، Keymakr مواردی را شناسایی می‌کند که در آن محتوای دارای حق نسخه‌برداری به روشی استفاده می‌شود یا اصلاح می‌شود که سیستم‌های خودکار هنوز نمی‌توانند به‌طور قابل اعتماد آن را شناسایی کنند. اینها شامل تقلید، هنر هواداران و ادای احترام است.


برای حذف ذهنیت، Keymakr از یک رویکرد مبتنی بر اجماع استفاده می‌کند: هر ویدیو توسط چندین متخصص مستقل ارزیابی می‌شود که به سؤالات زیر پاسخ می‌دهند:

  • آیا ویدیو حاوی موسیقی دارای حق چاپ است؟
  • آیا صحنه هایی از یک فیلم یا برنامه تلویزیونی را نشان می دهد؟
  • آیا محتوا اصلاح شده است، مانند ویرایش یا میکس؟

بر اساس پاسخ کارشناسان، تصمیم نهایی در مورد مسائل احتمالی کپی رایت گرفته می شود.

چنین پروژه هایی برای اجرای حق چاپ و حصول اطمینان از دریافت غرامت عادلانه به دارندگان حقوق ضروری هستند. علاوه بر این، این فرآیند به شرکت‌های متخصص در نظارت بر محتوا کمک می‌کند تا الگوریتم‌های خود را اصلاح کنند و تشخیص مطالب دارای حق چاپ را تسریع کنند.

اجماع در ردیابی خودرو و عابر پیاده

اجماع همچنین به طور گسترده در آموزش هوش مصنوعی برای وسایل نقلیه خودمختار، به ویژه در تشخیص اشیاء در جاده ها (به عنوان مثال، وسایل نقلیه دیگر، عابران پیاده، علائم راهنمایی و رانندگی) استفاده می شود. به عنوان مثال، یک دوربین ممکن است یک عابر پیاده را در حال حرکت ثبت کند، و حاشیه نویسان انسانی ممکن است در مورد اینکه آیا شی یک شخص است یا یک سایه، اختلاف نظر داشته باشند. اجماع برچسب گذاری دقیق را در چنین سناریوهایی تضمین می کند.


تیم Keymakr اخیراً با تجزیه و تحلیل ویدیوهای ضبط شده روی دوربین ها برای ردیابی وسایل نقلیه کار کرده است. لازم بود حرکت خودرو از طریق چندین دوربین در یک چهارراه ردیابی شود و اطمینان حاصل شود که سیستم به درستی همان وسیله نقلیه را در فریم های مختلف شناسایی کرده است.

دوربین ها یک شی (خودرو) را در چند نقطه ثبت کردند. چندین کارشناس این ویدئو را از دوربین های مختلف مشاهده کردند. آنها ارزیابی کردند که آیا این شی همان ماشین است زیرا ممکن است در درک ظاهر تفاوت هایی وجود داشته باشد (مثلاً بر اساس رنگ یا مارک). اگر پنج حاشیه نویس هویت شی را تایید کنند، از اطلاعات برای آموزش مدل استفاده می شود. در غیر این صورت، چنین داده هایی از مجموعه داده حذف می شدند. این امر باعث کاهش تعداد آلارم های کاذب و افزایش دقت سیستم های تشخیص خودرو شده است که برای سیستم های ایمنی شهری و سیستم های کنترل خودکار ترافیک مهم است.



همین رویکرد را می توان برای شناسایی افراد در مراکز خرید یا خیابان ها به کار برد. دوربین‌ها حرکت را با تجزیه و تحلیل، به عنوان مثال، رنگ لباس، قد یا سایر ویژگی‌ها ثبت می‌کنند. این روش برای موارد زیر استفاده می شود:

  • نظارت بر امنیت پیشرفته
  • پیشگیری از جرم
  • تجزیه و تحلیل رفتار بازدیدکنندگان خرده فروشی
  • ارزیابی جریان جمعیت در مناطق عمومی

آینده اجماع در هوش مصنوعی

آینده حاشیه‌نویسی داده‌های مبتنی بر اجماع امیدوارکننده است، به ویژه با پیچیده‌تر شدن مدل‌های هوش مصنوعی و افزایش حجم داده‌ها. پیش‌بینی می‌شود که بازار جهانی حاشیه‌نویسی و برچسب‌گذاری داده‌ها تا سال ۲۰۲۷ به ۳.۶ میلیارد دلار برسد و بسیاری از شرکت‌ها از تأیید حاشیه‌نویسی چند لایه برای افزایش کیفیت داده‌ها استفاده می‌کنند. مطالعات نشان می‌دهد که مدل‌های آموزش‌دیده بر روی مجموعه‌های داده با حاشیه‌نویسی اجماع، دقت قابل‌توجهی بالاتری نسبت به مدل‌های آموزش‌دیده بر روی برچسب‌گذاری تک منبع نشان می‌دهند.


با وجود توسعه حاشیه نویسی خودکار و هوش مصنوعی مولد، عامل انسانی همچنان کلیدی است: اختلاف نظر ذهنی و حاشیه نویسی اعتبارسنجی چند مرحله ای را ضروری می کند. بنابراین، روش اجماع همچنان مورد استفاده قرار خواهد گرفت و از قابلیت اطمینان داده ها و کاهش خطاها در زمینه های حیاتی مانند سیستم های مستقل، پزشکی و تجزیه و تحلیل مالی می کاهد.

L O A D I N G
. . . comments & more!

About Author

Keymakr HackerNoon profile picture
Keymakr@keymakr
We are data annotation company

برچسب ها را آویزان کنید

این مقاله در ارائه شده است...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks