دانستن اینکه چه زمانی باید دادههای خود را محدود کنید به طور چشمگیری بر کیفیت هوش مصنوعی شما تأثیر میگذارد. خواه به دلیل کمبود بودجه، کمبود دانش یا سانسور باشد، برخی از دولتها و نهادها حجم دادههایی را که در هوش مصنوعی خود گنجانده اند را کاهش میدهند. آیا این یکپارچگی نتایج هوش مصنوعی را به خطر میاندازد؟
به گزارش techrepublic، کوچک شدن عمدی دادهها به عنوان یک موضوع سیاست و مصلحت رخ میدهد. رویا انصافی، استادیار علوم کامپیوتر و مهندسی در دانشگاه میشیگان، اشاره کرد که سانسور در ۱۰۳ کشور در حال افزایش است. انصافی گزارش داد که اکثر اقدامات سانسور به وسیله سازمانها یا ارائه دهندگان خدمات اینترنتی انجام میشود که محتواها را فیلتر میکنند.
در سایر بخشهای صنعت، ارائهدهندگان و شرکتهای تجزیه و تحلیل سخت تلاش میکنند تا حجم دادههایی را که میپذیرند در مخازن پردازش و دادههای خود کاهش دهند. آنها فقط دادههایی را میخواهند که به نظرشان مربوط به مشکلی است که سعی در حل آن دارند. در سال ۲۰۱۸، اداره سرشماری ایالات متحده به منظور محافظت از حریم خصوصی شهروندان، اقدام به کاهش حجم دادههایی که از شهروندان جمعآوری کرد. همه این موارد استفاده اهداف تجاری مشخصی دارند، اما تأثیر خالص حذف دادههای آنها بر کیفیت هوش مصنوعی که بر روی آن کار میکند چیست؟
سانجیو نارایان، استاد پزشکی در دانشکده پزشکی دانشگاه استنفورد، توضیح میدهد که چگونه دادههای از دست رفته میتواند بر مراقبتهای بهداشتی تأثیر بگذارد.
نارایان گفت: "به بحث قد در ایالات متحده فکر کنید. اگر آنها را جمع آوری کرده و همه آنها را در نمودار قرار دهید، گروهها یا دستههایی از افراد بلند قدتر و کوتاه قدتر را مشاهده خواهید کرد که به طور گسترده نشان دهنده بزرگسالان و کودکان و افراد بین آنهاست. با این حال، چه کسی برای به دست آوردن ارتفاع مورد بررسی قرار گرفت؟ آیا این کار در روزهای هفته انجام میشد یا در آخر هفته که گروههای مختلف مردم مشغول کار هستند؟ اگر قد در مطبهای پزشکی اندازهگیری میشد، افراد فاقد بیمه درمانی ممکن است کنار گذاشته شوند. اگر این کار را در حومه شهر انجام دهید، در مقایسه با افرادی که در حومه شهر یا شهرها هستند، گروه متفاوتی از مردم خواهید داشت. حجم نمونه چقدر بود؟»
الگوریتم استخدام آمازون که در سال ۲۰۱۹ که جنجال برانگیخت این موضوع را به خوبی نشان میدهد. موتور استخدام آمازون با هوش مصنوعی بر اساس دادههای تاریخی در مورد نامزدهای شغلی موفق از زمانی که اکثر نامزدها مرد بودند آموزش دیده بود. با مشاهده این الگو، هوش مصنوعی به خود آموخت که نامزدهای مرد نسبت به زنان ارجحیت دارند. در نتیجه، شرکت بسیاری از متقاضیان زن واجد شرایط را از دست داد.
هزینه پردازش به دست آوردن دادهها و تاکید بر سرعت همگی شرکتها را به در نظر گرفتن حذف دادهها سوق داده است. همچنین هرچه بتوانید دادههای بیشتری را حذف کنید، زمان کمتری برای پردازش نتایج نیاز است و محاسبات کمتری مصرف خواهید کرد.
بیشتر بخوانید