برآورد چگالی
در آمار و احتمال، برآورد چگالی (به انگلیسی: Density estimation) به فرایند تخمین تابع چگالی احتمال یک متغیر تصادفی با استفاده از نمونههای مشاهدهشده از آن متغیر گفتهمیشود. معمولاً فرض میشود نمونههای مشاهده شده بهطور تصادفی و مستقل براساس تابع توزیع احتمال، توزیع شدهاند.
برای حل مسئله برآورد چگالی، روشهای مختلفی استفاده شدهاست، از جمله پنجره پارزن (به انگلیسی: Parzen Window) و تعدادی روشهای مبتنی بر دستهبندی داده، از جمله کوانتیزاسیون برداری. سادهترین روش برای برآورد چگالی، استفاده از یک بافتنگاشت تغییر مقیاس یافتهاست.
مثالی از برآورد چگالی
[ویرایش]در این مثال نمونههای مربوط به بیماری دیابت را بررسی میکنیم. در زیر توضیحات مربوط به مجموعه داده آورده شدهاست:
جمعیتی از زنان بالای ۲۰ سال از پیما که در Phoenix, Arizona زندگی میکردند، با شاخص سازمان جهانی بهداشت مورد ارزیابی دیابت شیرین قرار گرفتند. دادهها توسط مؤسسه ملی بیماریهای دیابتی و گوارشی و کلیوی آمریکا (US National Institute of Diabetes and Digestive and Kidney Diseases) جمعآوری شدهاست. ما از ۵۳۲ نمونه استفاده کردیم.[۲][۳]
در این مثال، ما ۳ برآورد چگالی برای "glu" (با تمرکز بر روی گلوکز پلاسما (به انگلیسی: plasma glucose)) انجام دادیم. یکی از آنها احتمال شرطی به شرط مبتلا بودن به دیابت، دومی به شرط مبتلا نبودن به دیابت و سومی بدون شرطی روی داشتن یا نداشتن دیابت است. سپس از برآوردهایی که برای احتمالات شرطی به دست آمد استفاده شد تا احتمال ابتلا به دیابت به شرط "glu" بدست بیاید.
دادههای مربوط به "glu" از پکیچ MASS[۴] موجود در زبان برنامهنویسی آر بدست آمد. دادهها بهطور کامل تر از طریق Pima.tr?
و Pima.te?
در زبان آر، قابل دسترسی است.
میانگین و انحراف معیار "glu" در کیسهای مبتلا به دیابت به ترتیب برابر ۱۴۳٫۱ و ۳۱٫۲۶ است. در کیسهای بدون دیابت، این مقادیر به ترتیب برابر ۱۱۰٫۰ و ۲۴٫۲۹ است. با توجه به این مقادیر، میتوان دریافت که نمونههای مبتلا به دیابت دارای مقادیر بالاتری از "glu" هستند. این نکته با بررسی نمودارهای برآورد شده از توابع چگالی قابل فهم تر است.
شکل اول برآورد چگالی از احتمالات p(glu | diabetes=۱) و p(glu | diabetes=۰) و p(glu) را نشان میدهد. چگالیهای برآورد شده، برآوردهای چگالی هسته هستند که با استفاده از هستهٔ گاوسی به دست آمدهاند. به بیان دیگر، یک تابع چگالی گاوسی بر روی هر نقطه از داده قرار داده شدهاست، به طوری که مرکز تابع چگالی نقطه مدنظر باشد، سپس مجموع توابع چگالی روی گستره دادهها محاسبه شدهاست.
از چگالی "glu" در حالت مشروط به دیابت (احتمال مربوط به p(glu | diabetes=۱))، میتوانیم با استفاده از قانون بیز، احتمال دیابت داشتن مشروط به "glu" را محاسبه کنیم. برای اختصار عبارت "db" به جای "diabetes" در فرمول زیر نوشته شدهاست:
شکل دوم احتمال پسین p(diabetes=1 | glu) برآورد شده را نشان میدهد. از این دادهها، پیداست که افزایش مقادیر "glu"، ارتباط مستقیمی با ابتلا به دیابت دارد
کاربرد و اهداف
[ویرایش]یک کاربرد معمول برآورد چگالی، بررسی شهودی (و نه لزوماً خیلی دقیق) ویژگیهای مختلف یک مجموعه دادهاست. برآورد چگالی میتواند اطلاعات ارزشمندی از دادهها از جمله چولگی و چندوجهی بودن بدهد. در برخی مواقع استفاده از برآورد چگالی ممکن است منجر به دریافت بدست آوردن نتایجی شود که بعضاً بدیهی تلقی میشوند، اما در برخی دیگر از مواقع، میتوانند مشخص کنند که نیاز به جمعآوری بیشتر دادهاست.[۵]
یک جنبهٔ مهم از علم آمار معمولاً ارائه دادهها به همراه نتایج حاصل از بررسی روی آنها به مشتری است و لازم است که این ارائه به گونهٔ ساده و قابل فهمی برای مشتری باشد. برآورد چگالی برای این هدف بسیار مناسب است، چرا که بسیار ساده و قابل درک برای افراد نه لزوماً حرفه ای در علم ریاضی و آمار است.
برآورد چگالی همچنین مکرراً در مبحث تشخیص ناهنجاری استفاده میشود: اگر یکی از مشاهدات در ناحیهای کم-چگال قرار بگیرد، محتمل است که این نمونه ناهنجار باشد.[۶]
- در آبشناسی، از بافت نگاشت و تابع چگالی برآورد شده از دادههای مربوط به بارش باران و دبی رودخانه که با یک توزیع احتمالی مورد تجزیه و تحلیل قرار گرفتهاند، استفاده میشود تا رفتار و تناوب رخداد آنها بهتر شناخته شود.[۷] مثالی در شکل آبی از این کاربرد نشان داده شدهاست:
منابع
[ویرایش]- ↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning (به انگلیسی). Springer. p. ۲۰۸–۲۰۹. Archived from the original on 10 November 2009. Retrieved 31 December 2012.
- ↑ "Diabetes in Pima Indian Women - R documentation".
- ↑ Smith, J. W. , Everhart, J. E. , Dickson, W. C. , Knowler, W. C. and Johannes, R. S. (1988). R. A. Greenes (ed.). "Using the ADAP learning algorithm to forecast the onset of diabetes mellitus". Proceedings of the Symposium on Computer Applications in Medical Care (Washington, 1988). Los Alamitos, CA: 261–265. PMC 2245318.
{{cite journal}}
: نگهداری یادکرد:نامهای متعدد:فهرست نویسندگان (link) - ↑ Ripley, Brian; Venables, Bill; Bates, Douglas M.; ca 1998), Kurt Hornik (partial port; ca 1998), Albrecht Gebhardt (partial port; Firth, David (2022-08-03), MASS: Support Functions and Datasets for Venables and Ripley's MASS, retrieved 2022-12-30
- ↑ Silverman، B. W. (۱۹۸۶). Density Estimation for Statistics and Data Analysis. شابک ۹۷۸-۰۴۱۲۲۴۶۲۰۳.
- ↑ Pimentel, Marco A. F.; Clifton, David A.; Clifton, Lei; Tarassenko, Lionel (2014-06-01). "A review of novelty detection". Signal Processing (به انگلیسی). 99: 215–249. doi:10.1016/j.sigpro.2013.12.026. ISSN 0165-1684.
- ↑ «CumFreq, free calculator, probability density function histogram». www.waterlog.info. دریافتشده در ۲۰۲۲-۱۲-۳۰.
- ↑ «CumFreq, distribution fitting of probability, free calculator». www.waterlog.info. دریافتشده در ۲۰۲۲-۱۲-۳۰.