پرسش هایی در رابطه با ارزیابی آماری داده ها

پرسش هایی در رابطه با ارزیابی آماری داده ها - نسخه‌ی قابل چاپ

پرسش هایی در رابطه با ارزیابی آماری داده ها - Lonely Palm - 31 شهریور ۱۳۹۳ ۰۶:۱۵ ب.ظ

سلام به همه ی دوستان
فرض کنید که دیتاست پایان نامه بصورت استاندارد وجود نداشته و خودمون با توجه به ویژگی های مورد نظرمون ایجادش کردیم و ساختیمش
داده ها رو به دو گروه تقسیم کردیم که گروه نرمال و غیرنرمال هستند(داده ها لیبل خوردند تا بعدا بدیمشون به الگوریتم های دسته بندی)
نتایج اولیه ی تست با چندین الگوریتم دسته بندی هم میزان قابل قبولی رو گزارش میده(خیلی سخت گیرانه بدست اومدند و با عین حال بسیار قابل قبولند)
حالا میخوایم از لحاظ آماری این دیتاست رو مورد بررسی قرار بدیم. بنابراین:
سوال اول: از چه ازمون های آماری برای اثبات طبیعی بودن دیتاست باید استفاده بشه؟ به دنبال چه ویژگی های اماری باشیم؟
سوال دوم: توی مقالات مرتبط دیدم که دسته بندی ها رو با آزمون های t تست جفتی و مان ویتنی، دوتا دوتا مقایسه کرده بودند، یعنی یک جدول کشیدند سطر و ستون الگوریتم های دسته بندی و بعد نسبت به هم دیگه براشون مان ویتنی یا t تست جفتی محاسبه کردن! ولی نفهمیدم ما نتایج دسته بندها رو مورد آزمون آماری قرار میدیم یا خود مجموعه ی داده ها رو؟ این نکته رو عرض کنم که اون مقالات پیش زمینه اغلب به دنبال اثبات این بودند که مدل پیشنهادی شون با بقیه ی دسته بندها متفاوت عمل می کنه ولی هدف من این نیست، هدف من اثبات خوب بودن ویژگی های انتخاب شده م هست که در این دیتاست وجود دارند
سوال سوم:می دونیم که هرچقدر تعداد sample های ما از هر کلاس بیشتر باشه، فاز یادگیری بهتر انجام میگیره و نتایجش بهتره و هرچقدر این تعداد کمتر باشه ضعیف تر میشه نتایج، حالا از کجا می تونیم تعداد بهینه ی sample ها رو برای هرکلاس پیدا کنیم که بدونیم دیگه از این تعداد بیشترش بهبود خاصی رو برای ما حاصل نمی کنه؟
دوستانی که به مباحث یادگیری ماشین و ارزیابی های آماری تسلط دارند ممنون میشم راهنمایی بفرمایند
با تشکر