آزمونسازی
ذخیره مقاله با فرمت پی دی اف
آزمونسازی، یکی از مباحث مطرح در
روانسنجی در علم
روانشناسی بوده و به معنای مبحثی پیرامون ساختن
آزمونهای روانشناختی در این علم میباشد. هر آزمون از چند
سؤال تشکیل شده است که جایگاه آزمودنی را در صفت مورد اندازهگیری تعیین میکند. در این مقاله بعد از بیان تعریف و تاریخچه بحث، به بررسی کاربرد و انواع آزمونها پرداخته و در نهایت به مباحثی چون روش تهیه
سؤالهای آزمون و روش تجزیه و تحلیل آنها،
اعتبار و روایی و
هنجار اشاره میکنیم.
قبل از وارد شدن به موضوع آزمونسازی، بهتر است با عباراتی مثل اندازهگیری (Measurement)، ارزشیابی (Evaluation) و سنجش (Assessment) که ممکن است مترادف با آزمون بهکار روند، بهطور خلاصه آشنا شویم. اندازهگیری، عبارت است از اختصاص دادن اعداد به افراد به شیوهای منظم و برای نشان دادن ویژگیهای آنها، اما آزمون عبارت است از، اندازهای عینی و استاندارد از چگونگی یک رفتار.
همانطور که از این تعاریف استنباط میشود مفهوم اندازهگیری اعم از آزمون است. آزمون، فقط نمونهای از رفتار را اندازه میگیرد. هر آزمون از چند
سؤال تشکیل شده است که جایگاه آزمودنی را در صفت مورد اندازهگیری تعیین میکند. ارزشیابی از نظر
کرونباخ (Cronbach) به عنوان گردآوری و کاربرد اطلاعات به منظور اخذ تصمیم درباره
برنامه آموزشی تعریف میشود و
بوبای (Boeby)، آن را فرایند نظامدار گردآوری و تفسیر شواهدی میداند که منجر به داوری ارزشی میشود و در نهایت به عمل میانجامد.
از طرف دیگر سنجش به نوعی اندازهگیری اطلاق میشود که در آن به جای آزمون یا علاوه بر آزمون وسایل دیگری نیز بهکار رود. به عبارت دیگر سنجش نوعی تحلیل بالینی و پیشبینی عملکرد فرد است.
اگرچه فعالیت در زمینه آزمونهای روانی بهصورت علمی از اواخر قرن نوزدهم میلادی آغاز شده است، اما اندیشه شناخت انسانها برای نیل به اهداف مختلف از زمانهای قدیم وجود داشته است. به عنوان مثال در امپراطوری چین قدیم کارکنان سازمانهای کشوری هر سه سال یکبار با استفاده از امتحانات شفاهی مورد آزمون قرار میگرفتند و نتایج این امتحانات به عنوان ملاکی برای
ارزشیابی عملکرد و ارتقای آنان مورد استفاده قرار میگرفت. اولین
آزمون روانی به معنی واقعی کلمه،
مقیاس هوشی بینه – سیمون است که در سال ۱۹۰۵ جهت اندازهگیری
هوش کودکان ساخته شد. به همین دلیل
بینه را پدر آزمونهای روانی قلمداد کردهاند. البته پیدایش آزمونهای روانی مدیون تلاشها و فعالیتهای علمی دانشمندان زیادی از جمله
فخنر،
وونت،
کتل،
گالتون و... است.
تا قبل از توسعه و کاربرد آزمونهای روانی، انتقادها و سرزنشهای زیادی به ذهنی بودن روانشناسی وارد میشد. روانشناسی پیش از پیدایش آزمونها در زمینه
فلسفه قرار داده میشد و در طبقهبندی علوم، جای مشخصی نداشت. اما ورود آزمونها ماهیتی تجربی به روانشناسی داد و آن را جزء یکی از علوم مهم و مطرح روز قرار داد. آزمونهای روانی برای اندازهگیری
تفاوتهای بینفردی یا تفاوتهای یک فرد در زمانهای مختلف، برای شناسایی عقبماندههای ذهنی، افراد دارای
اختلالات عاطفی و... بهکار میروند. از مهمترین زمینههای کاربرد آزمونها میتوان به موارد زیر اشاره کرد:
· کلینیکهای روانشناسی و روانپزشکی
· پیشبینی تواناییها و سایر ویژگیهای فردی
· گزینش افراد در سازمانهای مختلف
· طبقهبندی افراد
· ارزشیابی برنامهها و روشها.
آزمونها برحسب ملاکهای مختلفی قابل طبقهبندی هستند که ذیلا برخی از آنها ذکر میشود:
· از نظر شکلی: آزمونها به
مداد – کاغذی و
عملکردی تقسیم میشوند که در نوع اول آزمودنیها به سؤالات کتبی پاسخ میدهند و در نوع دوم عملکرد آنها در تکالیفی که ارائه میشود مشاهده میشود.
· از نظر شیوه اجرا: آزمونها به
فردی و
گروهی تقسیم میشوند.
· از نظر موضوعی: آزمونها به آزمونهای
توانایی،
مهارت و
پیشرفت،
شخصیت،
رغبت،
نگرش و... قابل تقسیم هستند.
· از نظر هدف: آزمونها به آزمونهای
پیشبینی و
تشخیصی تقسیم میشوند.
· از نظر محتوایی: آزمونها به انواع آزمونهای
هوش،
استعداد،
بالینی،
عینی،
فرافکن و... تقسیم میشوند.
برای ساخت یک آزمون این مراحل باید انجام گیرد:
الف. در ابتدا ویژگی یا رفتاری که قرار است آزمون برای اندازهگیری آن ساخته شود مشخص شده و به صورت عملیاتی تعریف میشود.
ب. اجزاء سازنده و حیطههای جزئی هر یک از حوزههایی که در تعریف عملیاتی آمده است مشخص میشود. به عنوان مثال اگر در تعریف عملیاتی اضطراب به نشانگان جسمانی و روانی آن اشاره شده است، علایم جسمانی و روانی آن تعیین میشود. این عمل نوعی تعیین روایی محتوایی منطقی است.
ج. برای هر یک از نشانگان یا حیطههایی که تعیین شده است سؤال طرح میشود. بدین منظور معمولا چندین سؤال کلی از موضوع مورد نظر طرح شده و در اختیار تعداد محدودی از جامعه هدف قرار داده میشود. پاسخها جمعآوری شده و عناصر مشترک آنها استخراج میشود و سپس افراد متخصص در موضوع مربوطه سؤالات یا گویههای مختلفی را برای هر یک از این عناصر طرح میکنند. تعداد سؤالها در این مرحله باید بیشتر از تعداد سؤالهایی باشد که قرار است در آزمون نهایی گنجانده شوند.
د. پس از تهیه سؤالات آزمون و تدوین پرسشنامه مقدماتی، آزمون بر روی نمونه کوچکی (حداقل ۵۰ نفر) اجرا میشود. این نمونه باید به صورت تصادفی از جامعهای که آزمون نهایی بر روی آنها اجرا خواهد شد انتخاب شود.
ه. پاسخهای آزمودنیها به هر یک از سؤالات آزمون مورد تجزیه و تحلیل قرار میگیرد و سؤالات نامناسب حذف یا در آنها تجدید نظر به عمل میآید. اگر تعداد سؤالات باقیمانده کمتر از سؤالات مورد نیاز باشد به مرحله سه و چهار بازگشته و پس از تدوین سؤالات جدید دوباره آنها بر روی گروه نمونه اجرا میشود.
و. در مرحله پایانی، یعنی هنجاریابی و تهیه نرمهای مورد نیاز، پرسشنامه نهایی روی نمونه بزرگتری که معرف جامعه هدف است اجرا شده و هنجارهای آزمون تهیه میشود تا بین دستورالعملهای اجرایی، شیوه نمرهگذاری و تفسیر نتایج، هماهنگی ایجاد شود.
سؤالات آزمون را از طرق مختلفی میتوان تجزیه و تحلیل کرد که به اختصار به برخی از آنها اشاره میشود:
این شاخص قدرت
سؤال را در تمایزگذاری یا تشخیص آزمودنیهای قوی و ضعیف نشان میدهد. اگر
ضریب تمییز سؤالی مثبت باشد نشانگر آن است که آن
سؤال قدرت تمییز بین گروه قوی و ضعیف را دارد و هر چه این ضریب بزرگتر باشد قدرت تمییز بیشتر است.
ضریب تمییز صفر نشان میدهد که آن
سؤال نمیتواند بین گروه قوی و ضعیف تمایزی قائل شود. اگر ضریب تمییز سؤالی منفی باشد بیانگر آن است که در آن
سؤال عملکرد گروه ضعیف بهتر از گروه قوی است! دلیل این امر میتواند اشکال فنی در
سؤال، آموزش غلط یا عدم آموزش گروه قوی باشد. این سؤالات باید حذف شوند یا تجدید نظر اساسی در آنها صورت گیرد.
یکی دیگر از راههای تحلیل
سؤالهای یک آزمون محاسبه
ضریب همبستگی بین نمره آزمونشوندگان در آن
سؤال و نمرات آنان در کل آزمون است. این ضریب همبستگی که معمولا به صورت همبستگی دو رشتهای نقطهای محاسبه میشود، در واقع ضریب توافق
سؤال با کل آزمون است. اگر آزمودنیهایی که در کل آزمون نمره بالایی دارند در
سؤال خاصی نمره بالا بگیرند و بر عکس اگر کسانی که در کل آزمون نمره پایینی دارند در آن
سؤال نمره پایینی بگیرند (یعنی
همبستگی زیادی با هم داشته باشند)، این
سؤال با کل آزمون همخوانی دارد.
تحلیل
سؤال از طریق حذف هر
سؤال و محاسبه همبستگی بقیه
سؤالها: در این روش ابتدا همبستگی کل
سؤالها محاسبه میشود و سپس با حذف یک یک سؤالات، همبستگی بقیه
سؤالها محاسبه میگردد. اگر ضریب همبستگی به دست آمده پس از حذف
سؤال از ضریب همبستگی اولیه که ضریب همبستگی کل
سؤالها است کمتر باشد بیانگر آن است که آن
سؤال،
سؤال خوبی است. ولی اگر ضریب به دست آمده از همبستگی کل بیشتر باشد نشانگر آن است که آن
سؤال سؤال ضعیفی است و بهتر است از آزمون حذف شود.
هدف اصلی
تحلیل عامل، ساده کردن توصیف دادهها از طریق تقلیل تعداد متغیرها یا ابعاد مورد مطالعه است. مثلا اگر آزمونی چهل
سؤال داشته باشد که از پنج عامل تشکیل شده است، به جای ارائه چهل نمره میتوان پنج نمره را جانشین نمره اصلی کرد. همچنین ممکن است هنگام ساختن آزمون تعدادی
سؤال نامربوط و ناهمگن از تحلیل عامل استفاده میشود.
اعتبار و روایی Reliability & Validity: از ویژگیهایی که هر آزمونی باید دارا باشد تا آزمونی استاندارد به حساب آید اعتبار و روایی است. منظور از
اعتبار، میزان اعتمادی است که میتوان به نتایج یک آزمون داشت. یعنی اگر آزمونی بهطور متوالی و با فاصله زمانی کوتاه بر روی تعدادی از افراد اجرا شود، نتایج به دست آمده باید از یک ثبات نسبی برخوردار باشد.
به عبارت دیگر اعتبار یک آزمون به دقت آن اشاره دارد. اگر آزمونی در هر بار اجرا روی یک گروه خاص، نتایج متفاوتی به بار آورد آن آزمون یک آزمون معتبر نیست. از روشهای تعیین اعتبار میتوان به
روش بازآزمایی،
فرمهای همارز،
همسانی درونی،
دو نیمه کردن آزمون و
محاسبه ضریب آلفا اشاره کرد.
روایی، عبارت است از توافق بین نمره آزمون با صفت و خصیصهای که آزمون برای اندازهگیری آن ساخته شده است. مهمترین عاملی که در ارزشیابی تست باید بدان توجه شود روایی آزمون است که مقصود از آن مناسب بودن، با معنا بودن و مفید بودن استنباطهای خاصی است که از روی نمرات آزمون به عمل میآید. برای تایید اینگونه استنباطها لازم است شواهدی جمعآوری شود که در
فرهنگ روانسنجی رواسازی آزمون گفته میشود. از انواع مختلف روایی، میتوان به روایی محتوایی، منطقی، ملاکی، سازه، همزمان، پیشبین، عاملی، صوری و... اشاره کرد.
هنجار یا نُرم Norm: نرم، عبارت است از حد متوسط حالات، معلومات یا خصیصه افرادی که در یک آزمون شرکت داشتهاند و تعداد حالات، معلومات یا خصایص افراد دیگر را میتوان با آن سنجید تا مشخص شود که فرد در مقایسه با افراد متجانس و مشابه خود در چه وضعیتی قرار دارد. به عبارت سادهتر میانگین نمرات گروه مرجع را نرم میگویند.
آزمودنیای که قرار است نمره او با نرم گروه مرجع تفسیر شود باید شبیه به آزمودنیهای آن گروه باشد. به عنوان مثال اگر آزمون روی کودکان هفت تا ده ساله هنجار شده است، نمیتوان نمره یک نوجوان پانزدهساله یا یک بزرگسال را با آن مقایسه کرد.
نرمها، دارای انواع متعددی هستند که معروفترین آنها عبارتند از
نرم سنی،
کلاسی،
درصدی و نمرههای معیار یا ترازشده. البته نرمهای کلاسی و سنی را تحت عنوان "
نرمهای تحولی" و نرمهای درصد و ترازشده را تحت عنوان "
نرمهای درونگروهی" نیز معرفی کردهاند.
•
سایت پژوهه، برگرفته از مقاله «آزمون سازی»، تاریخ بازیابی ۱۳۹۹/۰۶/۱۷.