أعلى 4 خصائص اختبار جيد

تلقي هذه المقالة الضوء على الخصائص الأربعة المهمة للاختبار الجيد. الخصائص الأربعة هي: 1. الموثوقية 2. الصلاحية 3. الهدف 4. سهولة الاستخدام.

المميزات # 1. الموثوقية:

القاموس المعنى الموثوق هو الاتساق أو الاعتماد أو الثقة. لذا فإن موثوقية القياس هي الاتساق الذي ينتج عن الاختبار نفس النتيجة في قياس أي شيء يقيسه. تدعى درجة الاختبار بأنها موثوقة عندما يكون لدينا سبب للاعتقاد بأن النتيجة ستكون مستقرة وجديرة بالثقة. يعتمد الاستقرار وجدارة الثقة على الدرجة التي تكون بها الدرجات هو مؤشر على الموثوقية الزمنية "خالية من خطأ الصدفة". لذلك يمكن تعريف الموثوقية بأنها درجة التناسق بين قياسين للشيء نفسه.

على سبيل المثال ، قمنا بإدارة اختبار تحصيلي على المجموعة A ووجدت متوسط ​​درجات 55. مرة أخرى بعد 3 أيام قمنا بإعطاء نفس الاختبار على المجموعة A ووجدنا متوسط ​​درجة 55. وهو يشير إلى أن أداة القياس (اختبار الإنجاز) يوفر نتيجة مستقرة أو يمكن الاعتماد عليها. من ناحية أخرى ، إذا كان الاختبار في الاختبار الثاني يوفر درجة مئوية تقارب 77 ، فيمكننا القول إن درجات الاختبار غير متسقة.

على حد تعبير Gronlund و Linn (1995) ، تشير "الموثوقية إلى تناسق القياس" ، أي مدى اتساق درجات الاختبار أو نتائج التقييم الأخرى من قياس إلى آخر. "

حدد CV Good (1973) الموثوقية بأنها "الجدارة التي يقيس بها جهاز القياس شيئًا ما ؛ الدرجة التي يقيس بها الاختبار أو أي وسيلة أخرى لتدابير التقييم باستمرار مهما كان قياسها في الواقع. "

ووفقًا لما ذكره إيبِل وفريسبي (1991) ، فإن مصطلح الموثوقية يعني الاتساق الذي تقيس به مجموعة درجات الاختبار كل ما تقيسه.

من الناحية النظرية ، يتم تعريف الموثوقية على أنها نسبة النتيجة الحقيقية وتفاوت درجة الملاحظة.

وفقًا لـ Davis (1946) ، "يتم تعريف درجة الدقة النسبية لقياس مجموعة من نقاط الاختبار على أنها موثوقية".

وبالتالي فإن الموثوقية تجيب على الأسئلة التالية:

Gronlund and Linn (1995)

ما مدى تطابق درجات الاختبار إذا تم إعطاء الضياع مرتين؟

ما مدى تطابق درجات الاختبار إذا تم إعطاء شكلين متكافئين من الاختبارات؟

إلى أي مدى درجات أي اختبار مقال. تختلف عندما يتم تسجيله من قبل المعلمين المختلفين؟

ليس من الممكن دائمًا الحصول على نتائج متناسقة تمامًا. لأن هناك العديد من العوامل مثل الصحة البدنية ، الذاكرة ، التخمين ، التعب ، النسيان إلخ. مما قد يؤثر على النتائج من قياس إلى آخر. قد تقدم هذه المتغيرات الدخيلة بعض الخطأ إلى درجات الاختبار لدينا. يسمى هذا الخطأ باسم أخطاء القياس. لذا عند تحديد موثوقية الاختبار يجب أن نأخذ في الاعتبار مقدار الخطأ الموجود في القياس.

طبيعة الموثوقية:

1. تشير الموثوقية إلى اتساق النتائج التي تم الحصول عليها باستخدام أداة ولكن ليس الأداة نفسها

2. تشير الموثوقية إلى تفسير معين لدرجات الاختبار. على سبيل المثال ، قد لا يمكن الاعتماد على درجة اختبار موثوق بها خلال فترة زمنية من اختبار واحد إلى اختبار آخر مكافئ. بحيث لا يمكن التعامل مع الاعتمادية كخصائص عامة.

3. الموثوقية هي مفهوم إحصائي لتحديد الاعتمادية التي ندير بها اختبارًا لمجموعة ما مرة واحدة أو أكثر. ثم يتم تحديد الاتساق من حيث التحولات في الوضع النسبي للشخص في المجموعة أو مقدار التباين المتوقع في درجة الفرد. ويتعلق تحويل الموقع النسبي للفرد عن طريق معامل ارتباط يسمى "معامل الاعتمادية" ، ويتم الإبلاغ عن مقدار التباين عن طريق "الخطأ القياسي في القياس". كل من هذه العمليات إحصائية.

4. الموثوقية ضرورية ولكنها ليست شرطًا كافيًا للصلاحية. الاختبار الذي لا يمكن الاعتماد عليه لا يمكن أن يكون صحيحًا. ولكن ليس ذلك أن الاختبار ذو الموثوقية العالية سيحظى بصلاحية عالية. لأن الاختبار المتسق قد يقيس شيئًا آخر غير ما نعتزم قياسه.

طرق تحديد الاعتمادية:

بالنسبة لمعظم الاختبارات التعليمية ، يوفر معامل الاعتمادية أعلى مؤشر إحصائي يكشف عن الجودة والمتوفر عادةً. توفر تقديرات موثوقية الاختبار معلومات أساسية للحكم على جودتها الفنية وتحفيز الجهود لتحسينها. يتم التعبير عن اتساق درجة الاختبار إما من حيث التحولات في الوضع النسبي للفرد في المجموعة أو من حيث مقدار التباين في درجة الفرد.

على أساس هذا التقدير من الموثوقية تقع في اثنين من التصنيفات العامة:

(أنا) الموثوقية النسبية أو معامل الاعتمادية:

في هذه الطريقة ، يتم تحديد الموثوقية من حيث معامل الارتباط المعروف باسم معامل الموثوقية. ومن ثم فإننا نحدد التحول في الموقف النسبي لدرجة الفرد من خلال معامل الارتباط.

(2) الموثوقية المطلقة أو الخطأ القياسي للقياس:

في هذه الطريقة ، يتم تحديد الاعتمادية من حيث الخطأ القياسي للقياس. يشير إلى مقدار التباين في درجة الفرد.

طرق تحديد الاعتمادية النسبية أو معامل الاعتمادية:

من أجل تحديد معامل الموثوقية ، يجب علينا الحصول على مجموعتين من القياسات في حالة متطابقة ومن ثم المقارنة بين المجموعتين. ولكنها ليست سوى شرط نظري ، لأنه من المستحيل من جانبنا الحصول على قياسين على شرطين متطابقين بالضبط. بحيث تم تطوير العديد من الطرق لتحديد الموثوقية النسبية.

وهي كما يلي (Gronlund و Linn - 1995):

(ط) يمكن إعطاء نفس شكل الاختبار مرتين لنفس المجموعة من الأفراد.

(ب) يمكن إعطاء شكلين منفصلين ولكن معادلين للاختبار لنفس الأفراد.

(3) تنقسم عناصر الاختبار في اختبار واحد إلى مجموعتين منفصلتين وترتبط درجات مجموعتين.

والطرق متشابهة في أن جميعها تنطوي على ربط مجموعتين من البيانات ، يتم الحصول عليها إما من نفس أداة التقييم أو من أشكال مماثلة من نفس الإجراء. يجب تفسير معامل الاعتمادية هذا من حيث أنواع الاتساق الجاري بحثه.

يتم تحديد أنواع مختلفة من الاتساق بطرق مختلفة. هذه هي كما يلي:

1. الاتساق على مدى فترة من الزمن.

2. الاتساق على أشكال مختلفة من الصك.

3. الاتساق داخل الصك نفسه

هناك أربع طرق لتحديد معامل الاعتمادية ، مثل:

(أ) طريقة إعادة الاختبار.

(ب) الأشكال المكافئة / الأشكال الموازية.

(ج) طريقة الانقسام النصفى.

(د) أسلوب التكافؤ العقلاني / Kuder-Richardson.

(أ) طريقة إعادة الاختبار:

هذه هي أبسط طريقة لتحديد موثوقية الاختبار. لتحديد الاعتمادية في هذه الطريقة يتم إعطاء الاختبار وتكراره على نفس المجموعة. ثم يتم الحصول على العلاقة بين المجموعة الأولى من الدرجات والمجموعة الثانية من الدرجات.

يشير معامل الارتباط العالي إلى الاستقرار العالي في درجات الاختبار. على حد تعبير Gronlund ، يتم الإبلاغ عادة عن مقاييس الاستقرار في .80's و .90's للاختبارات القياسية في مناسبات خلال نفس العام. لكن هذه الطريقة تعاني من بعض العيوب الخطيرة. بادئ ذي بدء ، ما ينبغي أن يكون الفاصل بين إدارتين.

إذا كانت تدار في غضون فترة قصيرة تقول يوم أو يومين ، سيتذكر التلميذ إجاباته الأولى ويقضي وقته في المواد الجديدة. سوف تميل إلى زيادة درجاتهم في الإدارات الثانية. إذا آان الفاصل الزمني طويل للغاية لمدة عام واحد ، فإن تأثير النضج سيؤثر على نتائج الاختبار وسيميل إلى زيادة نتائج إعادة الاختبار.

في كلتا الحالتين سوف تميل إلى خفض الموثوقية. إذن ، ما ينبغي أن تكون الفجوة الزمنية بين إدارتين تعتمد إلى حد كبير على استخدام وتفسير درجات الاختبار. بسبب الصعوبات التي يواجهها في السيطرة على الظروف التي تؤثر على عشرات إعادة الاختبار ، ويقلل من استخدام طريقة اختبار إعادة الاختبار في تقدير معامل الموثوقية.

(ب) النماذج المكافئة للنماذج / النماذج الموازية:

يمكن تقدير موثوقية درجات الاختبار بطريقة الأشكال المكافئة. كما يُعرف أيضًا باسم النماذج البديلة أو طريقة الأشكال المتوازية. عندما يمكن بناء شكلين متكافئين من الاختبارات ، يمكن اعتبار الارتباط بين الاثنين بمثابة مقاييس الارتباط الذاتي للاختبار. في هذه العملية ، يتم إعطاء شكلين متوازيين من الاختبارات لنفس مجموعة التلاميذ في فاصل زمني قصير ، ثم ترتبط درجات كل من الاختبارات. توفر هذه العلاقة مؤشر التكافؤ. عادة في حالة الاختبارات النفسية والإنجازات القياسية تتوفر الأشكال المكافئة.

يجب أن تكون كل من الاختبارات المختارة للإدارة متوازية من حيث المحتوى والصعوبة والشكل والطول. عندما يتم توفير فجوة زمنية بين إدارات شكلين من الاختبارات ، يوفر معامل درجات الاختبار مقياسًا للاعتمادية والمعادلة. لكن العيب الرئيسي في هذه الطريقة هو الحصول على شكلين متوازيين من الاختبارات. عندما لا تكون الاختبارات متساوية تمامًا من حيث المحتوى ، فإن الصعوبة والطول والمقارنة بين الدرجات التي تم الحصول عليها من هذه الاختبارات قد تؤدي إلى قرارات خاطئة.

(ج) طريقة التقسيم نصف:

هناك أيضًا طرق يمكن من خلالها تحديد الموثوقية من خلال إدارة واحدة من اختبار واحد. واحدة من هذه الطريقة هي طريقة تقسيم النصف. في هذه الطريقة يتم إجراء اختبار لمجموعة من التلاميذ بالطريقة المعتادة. ثم ينقسم الاختبار إلى قيمتين متكافئتين ووجد الارتباط بينهما في هذه الاختبارات النصفية.

يتمثل الإجراء الشائع لتقسيم الاختبار في أخذ جميع العناصر ذات الأرقام الفردية ، أي 1 ، 3 ، 5 ، وما إلى ذلك في النصف ، وجميع البنود ذات الأرقام الزوجية مثل 2 و 4 و 6 و 8 وما إلى ذلك في النصف الآخر. ترتبط نصفين باستخدام صيغة Spearman- براون.

على سبيل المثال من خلال ربط كل من نصفين وجدنا معامل 0.70.

باستخدام الصيغة (5.1) يمكننا الحصول على معامل الموثوقية في الاختبار الكامل على النحو التالي:

معامل الموثوقية .82 عندما يكون معامل الارتباط بين اختبار نصف هو. وهو يشير إلى أي مدى تمثل عينة عناصر الاختبار عينة يمكن الاعتماد عليها للمحتوى الجاري قياسه - الاتساق الداخلي.

ويرى Gronlund (1995) أن "تقسيم نصف الموثوقية يميل إلى أن يكون أعلى من الاعتمادات من حيث التكلفة المكافئة لأن طريقة النصف المقسمة تعتمد على إدارة نموذج اختبار واحد". هذه الطريقة تفوق مشكلة طريقة النماذج المكافئة المقدمة بسبب الاختلافات من الشكل إلى الشكل ، في الانتباه ، وسرعة العمل ، والجهد ، والتعب ومحتوى الاختبار إلخ.

(د) الأسلوب المكافئ الرشيد / كودر ريتشاردسون

التكافؤ العقلاني هو طريقة أخرى لتحديد الاعتمادية باستخدام الصيغة التي طورها Kuder و Richardson. مثل الطريقة نصف المقسمة توفر هذه الطريقة أيضًا مقياسًا للاتساق الداخلي. فهو لا يتطلب إدارة شكلين متكافئين من الاختبارات ولا يتطلب تقسيم الاختبارات إلى نصفين متساويين. يتم تحديد معامل الاعتمادية باستخدام صيغة Kuder-Richardson-20 التي تقرأ مثل هذا.

توفر هذه الطريقة معلومات حول درجة قياس العناصر الموجودة في الاختبار لخصائص مماثلة. على الرغم من بساطة تطبيق هذه الطريقة جعلت انتشاره على نطاق واسع لا يزال لديه بعض القيود.

1. طريقة Kuder-Richardson وطريقة نصف الفصل ليست مناسبة لاختبارات السرعة.

2. لا يقيس كل من Kuder-Richardson و طريقة الفصل النصف اتساق استجابة التلميذ من يوم لآخر.

3. طريقة Kuder-Richardson مرهقة لحساب ما لم تكن المعلومات متوفرة بالفعل بشأن نسبة الممر.

طرق تحديد الموثوقية المطلقة أو الأخطاء القياسية للقياس:

إذا قمنا بإجراء اختبار مراراً وتكراراً ، فسوف نجد بعض التباين في النتائج. لأن النتيجة التي يتم الحصول عليها هي مؤشر من الدرجة الحقيقية في الممتحن بالإضافة إلى: أخطاء القياس. لقد حدد HE Garrett (1985) درجة حقيقية بأنها "مقياس يتم الحصول عليه عن طريق أخذ متوسط ​​عدد لا نهائي من قياس شخص معين في اختبارات مماثلة في ظروف مشابهة. لا يمكن بالطبع تحديد النتيجة الحقيقية تجريبيًا " .

إذا كانت درجات الاختبار تتضمن مكونًا كبيرًا من الخطأ ، فإن موثوقيتها منخفضة وإذا تضمنت القليل من الأخطاء ، فإن موثوقيتها عالية. وبالتالي فإن المدى الذي تتجاوزه النتيجة الحقيقية ، يمكن أن يشير إلى الخطأ في النتائج التي تم الحصول عليها من خلال معامل الموثوقية.

يمكن التعبير عن هذه العلاقة بين الدرجة الحقيقية والدرجات التي تم الحصول عليها والخطأ رياضيا على النحو التالي:

يمكننا معرفة الخطأ القياسي للقياس (SE) عند إعطاء معامل الاعتمادية والانحراف المعياري للتوزيع.

تكون الصيغة (Garrett — 1985) لحساب الخطأ القياسي للقياس كما يلي:

على سبيل المثال في مجموعة من 200 طالب في مدرسة ثانوية ، فإن معامل الموثوقية لاختبار التحصيل في الرياضيات هو .70 ، يعني = 65 و o = 20. يحقق Lipu درجة 60. ما هو SE من هذه النتيجة.

بوضع القيمة في الصيغة (5.3):

لذا فإن النتيجة الحقيقية لـ Lipu هي 60 ± 10.95 أي 70.50 إلى 49.05.

لا تخبرنا أي درجة تم الحصول عليها ما هي النتيجة الحقيقية ، ولكن معرفة SE تشير إلى الفرق بين درجة حصلت والنتيجة الحقيقية. عندما تكون SE صغيرة ، فإنها تشير إلى أن الدرجة الحقيقية أقرب إلى الدرجة التي تم الحصول عليها ، كما أنها تشير إلى ما إذا كان الفرق بين عشرات شخصين هو فرق حقيقي أو فرق بسبب أخطاء القياس.

العوامل التي تؤثر على الموثوقية:

هناك عدد من العوامل التي تؤثر على مقاييس الموثوقية. لذلك عندما نقوم بتفسير واستخدام الدرجات ، يجب أن نكون حذرين وأن نتلاعب بهذه العوامل من خلال إعداد الاختبار وإدارته.

العوامل الرئيسية التي تؤثر على موثوقية الاختبار ، يمكن تصنيف الدرجات إلى ثلاثة عناوين:

1. العوامل المتعلقة بالاختبار.

2. العوامل المتعلقة بالمتلقي.

3. العوامل المتعلقة بإجراء الاختبار.

1. العوامل المتعلقة بالاختبار:

(أ) طول الاختبار:

تشير صيغة Spearman Brown إلى أن الاختبار أطول ، كلما زادت الموثوقية. لأن الاختبار الأطول سيوفر عينة كافية من السلوك. سبب آخر هو أن عامل التخمين هو عرضة للتحييد في اختبار أطول.

على سبيل المثال ، إذا أردنا إعطاء حساب واحد لقياس القدرة العددية للطلاب. أولئك الذين يحسبون بشكل صحيح هي مثالية في القدرة العددية أولئك الذين فشلت هي الفشل الكامل. إذا كان الحساب صعبًا ، فسيخفق معظم الطلاب. إذا كان الأمر سهلاً ، فسيحسبه معظم الطلاب بشكل صحيح. بحيث لا تعطي نتيجة العنصر الواحد أبداً نتيجة موثوقة.

(ب) محتوى الاختبار:

وفقا لتجانس Guilford من محتوى الاختبار أيضا يزيد من موثوقية درجات الاختبار. اختبار 50 مادة في Vedic Civilization سيوفر نتائج أكثر موثوقية من اختبار 50 سلعة في التاريخ الهندي. ووفقًا لما ذكره إيبل (1991) ، فإن "الموضوع في بعض الدورات ، مثل الرياضيات واللغة الأجنبية ، أكثر تنظيماً ، مع ترابط أكبر بين الحقائق ، وقدرات المبادئ والإنجازات ، مقارنةً بالمواد الأدبية أو التاريخ". هو أيضا عامل النتائج التي هي موثوقية عالية.

(ج) خصائص العناصر:

يؤثر مستوى الصعوبة و وضوح التعبير لبند الاختبار أيضًا على موثوقية درجات الاختبار. إذا كانت عناصر الاختبار سهلة للغاية أو صعبة بالنسبة لأعضاء المجموعة ، فإنها ستنتج عشرات من الموثوقية المنخفضة. لأن كل من الاختبارات لها انتشار محدود للنتائج.

(د) انتشار الدرجات:

وفقا لغرونلند ومين (1995) "الأمور الأخرى متساوية ، كلما كان انتشار الدرجات أكبر كلما زاد تقدير الموثوقية." عندما يكون انتشار الدرجات كبيرًا ، يكون هناك فرصة أكبر للفرد للبقاء في نفس المستوى. الموقف النسبي في مجموعة من اختبار واحد إلى آخر. يمكننا أن نقول أن أخطاء القياس تؤثر بشكل أقل على الوضع النسبي للفرد عندما يكون انتشار الدرجات كبيرًا.

على سبيل المثال ، في المجموعة الأولى ، حصل الطلاب على علامات تتراوح من 30 إلى 80 وفي المجموعة الثانية حصل الطالب على علامات تتراوح من 65 إلى 75. وإذا قمنا بإجراء الاختبارات للمرة الثانية في المجموعة (أ) ، يمكن أن تختلف درجات الاختبار من عدة نقاط ، مع القليل جدا من التحول في الموقف النسبي لأعضاء المجموعة. ذلك لأن انتشار الدرجات في المجموعة أ كبير.

من ناحية أخرى ، فإن النتائج في المجموعة (ب) من المرجح أن تنقل المواقف في الإدارة الثانية للاختبار. وبما أن انتشار الدرجات هو 10 نقاط فقط من أعلى الدرجات إلى أدنى الدرجات ، فإن تغيير بعض النقاط قد يؤدي إلى تغيرات جذرية في الوضع النسبي للأفراد. وبالتالي ، كلما زاد الانتشار ، زادت الموثوقية.

2. العوامل المتعلقة بالمتلقي:

كما يؤثر التباين في الإنجاز ، واختبار الأفراد ، ودافعية الطلاب على موثوقية درجات الاختبار.

فيما يلي بعض العوامل المهمة مع الممتحنين التي تؤثر على موثوقية الاختبار:

(أ) عدم التجانس للمجموعة:

عندما تكون المجموعة عبارة عن مجموعة متجانسة ، من المرجح أن يكون انتشار درجات الاختبار أقل ، وعندما تكون المجموعة هي مجموعة غير متجانسة ، فمن المرجح أن يكون انتشار النتائج أكثر. لذلك سيكون معامل الموثوقية لمجموعة غير متجانسة أكثر من مجموعة متجانسة.

(ب) اختبار شفقة الطلاب:

تجربة اختبار أخذ تؤثر أيضا على موثوقية درجات الاختبار. ممارسة الطلاب في أخذ اختبارات متطورة تزيد من موثوقية الاختبار. ولكن عندما لا يكون لدى الطلاب في مجموعة ما نفس مستوى اختبار الاختبار ، فإنه يؤدي إلى أخطاء قياس أكبر.

(ج) تحفيز الطلاب:

عندما لا يكون الطلاب متحمسين لإجراء الاختبار ، فإنهم لن يمثلوا أفضل إنجاز لهم. هذا يقلل من درجات الاختبار.

3. العوامل المتعلقة بإجراء الاختبار:

بما أن العوامل المتعلقة بالاختبار والعوامل المرتبطة بالحصص تؤثر على موثوقية درجات الاختبار ، فإن العوامل المتعلقة بإجراءات الاختبار تؤثر أيضًا على درجات الاختبار. إذا تمكن مستخدمو الاختبار من التحكم في هذه العوامل ، فيمكنهم زيادة تناسق درجات الاختبار.

(أ) الحد الزمني للاختبار:

وفقا ل Ebel و Frisbie (1991) "ستظهر النتائج من الاختبار المعطى في ظل ظروف عالية السرعة عادةً معامل اعتمادية تناسق داخلي أعلى من الذي سيتم الحصول عليه للحصول على درجات من نفس الاختبار المعطى إلى نفس المجموعة تحت حدود زمنية أكثر سخاءً". عندما يحصل الطلاب على مزيد من الوقت لإجراء الاختبار ، يمكنهم إجراء المزيد من التخمين ، مما قد يزيد من درجات الاختبار. لذلك من خلال تسريع اختبار يمكننا زيادة موثوقية الاختبار.

(ب) فرصة الغش التي تعطى للطلاب:

الغش من قبل الطلاب أثناء إدارة الاختبار يؤدي إلى أخطاء القياس. قد يقدم بعض الطلاب إجابة صحيحة عن طريق نسخها من أوراق الغش أو الاستماع من الطلاب الآخرين دون معرفة الإجابة الصحيحة. سيؤدي ذلك إلى درجة أعلى من هؤلاء الطلاب مما يستحقون بالفعل. هذا سيجعل النتيجة الملحوظة للغشاشين أعلى من درجاتهم الحقيقية.

كيف أعلى يجب أن تكون الموثوقية؟

من الواضح أن أجهزة التقييم لا يمكن الاعتماد عليها تمامًا. يعتمد مدى عدم موثوقية الاختبار وما زال مفيدًا بشكل أساسي على مدى دقة التمييز المطلوب من درجات الاختبار. (Rem-mers. 1967) تعتمد درجة معامل الاعتمادية على طبيعة الاختبار وحجم المجموعة وتغيرها والغرض الذي تم من أجله إجراء الاختبار والطريقة المستخدمة لتقدير الموثوقية. قد يكون الاختبار ذو الموثوقية المنخفضة ذو صلاحية أعلى وبالتالي يمكن استخدامه. ولكن في تعبيرات Remmers (1967) "إن معظم الاختبارات المعيارية المنشورة للاستخدام في المدرسة لها معاملات موثوقية لا تقل عن 0.8 في السكان التي صممت من أجلها.

عندما يختار المرء اختبارًا موحدًا لتفسير نتائجه ، فإنه لا يكفي مجرد النظر إلى القيمة العددية لتقدير الموثوقية ، يجب على المرء أيضًا أن يأخذ بعين الاعتبار كيفية الحصول على هذا التقدير. وقد لاحظ Gronlund (1976) حول أهمية أساليب تقدير الموثوقية.

وفقا له "طريقة تقسيم النصف يعطي أكبر القيم العددية لمعامل الموثوقية. تميل طريقة الأشكال المكافئة واختبار إعادة الاختبار إلى إعطاء قيمة عددية أقل لمعامل الموثوقية. عادة ما توفر هاتان الطريقتان معامل الموثوقية المتوسط ​​إلى الكبير. توفر طريقة الأشكال المكافئة عادة معامل موثوقية أصغر في اختبار معين. "

لذلك يمكن القول أن المعلم يجب أن يبحث عن اختبار موحد تكون موثوقيته عالية قدر الإمكان. ولكن يجب عليه تفسير معامل الموثوقية هذا في ضوء مجموعات التلاميذ التي يعتمد عليها ، وتغير هذه المجموعة وطرق تقدير الموثوقية.

خاصية # 2.صلاحية:

"في اختيار أو بناء أداة تقييم ، يكون السؤال الأكثر أهمية هو: إلى أي مدى ستخدم النتائج الاستخدامات الخاصة التي يقصد بها؟ هذا هو جوهر الصلاحية. " —GRONLUND

تعتبر الصلاحية هي أهم سمات برنامج التقييم ، لأنه ما لم يكن الاختبار صالحًا ، فإنه لا يخدم أي وظيفة مفيدة. يستخدم علماء النفس ، والمعلمون ، ومرشدو التوجيه نتائج الاختبار لمجموعة متنوعة من الأغراض. من الواضح أنه لا يمكن تحقيق أي غرض ، ولو جزئيا ، إذا لم تكن الاختبارات ذات درجة عالية من الصحة. صحة تعني الحقيقة - الامتلاء من الاختبار. وهذا يعني إلى أي مدى يقيس الاختبار ذلك ، ما يعتزم صانع الاختبار قياسه.

ويشمل جانبين:

ما يتم قياسه وكيف يتم قياسه باستمرار. إنها ليست خاصية اختبار ، ولكنها تشير إلى معنى درجات الاختبار والطرق التي نستخدم بها الدرجات لاتخاذ القرارات. وبعد التعريفات التي قدمها الخبراء سوف يعطي صورة واضحة عن الصلاحية.

Gronlund and Linn (1995) - تشير "الصلاحية" إلى ملاءمة التفسير المصنوع من نتائج الاختبارات ونتائج التقييم الأخرى فيما يتعلق باستخدام معين. "

Ebel and Frisbie (1991) - "يشير مصطلح الصلاحية ، عند تطبيقه على مجموعة من درجات الاختبار ، إلى الاتساق (الدقة) الذي تقيس به الدرجات قدرة معرفية معينة للاهتمام."

السيرة الذاتية الجيدة (1973) - في قاموس التربية يحدد المصطلح "المدى الذي يحقق فيه اختبار أو أداة قياس أخرى الغرض المستخدم من أجله."

كتبت آن أناستاسي (1969) "إن صلاحية الاختبار تتعلق بما يقيسه الاختبار ومدى نجاحه".

ووفقًا لصحيفة ديفيس (1964) فإن الصلاحية هي المدى الذي يكون فيه ترتيب درجات درجات الاختبار التي يكون الاختبار مناسبًا لها هو نفس ترتيب الترتيب لنفس الاختبارات في الخاصية أو الخاصية التي يتم استخدامها لإجراء الاختبار . تسمى هذه الخاصية أو الخاصية المعيار. وبما أن أي اختبار يمكن استخدامه لأغراض عديدة ومختلفة ، فإن ذلك قد يعني أنه قد يكون له العديد من الصلاحيات التي تقابل كل معيار. "

يعرِّف فريمان (1962) قائلاً: "يُظهر مؤشر الصلاحية الدرجة التي يقيس بها الاختبار ما يقصد قياسه ، عند مقارنته بالمعايير المقبولة".

وقد قال ليندكويست (1942): "يمكن تعريف صلاحية الاختبار على أنه الدقة التي يقيس بها ما هو المقصود قياسه ، أو درجة إصابته بالعصمة في قياس ما يُدعى لقياسه".

من التعريفات الواردة أعلاه ، من الواضح أن صلاحية جهاز التقييم هي درجة قياسه لقياس الغرض منه. الصلاحيه دائما ما تكون معنية بالاستخدام المحدد للنتائج وسلامة تفسيرنا المقترح.

ليس من الضروري أيضًا أن يكون الاختبار الموثوق به صالحًا أيضًا. على سبيل المثال ، لنفترض أن الساعة مضبوطة لمدة عشر دقائق. إذا كانت الساعة وقتًا جيدًا ، فسيكون الوقت الذي تخبرنا به موثوقًا. لأنه يعطي نتيجة ثابتة. ولكنها لن تكون صحيحة كما تم الحكم عليها من خلال "التوقيت القياسي". يشير هذا إلى "المفهوم القائل بأن الموثوقية ضرورية ولكنها ليست شرطًا كافيًا للصلاحية".

طبيعة الصلاحية:

1. تشير الصلاحية إلى ملاءمة نتائج الاختبار ولكن ليس إلى الأداة نفسها.

2. لا توجد صلاحية على أساس كل شيء أو لا شيء ولكنها مسألة درجة.

3. الاختبارات غير صالحة لجميع الأغراض. صلاحية محددة دائما لتفسير معين. على سبيل المثال ، قد تكون نتائج اختبار المفردات عالية الصلاحية لاختبار المفردات ولكنها قد لا تكون صالحة بشكل كبير لاختبار قدرة الطالب على تكوينها.

4. الصلاحية ليست من أنواع مختلفة. إنه مفهوم وحدوي. ويستند إلى أنواع مختلفة من الأدلة.

العوامل المؤثرة على الصلاحية:

مثل الموثوقية هناك أيضا العديد من العوامل التي تؤثر على صحة درجات الاختبار. هناك بعض العوامل التي يتم تنبيهنا بشأنها ويمكن تجنبها بسهولة. ولكن هناك بعض العوامل التي نجهلها ونجعل نتائج الاختبار غير صالحة للاستخدام المقصود منها.

بعض من هذه العوامل هي على النحو التالي:

1. العوامل في الاختبار:

(1) توجيهات غير واضحة للطلاب للرد على الاختبار.

(2) صعوبة في قراءة المفردات وتركيب الجمل.

(3) عناصر اختبار سهلة أو صعبة للغاية.

(4) العبارات الملتبسة في بنود الاختبار.

(5) عناصر اختبار غير ملائمة لقياس نتيجة معينة.

(السادس) الوقت غير كافية المقدمة لإجراء الاختبار.

(7) طول الاختبار قصير جدًا.

(8) عناصر الاختبار غير مرتبة حسب الصعوبة.

(التاسع) نمط قابل للإثبات من الأجوبة.

العوامل في إدارة الاختبار وسجل:

(1) المعونة غير العادلة للطلاب الفرديين ، الذين يطلبون المساعدة ،

(2) الغش من قبل التلاميذ أثناء الاختبار.

(3) التسجيل غير الموثوق به لإجابات نوع المقالات.

(4) عدم كفاية الوقت لإكمال الاختبار.

(5) الحالة الجسدية والنفسية الضارة في وقت الاختبار.

العوامل المتعلقة بالموحق:

(ط) اختبار القلق من الطلاب.

(2) الحالة البدنية والنفسية للتلميذ ،

(3) مجموعة الاستجابة - اتجاه ثابت لاتباع نمط معين في الرد على العناصر.

سمة # 3.الموضوعية:

الموضوعية هي خاصية مهمة لاختبار جيد. يؤثر على صحة وموثوقية درجات الاختبار. تعارض موضوعية أداة القياس الدرجة التي يصل إليها الأشخاص المختلفون الذين يسجلون إيصال الإجابة عند نفس النتيجة. يعرف CV Good (1973) الموضوعية في الاختبار هو "مدى خلو الجهاز من الخطأ الشخصي (التحيز الشخصي) ، وهذا هو الذاتية من جانب الهداف".

يقول Gronlund و Linn (1995) "تشير موضوعية الاختبار إلى الدرجة التي تحصل فيها الدرجات المختصة على قدم المساواة على النتائج نفسها. لذلك يعتبر الاختبار موضوعيًا عندما يُلغي القرار الشخصي للحُكم وقرار التحيز. في هذا السياق ، هناك جانبان للموضوعية يجب مراعاتهما أثناء بناء الاختبار ".

(1) الموضوعية في التسجيل.

(2) الموضوعية في تفسير بنود الاختبار من جانب المحاضر.

(1) موضوع التسجيل:

الهدف من تسجيل النقاط يعني أن الشخص نفسه أو الأشخاص المختلفين الذين يحرزون الاختبار في أي وقت يصلون إلى نفس النتيجة بدون خطأ في الصدفة. يجب أن يكون الاختبار حتى يكون موضوعيا بالضرورة بحيث يمكن إعطاء الإجابة الصحيحة فقط له. بمعنى آخر ، لا ينبغي أن يكون الحكم الشخصي للفرد الذي يسجل نص الإجابة عاملاً يؤثر على درجات الاختبار. بحيث يمكن الحصول على نتيجة الاختبار بطريقة بسيطة ودقيقة إذا كان إجراء التسجيل الهدف. يجب أن يكون إجراء تسجيل النقاط بحيث لا يكون هناك أي شك في ما إذا كان أحد العناصر صحيحًا أم خاطئًا أو صحيحًا جزئياً أو جزئياً.

(2) موضوعية عناصر الاختبار:

ونقصد بالموضوعية الموضوعية أن البند يجب أن يستدعي إجابة واحدة محددة. يجب أن تؤدي عناصر الاختبار ذات البناء الجيد إلى تفسير واحد فقط من قبل الطلاب الذين يعرفون المواد المعنية. هذا يعني أن عناصر الاختبار يجب أن تكون خالية من الغموض. يجب أن يعني عنصر الاختبار المعطى نفس الشيء لجميع الطلاب الذين ينوي صانع الاختبار طرحه. يجب عدم تضمين الجمل ذات المعنى المزدوج ، العناصر التي تحتوي على أكثر من إجابة واحدة صحيحة في الاختبار لأنها تجعل الاختبار ذاتيًا.

خاصية # 4. سهولة الاستخدام:

القابلية للاستخدام هي خاصية مهمة أخرى لأدوات القياس. لأن الاعتبارات العملية لأدوات التقييم لا يمكن إهمالها. يجب أن يكون للاختبار قيمة عملية من حيث الوقت والاقتصاد وجهة نظر الإدارة. يمكن أن يسمى هذا على أنه قابلية الاستخدام.

لذلك يجب أن تؤخذ الجوانب العملية التالية بعين الاعتبار أثناء بناء أو اختيار الاختبار:

(ط) سهولة الإدارة:

وهو ما يعني أن الاختبار يجب أن يكون سهلًا بحيث يمكن لمدرسي غرفة الصف استخدامه. لذلك ينبغي إعطاء توجيهات بسيطة وواضحة. يجب أن يمتلك الاختبار اختبارات فرعية قليلة جدًا. يجب ألا يكون توقيت الاختبار صعبًا جدًا.

(2) الوقت اللازم للإدارة:

يجب توفير حد زمني مناسب لإجراء الاختبار. إذا من أجل توفير وقت كافٍ لإجراء الاختبار ، فسوف نجعل الاختبار أقصر من موثوقية الاختبار. ويرى كل من Gronlund و Linn (1995) أن "ما بين 20 إلى 60 دقيقة من وقت الاختبار لكل نتيجة فردية يتم الحصول عليها من خلال اختبار منشور ربما يكون دليلاً جيدًا إلى حد ما".

(iii) سهولة التفسير والتطبيق:

جانب آخر مهم من درجات الاختبار هو تفسير درجات الاختبار وتطبيق نتائج الاختبار. إذا تم تفسير النتائج بشكل خاطئ ، فمن ضار من ناحية أخرى إذا لم يتم تطبيقها ، فإنه لا جدوى منها.

(4) توافر النماذج المكافئة:

تساعد اختبارات النماذج المكافئة على التحقق من درجات الاختبار المشكوك فيها. كما أنه يساعد على القضاء على عامل الذاكرة أثناء إعادة اختبار التلاميذ على نفس مجال التعلم. لذلك يجب أن تتوفر أشكال مماثلة من نفس الاختبار من حيث المحتوى ومستوى الصعوبة وغيرها من الخصائص.

(ت) تكلفة الاختبار:

يجب أن يكون الاختبار اقتصاديًا من التحضير والإدارة ونقاط العرض.