حجم العينة: المشكلة والرياضيات

بعد قراءة هذا المقال سوف تتعلم عن مشكلة و حجم حجم العينة.

مشكلة حجم العينة:

سننظر الآن في واحدة من أصعب المشاكل المتعلقة بأخذ العينات ، أي مشكلة حجم العينة. "ما الذي يجب أن يكون الحجم المناسب للعينة بالنسبة لحجم السكان؟" "ما حجم العينة التي يجب أن تكون عينة؟" هي أسئلة غالباً ما يطرحها طلاب الأبحاث. يمكن إعطاء الإجابة Xo حاسمة لهذا السؤال.

ويرجع ذلك إلى أنه لا يمكن الإجابة على سؤال الحجم إلا عندما نكون عناصر أخذ العينات للسكان على نحو يتيح لكل عنصر فرصة تضمينه في العينة ، أي عندما نتبنى تصميم الاحتمالية لأخذ العينات.

يسمح فقط تصميم الاحتمالية بصياغة خطط أخذ العينات التمثيلية. ومن ثم ، يجعل من الممكن صياغة خطط تمثيلية لأخذ العينات.

ومن ثم ، فإن السؤال ، "ما مدى ضخامة العينة لكي تكون ممثلة لسكان حجم معين؟" يفترض مسبقا إجراء أخذ العينات الاحتمالي. فشل هذا الإجراء ، التمثيلية للعينة مهما كانت كبيرة يمكن أن تكون فقط مسألة أمل وتخمين.

إن المفاهيم الخاطئة العامة فيما يتعلق بحجم العينة هي أن حجم الكون الذي يتم سحب العينة منه يحدد عدد الحالات المطلوبة لإعطاء عينة كافية أو ممثلة من هذا الكون.

سنفعل جيدا أن نلاحظ على الفور أن التركيز يجب ألا يوضع على عدد الحالات في الكون ولكن على عددهم في العينة.

رياضيات حجم العينة:

السؤال العملي الأساسي "كيف يمكن تحديد حجم العينة الذي سيحقق الدرجة المطلوبة من الدقة كما نص عليها الباحث في دراسة معينة؟" إن مشكلة أخذ العينات هي ، بالطبع ، نفس المشكلة في جميع الدراسات ، أي تقدير أو توقع شيء عن السكان على أساس معرفة شيء عن العينة.

يجب أن يعرف الباحث نوع الإحصاءات التي ستخدم الغرض ، مثل النسب المئوية ، المتوسطات ، الانحراف المعياري ، إلخ ، لتقدير كهذا. وهذا أمر مهم لأن أنواع مختلفة من الإحصائيات مفيدة تبعاً للدرجات المطلوبة من الدقة في عوائد العينة التي يتم توفيرها بدورها بأحجام عينات مختلفة.

المعدلات والنسب المئوية هي الإحصائيات الأكثر شيوعًا ، لذا نتعامل تحديدًا مع مسألة أحجام العينات المقابلة للدرجات المطلوبة من الدقة فيما يتعلق بالمعدلات والنسب المئوية.

وبما أن العينة التي رسمها الباحث ليست سوى واحدة من العينات العديدة الممكنة للكون التي ربما يكون قد وقع عليها الاختيار ، فإنه يحتاج إلى معرفة مدى الاعتماد على العينة كممثل للكون الذي يريد أن يعرف شيئًا أو إشارة يرغب في تعميمها.

إنه يحتاج إلى معرفة حجم العينة التي يجب أن تعطى له مستوى مرضٍ من الدقة. هذا الحساب ممكن بالرجوع إلى الرياضيات حيث أنه في أخذ العينات العشوائي (تصميم أخذ العينات الاحتمالي) حيث يكون لكل عنصر في الكون احتمالية محددة للإدراج في العينة ، فإن دقة التنبؤ أو التقدير ترتبط بالجذر التربيعي لعدد العناصر في العينة.

قبل الشروع في حساب الحجم المطلوب للعينة لدراسة معينة ، من الضروري في الممارسة ، تأمين بعض المعلومات الأولية عن السكان أو الكون.

إذا كان الباحث يعتزم استخدام العينة لإجراء تقدير لمتوسط ​​قياس خاصية معينة في الكون ، فإنه يحتاج إلى بعض التقديرات الأولية للانحراف المعياري (التشتت) في توزيع قيم العناصر في الكون مع الاحترام لخاصية معينة.

يمكن للباحث الذي يعرف مدى القيم (الانتشار) فيما يتعلق بخاصية معينة في الكون أن يحصل على تقدير أولي للانحراف المعياري بقسمة هذا النطاق على 6 ، حيث أن الانحراف المعياري للكون (المنتهي) قد لجميع الأغراض العملية أن تؤخذ حوالي 1/6 من مجموعة كاملة من الاختلاف.

وبعبارة أخرى ، يمكن أخذ نطاق تشتت التوزيع ليشمل 6 وحدات انحراف معيارية. يمكن الحصول على معلومات أولية عن الكون عن طريق دراسة تجريبية ، ونتائج الدراسات الاستقصائية السابقة ، والتقارير التي نشرتها المكاتب الإحصائية ، وحساب الخبراء في هذا المجال ، وما إلى ذلك.

يجب على الباحث ، قبل الشروع في حساب حجم العينة ، أن يقرر المستوى المتوقع من الدقة للتقديرات. ويستند هذا التوقع ، في الأساس ، على الغرض من الدراسة.

بمعنى آخر ، يجب على الباحث أن يقرر:

(أ) مقدار الخطأ في التقدير المستخرج من العينة (مقارنة بالقيمة الحقيقية ، أي قيمة "الكون") يمكن تحمله (يدعى هامش الخطأ أو حد الدقة)

(ب) مع مقدار التأكيد الذي يمكن أن يقال إن التقدير سيقع ضمن هامش الخطأ هذا (يسمى ، مستوى الثقة أو الاحتمال).

ومع ذلك ، سيكون من المناسب النظر في هذه الأمور بمزيد من التفصيل ، في الوقت الحالي:

(أ) هامش الخطأ أو الحد من الدقة:

والسؤال الأساسي هنا هو: "ما هي النسبة المئوية أو المتوسط ​​الذي يجب تأمينه من دراسة العينة التي من المحتمل أن تختلف من الوسط الحقيقي (من السكان) وربما لا يمكن تحملها؟" قد يتحمل الباحث خطأً بنسبة 5٪ أو قد يتطلب دقة في حدود 2٪.

كل هذا يتوقف على مدى دقة أو دقة يريد معرفة بعض الحقائق. لنفترض أن الباحث يرغب في معرفة مقدما أي من المرشحين اللذين يخوضان الانتخابات سيفوز بالمقعد. إذا كان الاقتراع قريبًا ، يمكن للباحث تحمل خطأ أصغر فقط إذا كان من المؤكد عمليا.

فقد يقوم ، على سبيل المثال ، بتعيين الخطأ المسموح به عند أقل من 2٪. من ناحية أخرى ، إذا كانت الانتخابات تبدو من جانب واحد ، ومنحازة تمامًا لصالح مرشح معين ، فقد يتمكن الباحث من التنبؤ بالنتائج حتى مع وجود خطأ أكبر بكثير في التقدير.

إذا حدث الاستقصاء بالعينات أن 60٪ من الأصوات ستصوت لصالح مرشح ، قد يتم التسامح مع خطأ يصل إلى 9٪. في هذه الحالة ، حتى لو كان استطلاع العينة قد جذب أكثر عينة مؤسفة تنحرف عن 9٪ من القيمة الحقيقية ، فإن القيمة الحقيقية ستظل 51٪ ، أي 1٪ أعلى من 50٪ وهي النقطة الحرجة.

وبالتالي ، فإن القيمة التقديرية التي تبلغ 60٪ والقيمة الحقيقية 51٪ ستكون أعلى من النقطة الحرجة (أي 50٪) وسيكون التنبؤ موثوقًا.

(ب) الاحتمال أو مستوى الثقة:

بالإضافة إلى الحد من الدقة ، يجب على الباحث أيضًا أن يقرر بالإشارة إلى دراسته ، مدى الثقة التي يود أن يضعها في تقديرات التقديرات على أنها قريبة من التقديرات الحقيقية التي يجب أن تكون ضمن حدود التسامح أو الدقة التي حددتها له للدراسة.

في بعض الحالات ، قد يرغب في أن يكون على يقين من أن تقديراته (على أساس العينة) ستكون في حدود 51٪ من القيمة الحقيقية ، بينما في بعض الحالات الأخرى ، قد يكون راضٍ عن درجة أقل من التأكيد.

في أبحاث العلوم الاجتماعية ، هناك درجتان من الاحتمالية أو الثقة معروفة جيدا وغالبا ما تستخدمان.

واحد من هؤلاء هو 0.95 مستوى الاحتمال ، أي سيكون هناك 95 فرصة من 100 أن لا يتجاوز تقدير العينة حدود التسامح أو هامش الخطأ ، والمستوى الثاني هو مستوى 0.99 ، من الاحتمالية ، أي ومن المرجح أنه في 99 فرصة من أصل 100 لن يتجاوز تقدير العينة هامش الخطأ الذي يهدف إلى.

يمكن حتى تحديد مستوى الثقة عند 0.999 ، أي أن تقدير العينة لن ينحرف عن القيمة الحقيقية (للكون) خارج حدود التسامح في 999 فرصة من 1000. لأغراض معينة ، قد يهدف الباحث إلى ضبط مستوى الاحتمال عند 0.67 (أي 2 من 3).

إن احتمالات أن عينة معينة مرسومة لدراسة ستنتج تقديراً للكون الذي يقع ضمن هامش الخطأ ، وتعتمد على التباين بين العينات التي يمكن استخلاصها من الكون. إذا كانت القيم المضمونة من العينات تميل إلى الانحراف بشكل كبير عن القيمة الحقيقية ، فإن فرص أي قيمة نموذجية معينة ضمن حدود الخطأ المسموح بها تكون ضعيفة.

الخطأ المعياري هو المقياس الذي يخبرنا ما هي فرص وجود العينة المقيمة ضمن الحدود المسموح بها. وهو مقياس للتغير في تقدير العينات والذي يمكن توقعه في أخذ العينات العشوائية. تميل العينات العشوائية إلى اتباع قوانين الاحتمالات وتميل تقديرات العينة إلى التكتل حول القيمة الحقيقية للكون.

يمكن تمثيل هذه التقديرات بمنحنى على شكل جرس أو عادي. تمثل النقطة الوسطى لهذا المنحنى القيمة الحقيقية (للكون) والتغير أو الانحراف الأقصى لتقدير عينة عشوائية من هذه القيمة الحقيقية حوالي ثلاثة أضعاف الخطأ المعياري.

وبالتالي ، فإن الخطأ المعياري هو حوالي 1/6 من المدى الكامل للاختلاف العشوائي لأخذ العينات. ومع ذلك ، بالنسبة إلى جميع الأغراض العملية ، يتم أخذ الخطأ المعياري باعتباره 1/4 من نطاق التباين ، حيث تحدث الاختلافات الشديدة جدًا.

توضح جداول الاحتمال أن 95 من أصل 100 عينة من التقديرات يمكن أن تقع في حدود + 2 و -2 أخطاء قياسية. وهذا يعني أنه إذا حددنا مستوى الثقة أو الاحتمال عند 0.95 ، فستكون مشكلتنا هي رسم عينة عشوائية ذات خطأ معياري يبلغ حوالي نصف (نصف) هامش الخطأ الخاص بنا.

بالنسبة لمستوى أعلى من الاحتمالية ، سيكون علينا رسم عينة بخطأ معياري ، وهو جزء أصغر من هامش الخطأ.

وتجدر الإشارة إلى أن الخطأ المعياري يصبح أصغر (دقة أعلى) عندما تصبح العينات أكبر. لمضاعفة الدقة ، يجب ضرب حجم العينة بـ 4 ، أي زيادة أربع مرات ؛ لثلاثة أضعاف ، يجب ضرب حجم العينة بـ 9 ؛ لرباعها ، قبل 16 وهلم جرا.

هذا يعني فقط أن الدقة تزيد باعتبارها الجذر التربيعي لعدد الحالات في العينة. وقد أعد الإحصائيون جداول تبين احتمالية تقديرات العينات الواردة ضمن حدود الخطأ القياسية المختلفة.

يتم تحديد هذه الحدود بشكل عام كـ + (زائد) و - (ناقص). مثل هذه الجداول تظهر ، على سبيل المثال ، أن 95٪ من التقديرات العشوائية للعينات تقع في حدود الخطأ القياسي +1.96 و -1.96 ، وأن حوالي 68٪ من التقديرات تقع ضمن حدود الخطأ القياسي + 1 و -1 و٪ 99 من تقع التقديرات ضمن نطاق +2.57 و -2.57 من الأخطاء القياسية ، وما إلى ذلك.

عند النظر بشكل كامل في (1) هامش الخطأ و (2) مستوى الاحتمال أو الثقة ، يمكن للباحث المضي قدما في حساب حجم العينة المطلوب. أعطى Mildred Parten الصيغة التالية لحساب حجم العينة ، عندما تكون الإحصائية المراد تقديرها هي النسبة المئوية. ومن الواضح أن هذا هو تغيير متغير من صيغة الخطأ القياسي.

حجم العينة = PC (100-PC) Z 2 / T 2

في الصيغة المذكورة أعلاه ، يعني الكمبيوتر التقدير الأولي للنسبة المئوية (من الكون).

Z تعني عدد وحدات الخطأ القياسية التي تم العثور عليها (من جدول الاحتمالات العادي) لتتوافق مع مستوى الاحتمال المطلوب.

T تعني هامش الخطأ الذي يمكن تحمله (5٪ أو 2٪).

أعطى Parten الصيغة التالية لحساب حجم العينة للتنبؤ أو تقدير القيمة المتوسطة للكون فيما يتعلق بخاصية محددة عند مستوى معين من الثقة وتهدف إلى هامش أو خطأ معين أو حد للتسامح.

حجم العينة = (δ + Z / T) 2

حيث تشير 8 إلى التقدير الأولي للانحراف المعياري للكون.

تشير Z إلى عدد وحدات الخطأ القياسية المقابلة لمستوى الاحتمالية أو الثقة المطلوب.

دعونا نأخذ مثالا ملموسا ونحدد حجم العينة. لنفترض أننا نرغب في تقدير متوسط ​​الدخل السنوي للأسر التي تعيش في منطقة معينة من "الطبقة الوسطى" في المدينة.

دعنا نقول ، لقد حددنا هامش الخطأ لدينا في Rs.100 / - أي أننا سوف نتسامح مع تقدير العينة ضمن زائد أو ناقص 100 من المعدل الحقيقي للسكان فيما يتعلق بالدخل. لنفترض أننا حددنا مستوى الاحتمالية أو الثقة عند 0.95.

لنفترض أيضًا أنه من خلال مسح أجري منذ بضع سنوات ، نقدر الانحراف المعياري في ما يتعلق بالدخل السنوي للسكان (محلية) ليكون Rs.500 / -. قيمة Z ، أي وحدات الخطأ القياسية المقابلة لاحتمال 0.95 هي 1.96.

استبدال هذه القيم في الصيغة المذكورة أعلاه ، لدينا

حجم بسيط = (500 × 1.96 / 100) 2

= (9.8) 2

= 95

وهذا يعني أن عينة عشوائية من 95 حالة (أسر ، وهي وحدات العينة) يجب أن تعطينا تقديراً لمتوسط ​​"الكون" المحدد ضمن هامش الخطأ المحدد وعند المستوى المطلوب من الثقة أو الاحتمال ، على التوالي ، من روبية. 100 / - و 0.95.

إذا قمنا بتشديد هامش الخطأ وتعيينه في روبية. 50 / - ، عدد الحالات في العينة ، أي أن الحجم المطلوب للعينة سيكون أكبر أربع مرات (أي 380) بالحجم المطلوب لهامش الخطأ الأسبق (Rs. 100 / -).

إذا اتَّصفت منطقة أخرى بتجانس أكبر فيما يتعلق بالدخل ، ولنفترض ، أن الانحراف المعياري في شروط الدخل يبلغ 100 فقط ، فإن حجم العينة لهامش الخطأ أعلاه سيكون أقل بكثير.

وبعبارة أخرى ، يوضح استخدام المعادلة الدرس ، وهو أن التجانس أصغر حجمًا أصغر للعينة المطلوبة ، وتزيد الدقة المطلوبة ، كلما زاد حجم العينة المطلوب.

الاستخدام المتكرر لمصطلحات مثل هامش الخطأ ومستوى الثقة والتعبيرات العددية الأخرى للاحتمالات وأحجام العينات ، قد يميل إلى خلق الانطباع بأن حجم العينة المحسوب بواسطة الصيغة سوف يضمن الدقة المطلوبة.

ومع ذلك ، ينبغي أن نتذكر أن العلاقات المبينة في الجداول الإحصائية للاحتمالية تمثل توقعات طبيعية في عينة عشوائية مثالية. ولكن بقدر ما يكون أخذ العينات الفعلي نادراً ما يكون مثالياً ، فإنه لا يمكن أن يتوقع من العلاقات الموضحة في الجداول.

إن الصعوبة العامة والندرة في أخذ العينات المثالية يجب أن تجعل المرء يتشكك في النتائج التي هي بالضبط حسب التوقعات.

لكن هذا لا يعني أن الباحث لا ينبغي أن يستخدم أو يفضل حجم العينة الدقيق المحسوب على أساس معادلة الاحتمال. في الواقع ، هذا بالضبط ما يجب أن يفعله لأنه أفضل رهان له. غير أنه لا ينبغي أن يصر على هذا الحجم الدقيق إذا كانت الاعتبارات العملية تجعله غير قابل للتحقيق.

هناك طريقة مختلفة اختلافًا جوهريًا عن مشكلة تحديد حجم العينة المطلوب وهي "اختبار الثبات". وﯾﺗﮐون ھذا ﻣن ﺟﻣﻊ اﻟﺑﯾﺎﻧﺎت ﻟﻟﻌﯾﻧﺎت اﻟﻔرﻋﯾﺔ اﻟﺻﻐﯾرة ﻧﺳﺑﯾﺎً واﻟﺣﻔﺎظ ﻋﻟﯽ ﺳﺟل ﺗﺷﻐﯾﻟﻲ ﻟﺗوزﯾﻊ اﻟﻌﺎﺋدات.

عند نقطة ما ، لا يؤدي إضافة المزيد من العينة الفرعية إلى تغيير النتائج بشكل كبير ، فقد يفترض الباحث أن العينة الإجمالية التي تم رسمها حتى الآن قد أصبحت كافية ، بحجم الحكمة. لكن هذا الإجراء يمكن اعتباره تبذيرًا للوقت لأنه يُعد فعّالًا لباحث مشارك في سلسلة من الاستطلاعات المنفصلة المنتشرة على مدى فترة زمنية طويلة.

وقد قيل إن هذا الإجراء غير اقتصادي من حيث أنه يتم جمع جداول أكثر مما هو مطلوب فعليًا ، نظرًا لأن التراجع إلى نقطة الاستقرار التقريبي لا يمكن وضعه بأي تأكيد حتى يحافظ المنحنى على مستواه لبعض الوقت.

ولكن هذا لا يبدو أن هناك قيد خطير بالمقارنة مع الممارسة المحافظة في العديد من الدراسات ذات السمعة الطيبة والتي تجمع أكثر من العدد / الحد الأدنى من العناصر كعينة.

وتتمثل الميزة الرئيسية لهذا النوع من اختبار الثبات في أنه بدلاً من الاعتماد على الحسابات المستندة إلى معلومات أولية ، يزيد المرء ببساطة وحدة الحجم الكلي للعينة التي يلاحظ أنها كافية. إن الفحص التجريبي المتمثل في مراقبة العائدات والتوقف عند استقرارها يبدو مباشراً ومقنعاً.

يكمن الخطر الرئيسي لهذا الإجراء في حقيقة أن العينات الفرعية المتتالية التي تم جمعها من غير المحتمل أن تنتشر على مستوى الكون. قد تستقر النتائج على الرغم من أنها لا تمثل السكان.

في الواقع ، كلما كانت العينة الفرعية أقل تمثيلاً ، زادت احتمالية إضافة المزيد من الحالات للحصول على النتيجة نفسها والتخلص من مظهر التثبيت. ما لم تكن العينة الفرعية عبارة عن مقطع عرضي للكون ، فلن تكون هناك عينة حساسة يمكن عليها ملاحظة الاستقرار المستقر.

الشرط الأساسي لهذا الإجراء هو أن العينة التمثيلية المتنامية يجب أن تكون متاحة للمراقبة. النفقات وصعوبة جمع العينات الفرعية المتتالية التي تنتشر على مدى الكون هي الأسباب الرئيسية لعدم احتمال أن يكون ذلك تمثيلاً.

يمكن أن يكون اختبار الاستقرار التجريبي فعالا للغاية ، ومع ذلك ، عندما يتم رسم العينات الفرعية بشكل صحيح وجمعها. الطريقة الأنسب لإجراء الاستطلاعات لإجراء مقابلات تغطي مناطق أو مجتمع صغير نسبيا مثل بلدة أو مدينة لأنه في ذلك الحين ، ليس من الصعب أو مكلفة لجعل كل عينة فرعية عينة عشوائية من السكان.

إن الشكل الأكثر دقة للتحكم التجريبي مقارنة مع اختبار الثبات هو تطور حديث نسبيا يسمى التحليل التسلسلي. يتمثل الإجراء العام المتضمن هنا في الإبقاء على العينة ، وفي نفس الوقت الاحتفاظ باختبار العينة لأهميتها حتى يتم تجميع الحد الأدنى للعينة التي توفر المستوى المطلوب من الأهمية.