Monday 8 January 2018

مفقود بيانات الإسناد ثنائي - خيارات


استراتيجيات الاستنتاج للنتائج الثنائية المفقودة في التجارب المعشاة العنقودية الخلفية إن الاستنزاف، الذي يؤدي إلى فقدان البيانات، هو مشكلة شائعة في التجارب العشوائية العنقودية (كرتس)، حيث مجموعات عشوائية من المرضى بدلا من الأفراد العشوائية. وقد لا تكون الاستراتيجيات المعيارية المتعددة للإحالة (مي) مناسبة لفرض بيانات مفقودة من كرت نظرا لأنها تفترض بيانات مستقلة. في هذه الورقة، في ظل افتراض مفقود تماما عشوائيا ومتغريات تعتمد على المفقودين، قارنا ست استراتيجيات مي التي تمثل الارتباط بين الكتلة للنتائج الثنائية المفقودة في كرت مع استراتيجيات إسناد القياسية ونهج تحليل حالة كاملة باستخدام دراسة محاكاة . وقد نظرنا في ثلاث استراتيجيات داخل المجموعة وثلاثة استراتيجيات مشتركة بين المجموعات العنقودية للنتائج الثنائية المفقودة في كرت. الاستراتيجيات الثلاث داخل المجموعة مي هي طريقة الانحدار اللوجستي، طريقة درجات الميل، وسلسلة ماركوف مونتي كارلو (مسمك)، التي تطبق استراتيجيات مي القياسية داخل كل مجموعة. وتتمثل الاستراتيجيات الثلاث المشتركة بين المجموعات المتناهية الصغر في أسلوب نقاط الميل، ونهج الانحدار اللوجستي للآثار العشوائية (ري)، والانحدار اللوجستي مع الكتلة كتأثير ثابت. وبناء على تجربة تقييم ارتفاع ضغط الدم المجتمعية (تشات) التي لديها بيانات كاملة، قمنا بتصميم دراسة محاكاة للتحقيق في أداء استراتيجيات مي أعلاه. تأثير المعالجة المقدرة و 95 فترة الثقة (سي) من المعادلات تقدير المعادلات (جي) نموذج يستند إلى مجموعة البيانات الكاملة تشات هي 1.14 (0.76 1.70). عندما تكون 30 من النتائج الثنائية مفقودة تماما بشكل عشوائي، تظهر دراسة المحاكاة أن تأثيرات العلاج المقدرة و 95 سي المقابلة من نموذج جي هي 1.15 (0.76 1.75) إذا تم استخدام تحليل الحالة الكامل، 1.12 (0.72 1.73) إذا كان داخل الكتلة يتم استخدام الأسلوب مسمك، 1.21 (0.80 1.81) إذا تم استخدام الانحدار اللوجستي ري عبر الكتلة، و 1.16 (0.82 1.64) إذا تم استخدام الانحدار اللوجستي القياسي الذي لا يمثل التكتل. الاستنتاج عندما تكون النسبة المئوية للبيانات المفقودة منخفضة أو معامل الارتباط داخل الكتلة صغيرة، فإن النهج المختلفة لمعالجة البيانات المفقودة للنتائج الثنائية تولد نتائج مماثلة تماما. عندما تكون النسبة المئوية للبيانات المفقودة كبيرة، استراتيجيات مي القياسية، التي لا تأخذ في الاعتبار الترابط داخل الكتلة، التقليل من التباين في تأثير العلاج. ويبدو أن استراتيجيات مي (داخل المجموعة العنقودية والعبرية)، باستثناء استراتيجية الانحدار اللوجستي للتأثيرات العشوائية (مي)، التي تأخذ الترابط داخل الكتلة في الاعتبار، أكثر ملاءمة لمعالجة النتيجة المفقودة من كرت. وفي إطار نفس استراتيجية التخصيص ونسبة المفقودين، تكون تقديرات تأثير المعالجة من نماذج الانحدار اللوجستي في جي و ري متشابهة. 1. مقدمة يتم استخدام التجارب العشوائية العنقودية (كرتس)، حيث يتم عشوائيا مجموعات من المشاركين بدلا من الأفراد، في تعزيز الصحة والبحوث الخدمات الصحية 1. عندما يجب أن يدار المشاركون في نفس المكان، مثل المستشفى، المجتمع، أو ممارسة الطبيب الأسرة، وعادة ما يتم اعتماد هذه الاستراتيجية العشوائية للحد من التلوث المحتمل العلاج بين المشاركين التدخل والرقابة. كما أنها تستخدم عندما العشوائية مستوى الفردية قد تكون غير لائقة، غير أخلاقية، أو غير قابلة للتطبيق 2. والنتيجة الرئيسية للتصميم العشوائي العنقودية هي أنه لا يمكن افتراض أن المشاركين مستقلون بسبب تشابه المشاركين من نفس المجموعة. ويتم قياس هذا التشابه من خلال معامل الارتباط داخل المجموعة. وبالنظر إلى مكوني التباين في النتيجة، يمكن أن تفسر التغيرات بين المجموعات والتداخلات داخل المجموعة على أنها نسبة التغير الكلي في النتيجة التي يمكن تفسيرها بالتغير بين المجموعات 3. ويمكن أيضا أن تفسر على أنها العلاقة بين النتائج لأي مشاركين في نفس المجموعة. وقد ثبت جيدا أن عدم مراعاة الارتباط بين المجموعات في التحليل يمكن أن يزيد من فرصة الحصول على نتائج ذات دلالة إحصائية ولكنها زائفة 4. قد يكون خطر الاستنزاف مرتفعا جدا في بعض كرتس بسبب عدم وجود اتصال مباشر مع المشاركين الفردية ومتابعة مطولة 5. بالإضافة إلى الأفراد المفقودين، قد تكون المجموعات بأكملها مفقودة، مما يزيد من تعقيد التعامل مع البيانات المفقودة في كرتس. ويتوقف أثر البيانات الناقصة على نتائج التحليل الإحصائي على الآلية التي تسببت في فقدان البيانات والطريقة التي تعالج بها. النهج الافتراضي في التعامل مع هذه المشكلة هو استخدام تحليل حالة كاملة (وتسمى أيضا حذف ليستويز)، أي استبعاد المشاركين مع البيانات المفقودة من التحليل. على الرغم من أن هذا النهج هو سهل الاستخدام وهو الخيار الافتراضي في معظم الحزم الإحصائية، فإنه قد يضعف إلى حد كبير القوة الإحصائية للمحاكمة ويمكن أن يؤدي أيضا إلى نتائج متحيزة اعتمادا على آلية البيانات الناقصة. وبصفة عامة، يمكن أن تندرج طبيعة أو نوع النقص في أربع فئات: مفقودة تماما عشوائيا (مكار)، مفقودة عشوائيا (مار)، متغرية (سد) مفقودة، مفقودة غير عشوائية (منار) 6. فهم هذه الفئات مهم لأن الحلول قد تختلف تبعا لطبيعة المفقودين. يعني مكار أن آلية البيانات المفقودة، أي احتمال المفقودين، لا تعتمد على البيانات الملحوظة أو غير المرصودة. وتشير آل من آليتي مار و سد إلى أن أسباب البيانات المفقودة ليست ذات صلة بالقيم المفقودة، ولكن قد تكون ذات صلة بالقيم الملاحظة. في سياق البيانات الطولية عند اتخاذ القياسات التسلسلية لكل فرد، يعني مار أن احتمال وجود استجابة مفقودة في زيارة معينة يرتبط إما بالاستجابات الملاحظة في الزيارات السابقة أو المتغيرات، في حين أن المفقودين سد - حالة خاصة من مار - يعني أن احتمال وجود رد مفقود يعتمد فقط على المتغيرات. يعني منار أن احتمال فقدان البيانات يعتمد على البيانات غير مرصودة. ويحدث ذلك عادة عندما ينسحب الناس من الدراسة بسبب نتائج صحية سيئة أو جيدة. ويتمثل أحد أوجه التمييز الرئيسية بين هذه الفئات في أن الشبكة منار لا يمكن تجاهلها في حين أن الفئات الثلاث الأخرى (أي مكار أو سد أو مار) يمكن تجاهلها 7. وفي ظل ظروف الفقدان الذي يمكن تجاهله، يمكن أن تنتج استراتيجيات حسابية، مثل حساب المتوسط، أو سطح السفينة الساخن، أو المراقبة الأخيرة، أو تعددها (مي) - التي تحل محل كل قيمة مفقودة إلى قيمة واحدة أو عدة قيم معقولة - مجموعة بيانات كاملة ليست منحازة سلبا 8. 9. فالبيانات المفقودة التي لا يمكن تجاهلها هي أكثر صعوبة وتتطلب نهجا مختلفا 10. وثمة نهجان رئيسيان في معالجة النتائج المفقودة هما التحليلات القائمة على الاحتمالات والإحالة 10. في هذه الورقة، نركز على استراتيجيات مي، التي تأخذ في الاعتبار التباين أو عدم اليقين من البيانات المفقودة، لإعاقة النتيجة الثنائية المفقودة في كرتس. تحت افتراض مار، استراتيجيات مي تحل محل كل قيمة مفقودة مع مجموعة من القيم المعقولة لإنشاء مجموعات البيانات المحسوبة متعددة - تتفاوت عادة في عدد من 3 إلى 10 11. يتم تحليل هذه البيانات المتعددة المحسوبة باستخدام إجراءات قياسية للبيانات الكاملة. ثم يتم الجمع بين النتائج من مجموعات البيانات المحسوبة للاستدلال لتوليد النتيجة النهائية. تتوفر إجراءات مي القياسية في العديد من حزم البرامج الإحصائية القياسية مثل ساس (كاري، نك)، سبس ​​(شيكاغو إيل)، و ستاتا (محطة الكلية، تكس). ومع ذلك، فإن هذه الإجراءات تفترض أن الملاحظات مستقلة وقد لا تكون مناسبة ل كرتس لأنها لا تأخذ في الاعتبار الترابط داخل الكتلة. على حد علمنا، تم إجراء تحقيق محدود على استراتيجيات إسناد المفقودين النتائج الثنائية أو النتائج الفئوية في كرتس. أفاد يي وكوك أساليب هامشية للبيانات المفقودة المفقودة من تصميم متفاوت المسافات 12. هونسبرجر إت آل. (13) ثلاث استراتيجيات لاستمرار البيانات المفقودة في كرت: 1) إجراء حساب متعدد يستعاض عن القيم المفقودة بقيم إعادة العينات المأخوذة من البيانات المرصودة 2) إجراء متوسط ​​يستند إلى اختبار مجموع رتبة ويلكوكسون يعين البيانات المفقودة في مجموعة التدخل مع أسوأ الرتب 3) إجراء حساب متعددة التي يتم استبدال القيم المفقودة من القيم المتوقعة من معادلة الانحدار. نيكسون وآخرون. (14) استراتيجيات لفرض نقاط نهاية مفقودة من بديل. في تحليل نتيجة مستمرة من تجربة التدخل المجتمعي لوقف الإقلاع عن التدخين (كوميت)، قام جرين وآخرون بتقسيم المشاركين الفرديين إلى مجموعات كانت أكثر تجانسا فيما يتعلق بالنتائج المتوقعة. وضمن كل طبقة، اعتبروا النتيجة المفقودة باستخدام البيانات المرصودة 15. 16. قارن تالجارد وآخرون 17 العديد من استراتيجيات حسابية مختلفة لفقدان النتائج المستمرة في كرت تحت افتراض مفقود تماما بشكل عشوائي. وتشمل هذه الاستراتيجيات احتساب متوسط ​​الكتلة، داخل المجموعة مي باستخدام طريقة التمهيد التمهيدية (أب) التقريبية، تجميع مي باستخدام طريقة أب، الانحدار القياسي مي، والانحدار الآثار المختلطة مي. وكما أشار كينوارد وآخرون إلى أنه في حالة استخدام نموذج موضوعي، مثل النموذج المختلط الخطي المعمم، الذي يعكس هيكل البيانات، من المهم أن يعكس نموذج الحساب أيضا هذا الهيكل 18. وتتمثل أهداف هذه الورقة في ما يلي: (1) التحقيق في أداء استراتيجيات حسابية مختلفة للنتائج الثنائية المفقودة في كرت تحت نسب مختلفة من الناقصة، بافتراض وجود آلية مفقودة تماما في العشوائية أو المتغاير تعتمد على 2) مقارنة الاتفاق بين مجموعة البيانات كاملة ومجموعات البيانات المحسوبة التي تم الحصول عليها من استراتيجيات حسابية مختلفة 3) مقارنة متانة النتائج في إطار اثنين من أساليب التحليل الإحصائي شائعة الاستخدام: معادلات التقدير المعممة (جي)، والانحدار اللوجستي للآثار العشوائية (ري)، في إطار استراتيجيات حسابية مختلفة. 2. الطرق في هذه الورقة، ونحن نعتبر ثلاث داخل داخل المجموعة وثلاثة استراتيجيات عبر العنقودية مي للنتائج الثنائية المفقودة في كرتس. أما الاستراتيجيات الثلاث داخل المجموعة، فهي أسلوب الانحدار اللوجستي، وطريقة درجات الميل، وطريقة الرصد الميكانيكي، وهي استراتيجيات معيارية في إطار كل مجموعة. استراتيجيات مي الثلاثية عبر العنقودية هي درجة الميل، وطريقة الانحدار اللوجستي للآثار العشوائية، والانحدار اللوجستي مع الكتلة كتأثير ثابت. استنادا إلى مجموعة البيانات كاملة من محاكمة تقييم ارتفاع ضغط الدم المجتمع (تشات)، أجرينا دراسة محاكاة للتحقيق في أداء استراتيجيات مي المذكورة أعلاه. استخدمنا إحصائيات كابا لمقارنة الاتفاق بين مجموعات البيانات المحسوبة ومجموعة البيانات الكاملة. واستخدمنا أيضا الآثار العلاجية المقدرة التي تم الحصول عليها من نموذج الانحدار اللوجستي جي و ري 19 لتقييم متانة النتائج في ظل النسب المئوية المختلفة للنتائج الثنائية المفقودة تحت افتراض مكار و سد مفقودة. 2.1. تحليل حالة كاملة باستخدام هذا النهج، يتم تضمين فقط المرضى الذين يعانون من البيانات المكتملة للتحليل، في حين يتم استبعاد المرضى الذين يعانون من البيانات المفقودة. وعندما تكون البيانات مكار، فإن نهج تحليل الحالة الكامل، باستخدام إما التحليل القائم على الاحتمالات مثل الانحدار اللوجستي ري، أو النموذج الهامشي مثل نهج جي، هو صالح لتحليل النتائج الثنائية من كرت لأن آلية البيانات المفقودة مستقلة عن النتيجة. وعندما تكون البيانات مفقودة في عداد المفقودين، يكون كلا من الانحدار اللوجستي ري والمنهج جي صالحا إذا تم تعديل المتغيرات المشتركة المعروفة المرتبطة بآلية البيانات المفقودة. ويمكن تنفيذه باستخدام جينمود و نلمكسد الإجراء في ساس. 2.2. العزو المتعدد القياسي بافتراض أن الملاحظات مستقلة، يمكننا تطبيق إجراءات مي القياسية التي توفرها أي برامج إحصائية قياسية مثل ساس. ثلاث طرق مي المستخدمة على نطاق واسع هي طريقة نموذج تنبؤية (طريقة الانحدار اللوجستي للبيانات الثنائية)، طريقة درجة الميل، وطريقة مكك 20. وبصفة عامة، يوصى باستخدام كل من طريقة درجات الميل وطريقة ال مكك لتقدير المتغير المستمر 21. ويقال إن مجموعة البيانات لديها نمط رتيبة مفقود عندما يكون القياس Y j مفقودا للفرد يعني أن جميع القياسات اللاحقة Y k. k غ j. كلها مفقودة للفرد. عندما تكون البيانات مفقودة في النمط المفقود الرتيبة، أي من النموذج التنبئي البارامتري والطريقة غير الصفية التي تستخدم درجات الميل أو طريقة ال مكك مناسبة 21. وبالنسبة إلى أنماط بيانات مفقودة تعسفية، يمكن استعمال أسلوب مكك الذي يفترض أن تكون طبيعية متعددة المتغيرات 10. يتم تنفيذ هذه الاستراتيجيات مي باستخدام مي، مياناليز، جنمود، والإجراءات نلمكسد في ساس بشكل منفصل لكل مجموعة التدخل. 2.2.1. طريقة الانحدار اللوجستي في هذا النهج يتم تركيب نموذج الانحدار اللوجستي باستخدام النتائج المرصودة والمتغيرات المشتركة 21. واستنادا إلى تقديرات المعلمات ومصفوفة التباين المشترك، يمكن بناء التوزيع التنبئي الخلفي للمعلمات. ثم يتم محاكاة نموذج انحدار لوجستي جديد من التوزيع التنبئي الخلفي للمعلمات ويستخدم لإعفاء القيم المفقودة. 2.2.2. طريقة درجات الميل درجة الميل هي الاحتمال الشرطي للافتقار إلى البيانات المرصودة. ويمكن تقديرها بواسطة وسيلة نموذج الانحدار اللوجستي مع نتيجة ثنائية تشير إلى ما إذا كانت البيانات مفقودة أم لا. ثم يتم تقسيم الملاحظات إلى عدد من الطبقات استنادا إلى درجات الميل هذه. ثم يطبق الإجراء أب 22 على كل طبقة. ويستخلص الحساب أب أولا من البيانات الملحوظة لإنشاء مجموعة بيانات جديدة، وهي تماثلية غير صفية لمعلمات الرسم من التوزيع التنبئي الخلفي للمعلمات، ثم تعادل القيم المحسوبة عشوائيا بالاستعاضة عن مجموعة البيانات الجديدة. 2.2.3. سلسلة ماركوف طريقة مونت كارلو باستخدام طريقة مسمك يتم رسم عينات عشوائية الزائفة من توزيع الاحتمالات المستهدفة 21. والتوزيع المستهدف هو التوزيع المشروط المشترك ل Y ميس و Y أوبس عندما تكون البيانات المفقودة ذات نمط غير رتيبي حيث يمثل Y ميس و Y أوبس البيانات الناقصة والبيانات الملاحظة على التوالي ويمثل المعلمات غير المعروفة. وتجري الطريقة مكك على النحو التالي: يستعاض عن Y ميس ببعض القيم المفترضة، ثم يحاكي من التوزيع الخلفي الكامل للبيانات الناتجة P (Y أوبس، Y ميس). اسمحوا (t) القيمة الحالية المحاكاة. يمكن عندئذ استخلاص Y ميس (t 1) من التوزيع التنبؤي المشروط Y m s s (t 1) P (Y m s s o b s s (t)). تكييف على Y سوء (ر 1). يمكن استخلاص القيمة التالية المحاكاة من توزيعها الكامل للبيانات الخلفي (t 1) P (Y o b s. Y m i s (t 1)). بتكرار الإجراء أعلاه، يمكننا توليد سلسلة ماركوف التي تتقارب في التوزيع إلى P (Y سوء، Y أوبس). هذه الطريقة جذابة لأنه يتجنب حساب تحليلي معقد للتوزيع الخلفي و Y سوء. ومع ذلك، فإن التقارب في التوزيع هو قضية يحتاج الباحثون إلى مواجهتها. وبالإضافة إلى ذلك، يستند هذا الأسلوب على افتراض طبيعية متعددة المتغيرات. عند استخدامه لفرض المتغيرات الثنائية، القيم المحسوبة يمكن أن تكون أي قيم حقيقية. وتتراوح معظم القيم المحسوبة بين 0 و 1، وبعضها خارج هذا النطاق. نحن جولة القيم المحسوبة إلى 0 إذا كان أقل من 0.5 و 1 خلاف ذلك. يتم تنفيذ هذه الطريقة حساب متعددة باستخدام إجراء مي في ساس. نحن نستخدم سلسلة واحدة وغير مفيدة قبل كل الافتراضات، وخوارزمية تعظيم التوقعات (إم) للعثور على تقديرات أقصى احتمال في النماذج البارامترية للبيانات غير مكتملة وتستمد تقديرات المعلمة من وضع الخلفي. وتعتبر التكرارات تقارب عندما يكون التغير في تقديرات المعلمة بين خطوات التكرار أقل من 0.0001 لكل معلمة. 2.3. اعتبارات متعددة داخل المجموعة ليست استراتيجيات مي المتوسطة مناسبة للتعامل مع البيانات الناقصة من كرت بسبب افتراض الرصدات المستقلة. وبالنسبة للإسناد داخل المجموعة، نقوم بتنفيذ المعيار مي الموصوف أعلاه باستخدام أسلوب الانحدار اللوجستي، وطريقة درجات الميل، وطريقة الرصد المتعدد بالتقسيم الشفري بشكل منفصل لكل مجموعة. وبالتالي، فإن القيم المفقودة تعزى إلى البيانات المرصودة في نفس المجموعة مثل القيم المفقودة. وبالنظر إلى أن المواضيع داخل المجموعة نفسها أكثر احتمالا أن تكون مشابهة لبعضها البعض من تلك الموجودة في مجموعات مختلفة، يمكن اعتبار إسناد المجموعة ضمن استراتيجية لفرض القيم المفقودة لمراعاة الترابط بين المجموعات. يتم تنفيذ هذه الاستراتيجيات مي باستخدام مي، مياناليز، جنمود، والإجراءات نلمكسد في ساس. 2.4. اعتبارات متعددة عبر المجموعات 2.4.1. طريقة درجات الميل مقارنة بالإحساب المتعدد المعياري باستخدام طريقة نقاط الميل، أضفنا العنقود كواحد من المتغيرات المتراكمة للحصول على درجة الميل لكل ملاحظة. ونتيجة لذلك، من المرجح أن يتم تصنيف المرضى داخل نفس المجموعة إلى نفس درجة درجة الميل. ولذلك، يؤخذ الترابط داخل الكتلة في الاعتبار عند تطبيق إجراء أب داخل كل طبقة لتوليد القيم المحسوبة للبيانات الناقصة. يتم تنفيذ هذه الاستراتيجية إسناد متعددة باستخدام مي، مياناليز، جنمود، والإجراءات نلمكسد في ساس. 2.4.2. الانحدار اللوجستي للآثار العشوائية بالمقارنة مع النموذج التنبئي باستخدام أسلوب الانحدار اللوجستي القياسي، نفترض أن النموذج الثنائي يتم نمذجه بواسطة نموذج لوجستي للتأثيرات العشوائية: تسجيله (بيأر (إي إجل 1)) X إيجل U إيغ حيث Y إيجل هو نتائج ثنائية للمريض l في المجموعة j في مجموعة التدخل i X إيجل هي مصفوفة المتغيرات المشتركة على مستوى الفرد أو مستوى المجموعة الملاحظ تماما، U إج N (0. B 2) يمثل التأثير العشوائي على مستوى الكتلة، و B 2 تمثل الفرق بين المجموعات. ويمكن تقدير B 2 عند تركيب نموذج الانحدار اللوجستي المؤثرات العشوائية باستخدام النتائج المرصودة والمتغيرات المشتركة. وتحصل استراتيجية مي باستخدام طريقة الانحدار اللوجستي المؤثرات العشوائية على القيم المحسوبة في ثلاث خطوات: (1) تناسب نموذج الانحدار اللوجستي للآثار العشوائية كما هو موضح أعلاه باستخدام النتيجة المرصودة والمتغيرات المتناظرة. واستنادا إلى التقديرات و B المتحصل عليها من الخطوة (1) ومصفوفة التباين المشترك المرتبطة بها، بناء التوزيع التنبئي الخلفي لهذه المعلمات. تناسب الانحدار اللوجستي تأثيرات عشوائية جديدة باستخدام المعلمات محاكاة من التوزيع التنبؤية الخلفية والمتغيرات المشار إليها للحصول على النتيجة المفقودة المفترضة. وتراعي استراتيجية مي التي تستخدم الانحدار اللوجستي للآثار العشوائية التباين بين التجمعات، الذي يتجاهل في استراتيجية مي باستعمال الانحدار اللوجستي القياسي، وبالتالي قد يكون صالحا لفرض بيانات ثنائية مفقودة في كرت. نحن نقدم رمز ساس لهذه الطريقة في الملحق أ. الانحدار اللوجستي مع الكتلة كأثر ثابت بالمقارنة مع النموذج التنبئي باستخدام أسلوب الانحدار اللوجستي القياسي، نضيف الكتلة كأثر ثابت لحساب تأثير التجميع. يتم تنفيذ هذه الاستراتيجية إسناد متعددة باستخدام مي، مياناليز، جنمود، والإجراءات نلمكسد في ساس. 3. دراسة المحاكاة 3.1. تجربة تقييم ارتفاع ضغط الدم المجتمعي تم الإبلاغ عن دراسة تشات بالتفصيل في أماكن أخرى 23. وباختصار، كانت تجربة معشاة ذات شواهد جماعية تهدف إلى تقييم فعالية عيادات ضغط الدم المعتمدة على الصيدلة التي يقودها اختصاصيو التوعية الصحية من الأقران، مع التغذية المرتدة لأطباء الأسرة بشأن إدارة ومراقبة ضغط الدم بين المرضى الذين يبلغون 65 عاما أو اكبر سنا. و فب هو وحدة من العشوائية. تلقى المرضى من نفس فب نفس التدخل. وفي المجموع، شارك 28 مشاركا في هذه الدراسة. تم تخصيص 14 عشوائيا للتدخل (عيادات بي بي الصيدلية) و 14 لمجموعة السيطرة (لا عيادات بب عرضت). وتم اختيار خمسة وخمسين مريضا عشوائيا من كل قائمة من قوائم فب. لذلك، شارك 1540 مريضا في الدراسة. جميع المرضى المؤهلين في كل من مجموعة التدخل والسيطرة تلقوا الخدمة الصحية المعتادة في مكتب الشراكة الخاصة بهم. تمت دعوة المرضى في الممارسات المخصصة لمجموعة التدخل لزيارة العيادات المجتمعية بب. ساعد المثقفون الصحيون الأقران المرضى على قياس ضغط الدم الخاص بهم ومراجعة عوامل الخطر القلبية الوعائية. أجرى الممرضون البحوث خط الأساس ونهاية المحاكمة (12 شهرا بعد العشوائية) مراجعة السجلات الصحية للمرضى 1540 الذين شاركوا في الدراسة. وكانت النتيجة الأولية للدراسة تشات نتيجة ثنائية تشير إلى ما إذا كان المرضى الذين تم التحكم بب أو لا في نهاية المحاكمة. تم السيطرة على المرضى بب إذا كان في نهاية المحاكمة، الانقباضي بب 140 مم زئبق والانبساطي بب 90 ملم زئبق للمريض دون مرض السكري أو تلف الجهاز المستهدف، أو الانقباضي بب 130 ملم زئبق والانبساطي بب 80 ملم زئبق للمريض مع مرض السكري أو تلف الجهاز المستهدف . إلى جانب مجموعة التدخل، شملت التنبؤات الأخرى التي تم بحثها في هذه الورقة العمر (المتغير المستمر)، والجنس (المتغير الثنائي)، والسكري عند خط الأساس (المتغير الثنائي)، وأمراض القلب عند خط الأساس (المتغير الثنائي)، وعما إذا كان المرضى الذين تم التحكم بب في خط الأساس ( متغير ثنائي). في نهاية المحاكمة، تم السيطرة على 55 مريضا بب. وبدون تضمين أي متنبئات أخرى في النموذج، كانت آثار المعالجة وفترات الثقة 95 (سي) المقدرة من نموذج جي و ري هي 1.14 (0.72، 1.80) و 1.10 (0.65، 1.86) على التوالي. وبلغت القيمة التقديرية للمحكمة الجنائية الدولية 0.077. بعد التعديل للمتغيرات المذكورة أعلاه كانت تأثيرات العلاج و سي التي تقدرها من جي و ري نموذج 1.14 (0.76، 1.70) و 1.12 (0.72، 1.76)، على التوالي. وبلغت القيمة التقديرية للمحكمة الجنائية الدولية 0.055. وبما أنه لا توجد بيانات مفقودة في مجموعة بيانات تشات، فإنه يوفر لنا منصة ملائمة لتصميم دراسة محاكاة لمقارنة القيم المحسوبة والقيم الملحوظة ومواصلة التحقيق في أداء استراتيجيات حسابية متعددة مختلفة في ظل مختلف آليات البيانات المفقودة والنسب المئوية لعدم وجود . 3.2. إنشاء مجموعة بيانات مع نتائج ثنائية مفقودة باستخدام مجموعة بيانات دراسة تشات، قمنا بالتحقيق في أداء استراتيجيات مي المختلفة للنتائج الثنائية المفقودة استنادا إلى آليات مكار و سد. في ظل افتراض مكار، أنشأنا مجموعة البيانات مع نسبة معينة من النتيجة الثنائية المفقودة، مما يدل على ما إذا كان يتم التحكم بب أو لم يكن في نهاية المحاكمة لكل مريض. كان احتمال المفقودين لكل مريض عشوائيا تماما، أي أن احتمال المفقودين لا يعتمد على أي بيانات تشات مرصودة أو غير مرصودة. تحت افتراض سد في عداد المفقودين، اعتبرنا الجنس، مجموعة العلاج، سواء المرضى الذين يسيطرون بب أو لا في خط الأساس، والتي كانت مرتبطة عادة مع التسرب في التجارب السريرية والدراسات الرصدية 24 26، ارتبطت مع احتمال المفقودين. افترضنا أيضا أن المرضى الذكور أكثر عرضة 1.2 مرة من المرضى المفقودين النتيجة التي تم تخصيصها لمجموعة السيطرة كانت 1.3 مرات أكثر عرضة للمرضى المفقودين النتيجة الذين لم يتم التحكم بب في خط الأساس كان 1.4 مرات أكثر عرضة لنقص النتيجة من المرضى الذين تم التحكم بب في خط الأساس. 3.3. تصميم دراسة المحاكاة أولا قارنا الاتفاق بين قيم المتغير الناتج المحسوب والقيم الحقيقية لمتغير النتائج باستخدام إحصائيات كابا. الإحصاء كابا هو الإحصاء الأكثر شيوعا لتقييم الاتفاق بين اثنين من المراقبين أو الأساليب التي تأخذ في الاعتبار حقيقة أنها سوف توافق في بعض الأحيان أو لا توافق ببساطة عن طريق الصدفة 27. ويتم حسابها على أساس الفرق بين مقدار الاتفاق الموجود فعليا مقارنة بمقدار الاتفاق المتوقع وجوده بالصدفة وحدها. A كابا من 1 يشير إلى اتفاق الكمال، و 0 يشير إلى اتفاق يعادل الصدفة. وقد استخدم الإحصاء كابا على نطاق واسع من قبل الباحثين لتقييم أداء تقنيات حسابية مختلفة على فرض البيانات الفئوية المفقودة 28. 29. ثانيا، في ظل مكار و سد مفقود، قارنا تقديرات تأثير العلاج من ري و جي أساليب تحت السيناريوهات التالية: 1) استبعاد القيم الناقصة من التحليل، أي تحليل حالة كاملة 2) تطبيق استراتيجيات احتساب متعددة القياسية التي لا تأخذ العلاقة بين المجموعات في الحسبان 3) تطبيق استراتيجيات الحزم داخل المجموعة و 4) تطبيق استراتيجيات توزيع المجموعات. قمنا بتصميم دراسة محاكاة وفقا للخطوات التالية. 1) ولدت 5 و 10 و 15 و 20 و 30 و 50 نتائج مفقودة في إطار كل من مكار و سد مفقودة الافتراض. وقد اختيرت هذه المبالغ من المفقودين لتغطية نطاق النقص المحتمل في الممارسة 30. تطبيق استراتيجيات احتساب متعددة أعلاه لتوليد م 5 مجموعات البيانات. وفقا لروبين، الكفاءة النسبية لل مي لا تزيد كثيرا عند توليد أكثر من 5 مجموعات البيانات المحسوبة 11. حساب الإحصاء كابا لتقييم الاتفاق بين قيم متغير النتيجة المحسوبة والقيم الحقيقية للمتغير النتيجة. الحصول على تقدير تأثير العلاج واحد من خلال الجمع بين تقديرات تأثير من 5 مجموعات البيانات المحسوبة باستخدام جي و ري نموذج. كرر الخطوات الأربع المذكورة أعلاه لمدة 1000 مرة، أي اتخاذ 1000 تشغيل المحاكاة. حساب إحصاء كابا العام عن طريق حساب متوسط ​​إحصائية كابا من 1000 محاكاة. حساب تأثير العلاج العام والخطأ المعياري عن طريق المتوسطات آثار العلاج وأخطاءها القياسية من 1000 تشغيل المحاكاة. 4 - النتائج 4-1. النتائج عندما تكون البيانات مفقودة تماما بشكل عشوائي مع نسبة 5 أو 10 أو 15 أو 20 أو 30 أو 50 من المفقودين في إطار افتراض مكار، فإن كابا المقدرة لجميع استراتيجيات الحساب المختلفة تزيد قليلا عن 0.95 و 0.90 و 0.85 و 0.80 و 0.70 و 0.50 على التوالي. وترد تقديرات كابا لاستراتيجيات حسابية مختلفة بنسب مختلفة من النتائج المفقودة تحت افتراض مكار بالتفصيل في الجدول 1. إحصاءات كابا لاستراتيجيات حساب مختلفة عندما المفقودين عشوائيا تماما تأثير المعاملة المقدرة من الانحدار اللوجستي الآثار العشوائية عند 30 البيانات هو كوفاريات تعتمد مفقودة. 5. المناقشة في هذه الورقة، وبموجب افتراض مكار و سد في عداد المفقودين، قارنا ست استراتيجيات مي التي تمثل الترابط داخل الكتلة للنتائج الثنائية المفقودة في كرت مع استراتيجيات احتساب القياسية ونهج تحليل حالة كاملة باستخدام دراسة المحاكاة. وتظهر نتائجنا أنه عندما تكون النسبة المئوية للبيانات المفقودة منخفضة أو بين معامل الارتباط داخل المجموعة صغيرة، فإن استراتيجيات حساب مختلفة أو نهج تحليل الحالة الكامل تولد نتائج مماثلة تماما. ثانيا، استراتيجيات مي القياسية، التي لا تأخذ في الاعتبار الترابط داخل الكتلة، التقليل من التباين في آثار العلاج. ولذلك، فإنها قد تؤدي إلى استنتاج هام ولكن إحصائية زائفة عند استخدامها للتعامل مع البيانات المفقودة من كرتس. ثالثا، في ظل افتراض مفار و سد مفقودة، تقديرات نقطة (أور) متشابهة تماما عبر نهج مختلفة للتعامل مع البيانات الناقصة باستثناء الآثار العشوائية الانحدار اللوجستي استراتيجية مي. رابعا، تأخذ استراتيجيات مي على مستوى المجموعة وفيما بين المجموعات بعين الاعتبار الترابط بين المجموعات وتوفر الكثير من تقديرات التأثير العلاجي المحافظ مقارنة باستراتيجيات مي التي تتجاهل تأثير التجميع. وخامسا، تؤدي استراتيجيات إسناد المجموعات داخل المجموعة إلى توسيع نطاق الاستثمار الدولي من استراتيجيات إسناد المجموعات، ولا سيما عندما تكون نسبة المفقودين مرتفعة. قد يكون هذا بسبب إستراتيجيات إسناد داخل المجموعة فقط استخدام جزء صغير من البيانات، مما يؤدي إلى اختلاف كبير في تأثير العلاج المقدر. سادسا، أكبر كابا المقدرة، مما يشير إلى اتفاق أعلى بين القيم المحسوبة والقيم الملحوظة، ويرتبط مع أداء أفضل لاستراتيجيات مي من حيث توليد تأثير العلاج المقدرة و 95 سي أقرب إلى تلك التي تم الحصول عليها من مجموعة بيانات تشات كاملة. سابعا، في ظل استراتيجية التخصيص نفسها ونسبة المفقودين، فإن تقديرات تأثير المعالجة من نماذج الانحدار اللوجستي جي و ري متشابهة. على حد علمنا، وقد تم القيام بعمل محدود على مقارنة مختلف استراتيجيات إسناد متعددة للنتائج الثنائية المفقودة في كرتس. تالجارد وآخرون 17 مقارنة أربع استراتيجيات مي (تجميع أب، داخل الكتلة أب، الانحدار القياسي، الانحدار الآثار المختلطة) ل فقدان النتيجة المتواصلة في كرت عندما مفقود هو عشوائيا تماما. نتائجهم هي مماثلة لنا. وتجدر الإشارة إلى أن الاستراتيجيات داخل المجموعات العنقودية يمكن أن تكون قابلة للتطبيق فقط عندما يكون حجم المجموعة كبيرا بما فيه الكفاية ونسبة المفقودين صغيرة نسبيا. في دراسة تشات، كان هناك 55 مريضا في كل مجموعة والتي وفرت ما يكفي من البيانات لتنفيذ استراتيجيات إسناد داخل المجموعة باستخدام درجة الميل وطريقة مكك. ومع ذلك، فشلت طريقة الانحدار اللوجستي عندما كانت نسبة المفقودين مرتفعة. وكان ذلك لأنه عند توليد نسبة كبيرة (20) من النتيجة المفقودة، تم محاكاة كل المرضى الذين يعانون من نتيجة ثنائية من 0 كما مفقود لبعض المجموعات. ولذلك، فشل نموذج الانحدار اللوجستي لهذه المجموعات معينة. وبالإضافة إلى ذلك، تظهر نتائجنا أن النهج الكامل لتحليل الحالة يؤدي بشكل جيد نسبيا حتى مع 50 مفقودة. ونحن نعتقد أنه بسبب الترابط داخل الكتلة، لا يتوقع المرء أن القيم المفقودة لها تأثير كبير إذا كانت نسبة كبيرة من الكتلة لا تزال موجودة. ومع ذلك، المزيد من التحقيق حول هذه المسألة باستخدام دراسة محاكاة سيكون من المفيد للإجابة على هذا السؤال. وتبين نتائجنا أن استراتيجية الانحدار اللوجستي للتأثيرات العشوائية عبر المجموعات تؤدي إلى تقدير يحتمل أن يكون متحيزا، خاصة عندما تكون نسبة المفقودين مرتفعة. وكما ذكرنا في القسم 2-4-2، نفترض أن التأثيرات العشوائية على مستوى الكتلة تتبع التوزيع الطبيعي، أي U i j n (0. B 2). وقد أظهر الباحثون أن سوء تحديد الشكل التوزيعي له تأثير ضئيل على الاستدلالات حول الآثار الثابتة 31. إن افتراض أن التوزيع العشوائي للآثار مستقل عن حجم الكتلة قد يؤثر على الاستدلالات حول الاعتراض، ولكنه لا يؤثر تأثيرا خطيرا على مؤشرات الانحدار. غير أن الافتراض غير الصحيح لتوزيع التأثيرات العشوائية مستقل عن المتغيرات المشتركة قد يؤثر تأثيرا خطيرا على استنتاجات معلمات الانحدار 32. ويمكن ربط متوسط ​​توزيع التأثيرات العشوائية بالتغير المتغير، أو يمكن أن يرتبط تباين توزيع التأثيرات العشوائية بمتغير مشترك لمجموعة البيانات، مما قد يفسر التحيز المحتمل من استراتيجية الانحدار اللوجستي للتأثيرات العشوائية عبر العنقود. وعلى النقيض من ذلك، فإن استراتيجية الترجيع في الانحدار اللوجستي مع المجموعة كتأثير ثابت لها أداء أفضل. ومع ذلك، قد يتم تطبيقه فقط عندما يكون حجم الكتلة كبيرا بما فيه الكفاية لتوفير تقدير مستقر لتأثير الكتلة. For multiple imputation, the overall variance of the estimated treatment effect consists of two parts: within imputation variance U . and between imputation variance B . The total variance T is calculated as T U (1 1 m ) B . where m is the number of imputed datasets 10 . Since standard MI strategies ignore the between cluster variance and fail to account for the intra-cluster correlation, the within imputation variance may be underestimated, which could lead to underestimation of the total variance and consequently the narrower confidence interval. In addition, the adequacy of standard MI strategies depends on the ICC. In our study, the ICC of the CHAT dataset is 0.055 and the cluster effect in the random-effects model is statistically significant. Among the three imputation methods: predictive model (logistic regression method), propensity score method, and MCMC method, the latter is most popular method for multiple imputation of missing data and is the default method implemented in SAS. Although this method is widely used to impute binary and polytomous data, there are concerns about the consequences of violating the normality assumption. Experience has repeatedly shown that multiple imputation using MCMC method tends to be quite robust even when the real data depart from the multivariate normal distribution 20 . Therefore, when handling the missing binary or ordered categorical variables, it is acceptable to impute under a normality assumption and then round off the continuous imputed values to the nearest category. For example, the imputed values for the missing binary variable can be any real value rather than being restricted to 0 and 1. We rounded the imputed values so that values greater than or equal to 0.5 were set to 1, and values less than 0.5 were set to 0 34 . Horton et al 35 showed that such rounding may produce biased estimates of proportions when the true proportion is near 0 or 1, but does well under most other conditions. The propensity score method is originally designed to impute the missing values on the response variables from the randomized experiment with repeated measures 21 . Since it uses only the covariate information associated with the missingness but ignores the correlation among variables, it may produce badly biased estimates of regression coefficients when data on predictor variables are missing. In addition, with small sample sizes and a relatively large number of propensity score groups, application of the ABB method is problematic, especially for binary variables. In this case, a modified version of ABB should be conducted 36 . There are some limitations that need to be acknowledged and addressed regarding the present study. First, the simulation study is based on a real dataset, which has a relatively large cluster size and small ICC. Further research should investigate the performance of different imputation strategies at different design settings. Second, the scenario of missing an entire cluster is not investigated in this paper. The proposed within-cluster and across-cluster MI strategies may not apply to this scenario. Third, we investigate the performance of different MI strategies assuming missing data mechanism of MCAR and CD missing. Therefore, results cannot be generalized to MAR or MNAR scenarios. Fourth, since the estimated treatment effects are similar under different imputation strategies, we only presented the OR and 95 CI for each simulation scenario. However, estimates of standardized bias and coverage would be more informative and would also provide a quantitative guideline to assess the adequacy of imputes 37 . 6. Conclusions When the percentage of missing data is low or intra-cluster correlation coefficient is small, different imputation strategies or complete case analysis approach generate quite similar results. When the percentage of missing data is high, standard MI strategies, which do not take into account the intra-cluster correlation, underestimate the variance of the treatment effect. Within-cluster and across-cluster MI strategies (except for the random-effects logistic regression MI strategy), which take the intra-cluster correlation into account, seem to be more appropriate to handle the missing outcome from CRTs. Under the same imputation strategy and percentage of missingness, the estimates of the treatment effect from GEE and RE logistic regression models are similar. Appendix A: SAS code for across-cluster random-effects logistic regression method let maximum 1000 ods listing close proc nlmixed data mcaramppercentampindex cov parms b0 -0.0645 bgroup -0.1433 bdiabbase -0.04 bhdbase 0.1224 bage -0.0066 bbasebpcontrolled 1.1487 bsex 0.0873 s2u 0.5 Population Health Research Institute, Hamilton Health Sciences References Campbell MK, Grimshaw JM: Cluster randomised trials: time for improvement. The implications of adopting a cluster design are still largely being ignored. BMJ. 1998, 317 (7167): 1171-1172. View Article PubMed PubMed Central Google Scholar COMMIT Research Group: Community Intervention trial for Smoking Cessation (COMMIT): 1. Cohort results from a four-year community intervention. Am J Public Health. 1995, 85: 183-192. 10.2105AJPH.85.2.183. View Article Google Scholar Donner A, Klar N: Design and Analysis of Cluster Randomisation Trials in Health Research. 2000, London: Arnold Google Scholar Cornfield J: Randomization by group: a formal analysis. Am J Epidemiol. 1978, 108 (2): 100-102. PubMed Google Scholar Donner A, Brown KS, Brasher P: A methodological review of non-therapeutic intervention trials employing cluster randomization, 1979-1989. Int J Epidemiol. 1990, 19 (4): 795-800. 10.1093ije19.4.795. View Article PubMed Google Scholar Rubin DB: Inference and missing data. Biometrika. 1976, 63: 581-592. 10.1093biomet63.3.581. View Article Google Scholar Allison PD: Missing Data. 2001, SAGE Publications Inc Google Scholar Schafer JL, Olsen MK: Multiple imputation for multivariate missing-data problems: a data analysts perspective. Multivariate Behavioral Research. 1998, 33: 545-571. 10.1207s15327906mbr33045. View Article PubMed Google Scholar McArdle JJ: Structural factor analysis experiments with incomplete data. Multivariate Behavioral Research. 1994, 29: 409-454. 10.1207s15327906mbr29045. View Article PubMed Google Scholar Little RJA, Rubin DB: Statistical Analysis with missing data. 2002, New York: John Wiley, Second Google Scholar Rubin DB: Multiple Imputation for Nonresponse in Surveys. 1987, New York, NY. John Wiley amp Sons, Inc View Article Google Scholar Yi GYY, Cook RJ: Marginal Methods for Incomplete Longitudinal Data Arising in Clusters. Journal of the American Statistical Association. 2002, 97 (460): 1071-1080. 10.1198016214502388618889. View Article Google Scholar Hunsberger S, Murray D, Davis CE, Fabsitz RR: Imputation strategies for missing data in a school-based multi-centre study: the Pathways study. Stat Med. 2001, 20 (2): 305-316. 10.10021097-0258(20010130)20:2lt305::AID-SIM645gt3.0.CO2-M. View Article PubMed Google Scholar Nixon RM, Duffy SW, Fender GR: Imputation of a true endpoint from a surrogate: application to a cluster randomized controlled trial with partial information on the true endpoint. BMC Med Res Methodol. 2003, 3: 17-10.11861471-2288-3-17. View Article PubMed PubMed Central Google Scholar Green SB, Corle DK, Gail MH, Mark SD, Pee D, Freedman LS, Graubard BI, Lynn WR: Interplay between design and analysis for behavioral intervention trials with community as the unit of randomization. Am J Epidemiol. 1995, 142 (6): 587-593. PubMed Google Scholar Green SB: The advantages of community-randomized trials for evaluating lifestyle modification. Control Clin Trials. 1997, 18 (6): 506-13. 10.1016S0197-2456(97)00013-5. discussion 514-6 View Article PubMed Google Scholar Taljaard M, Donner A, Klar N: Imputation strategies for missing continuous outcomes in cluster randomized trials. Biom J. 2008, 50 (3): 329-345. 10.1002bimj.200710423. View Article PubMed Google Scholar Kenward MG, Carpenter J: Multiple imputation: current perspectives. Stat Methods Med Res. 2007, 16 (3): 199-218. 10.11770962280206075304. View Article PubMed Google Scholar Dobson AJ: An introduction to generalized linear models. 2002, Boca Raton: Chapman amp HallCRC, 2 Google Scholar Schafer JL: Analysis of Incomplete Multivariate Data. 1997, London: Chapman and Hall View Article Google Scholar SAS Publishing: SASSTAT 9.1 Users Guide: support. sasdocumentationonlinedoc91pdfsasdoc91statug7313.pdf Rubin DB, Schenker N: Multiple imputation for interval estimation from simple random samples with ignorable nonresponse. Journal of the American Statistical Association. 1986, 81 (394): 366-374. 10.23072289225. View Article Google Scholar Ma J, Thabane L, Kaczorowski J, Chambers L, Dolovich L, Karwalajtys T, Levitt C: Comparison of Bayesian and classical methods in the analysis of cluster randomized controlled trials with a binary outcome: the Community Hypertension Assessment Trial (CHAT). BMC Med Res Methodol. 2009, 9: 37-10.11861471-2288-9-37. View Article PubMed PubMed Central Google Scholar Levin KA: Study design VII. Randomised controlled trials. Evid Based Dent. 2007, 8 (1): 22-23. 10.1038sj. ebd.6400473. View Article PubMed Google Scholar Matthews FE, Chatfield M, Freeman C, McCracken C, Brayne C, MRC CFAS: Attrition and bias in the MRC cognitive function and ageing study: an epidemiological investigation. BMC Public Health. 2004, 4: 12-10.11861471-2458-4-12. View Article PubMed PubMed Central Google Scholar Ostbye T, Steenhuis R, Wolfson C, Walton R, Hill G: Predictors of five-year mortality in older Canadians: the Canadian Study of Health and Aging. J Am Geriatr Soc. 1999, 47 (10): 1249-1254. View Article PubMed Google Scholar Viera AJ, Garrett JM: Understanding interobserver agreement: the kappa statistic. Fam Med. 2005, 37 (5): 360-363. PubMed Google Scholar Laurenceau JP, Stanley SM, Olmos-Gallo A, Baucom B, Markman HJ: Community-based prevention of marital dysfunction: multilevel modeling of a randomized effectiveness study. J Consult Clin Psychol. 2004, 72 (6): 933-943. 10.10370022-006X.72.6.933. View Article PubMed Google Scholar Shrive FM, Stuart H, Quan H, Ghali WA: Dealing with missing data in a multi-question depression scale: a comparison of imputation methods. BMC Med Res Methodol. 2006, 6: 57-10.11861471-2288-6-57. View Article PubMed PubMed Central Google Scholar Elobeid MA, Padilla MA, McVie T, Thomas O, Brock DW, Musser B, Lu K, Coffey CS, Desmond RA, St-Onge MP, Gadde KM, Heymsfield SB, Allison DB: Missing data in randomized clinical trials for weight loss: scope of the problem, state of the field, and performance of statistical methods. PLoS One. 2009, 4 (8): e6624-10.1371journal. pone.0006624. View Article PubMed PubMed Central Google Scholar McCulloch CE, Neuhaus JM: Prediction of Random Effects in Linear and Generalized Linear Models under Model Misspecification. Biometrics. Neuhaus JM, McCulloch CE: Separating between - and within-cluster covariate effects using conditional and partitioning methods. Journal of the Royal Statistical Society. 2006, 859-872. Series B, 68 Heagerty PJ, Kurland BF: Misspecified maximum likelihood estimates and generalised linear mixed models. Biometrika. 2001, 88 (4): 973-985. 10.1093biomet88.4.973. View Article Google Scholar Christopher FA: Rounding after multiple imputation with Non-binary categorical covariates. SAS Focus Session SUGI. 2004, 30: Google Scholar Horton NJ, Lipsitz SR, Parzen M: A potential for bias when rounding in multiple imputation. American Statistician. 2003, 229-232. 10.11980003130032314. 57 Li X, Mehrotra DV, Barnard J: Analysis of incomplete longitudinal binary data using multiple imputation. Stat Med. 2006, 25 (12): 2107-2124. 10.1002sim.2343. View Article PubMed Google Scholar Collins LM, Schafer JL, Kam CM: A comparison of inclusive and restrictive strategies in modern missing data procedures. Psychol Methods. 2001, 6 (4): 330-351. 10.10371082-989X.6.4.330. View Article PubMed Google Scholar Pre-publication history Ma et al licensee BioMed Central Ltd. 2011 This article is published under license to BioMed Central Ltd. This is an Open Access article distributed under the terms of the Creative Commons Attribution License ( creativecommons. orglicensesby2.0 ), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. Multiple Imputation LIMDEPrsquos new implementation of multiple imputation is woven into the entire program, not just a few specific models. Any estimator, even your own created with MAXIMIZE, or any other computation involving data that produces a coefficient vector and a sampling covariance matrix, can be based on multiple imputed data sets. And, we have built this technique to bypass the need to create multiple data sets 8211 traditionally, the need to replicate the full data set has hobbled this method. LIMDEPrsquos implementation of multiple imputation uses only the existing data set. The results are fully replicable as well. (You can create and save the imputed data sets if you wish.) Multiple Imputation Features Including Continuous Data, Binary Variables, Ordered Outcomes and More Imputation equations for filling missing values Up to 30 variables imputed simultaneously Six types of imputation procedures for Continuous variables using multiple regression Binary variables using logistic regression Count variables using Poisson regression Likert scale (ordered outcomes) using ordered probit Fractional (proportional outcome) using logistic regression Unordered multinomial choice using multinomial logit No duplication of the base data set Estimation step for any model in LIMDEP or NLOGIT All models supported by built in procedures Any model written by the user with GMME, MAXIMIZE, NLSQ, etc. Estimate any number of models using each imputed data set Here is a constructed example based on a data set that contains 27,326 observations and about 30 variables. The variable married is a marital status dummy variable. We have injected about 10 missing values into this binary variable. We create an imputation equation for married with the IMPUTE command. The procedure then fits a probit model that uses married and several other variables. The missing values are imputed using age, education and income in each of 25 iterations. The second set of results is the simple probit results using casewise deletion rather than imputation. Multiple Imputation in Stata: Imputing This is part four of the Multiple Imputation in Stata series. For a list of topics covered by this series, see the Introduction . This section will talk you through the details of the imputation process. Be sure youve read at least the previous section, Creating Imputation Models. so you have a sense of what issues can affect the validity of your results. Example Data To illustrate the process, well use a fabricated data set. Unlike those in the examples section, this data set is designed to have some resemblance to real world data. female (binary) race (categorical, three values) urban (binary) edu (ordered categorical, four values) exp (continuous) wage (continuous) Missingness . Each value of all the variables except female has a 10 chance of being missing completely at random, but of course in the real world we wont know that it is MCAR ahead of time. Thus we will check whether it is MCAR or MAR (MNAR cannot be checked by looking at the observed data) using the procedure outlined in Deciding to Impute : unab numvars: unab missvars: urban-wage misstable sum, gen(miss) foreach var of local missvars local covars: list numvars - var display newline(3) quotlogit missingness of var on covarsquot logit missvar covars foreach nvar of local covars display newline(3) quotttest of nvar by missingness of varquot ttest nvar, by(missvar) See the log file for results. Our goal is to regress wages on sex, race, education level, and experience. To see the quotrightquot answers, open the do file that creates the data set and examine the gen command that defines wage. Complete code for the imputation process can be found in the following do file: The imputation process creates a lot of output. Well put highlights in this page, however, a complete log file including the associated graphs can be found here: Each section of this article will have links to the relevant section of the log. Click quotbackquot in your browser to return to this page. Setting up The first step in using mi commands is to mi set your data. This is somewhat similar to svyset. tsset. or xtset. The mi set command tells Stata how it should store the additional imputations youll create. We suggest using the wide format, as it is slightly faster. On the other hand, mlong uses slightly less memory. To have Stata use the wide data structure, type: To have Stata use the mlong (marginal long) data structure, type: The wide vs. long terminology is borrowed from reshape and the structures are similar. However, they are not equivalent and you would never use reshape to change the data structure used by mi. Instead, type mi convert wide or mi convert mlong (add, clear if the data have not been saved since the last change). Most of the time you dont need to worry about how the imputations are stored: the mi commands figure out automatically how to apply whatever you do to each imputation. But if you need to manipulate the data in a way mi cant do for you, then youll need to learn about the details of the structure youre using. Youll also need to be very, very careful. If youre interested in such things (including the rarely used flong and flongsep formats) run this do file and read the comments it contains while examining the data browser to see what the data look like in each form. Registering Variables The mi commands recognize three kinds of variables: Imputed variables are variables that mi is to impute or has imputed. Regular variables are variables that mi is not to impute, either by choice or because they are not missing any values. Passive variables are variables that are completely determined by other variables. For example, log wage is determined by wage, or an indicator for obesity might be determined by a function of weight and height. Interaction terms are also passive variables, though if you use Statas interaction syntax you wont have to declare them as such. Passive variables are often problematic8212the examples on transformations. non-linearity. and interactions show how using them inappropriately can lead to biased estimates. If a passive variable is determined by regular variables, then it can be treated as a regular variable since no imputation is needed. Passive variables only have to be treated as such if they depend on imputed variables. Registering a variable tells Stata what kind of variable it is. Imputed variables must always be registered: mi register imputed varlist where varlist should be replaced by the actual list of variables to be imputed. Regular variables often dont have to be registered, but its a good idea: mi register regular varlist Passive variables must be registered: mi register passive varlist However, passive variables are more often created after imputing. Do so with mi passive and theyll be registered as passive automatically. In our example data, all the variables except female need to be imputed. The appropriate mi register command is: mi register imputed race-wage (Note that you cannot use as your varlist even if you have to impute all your variables, because that would include the system variables added by mi set to keep track of the imputation structure.) Registering female as regular is optional, but a good idea: mi register regular female Checking the Imputation Model Based on the types of the variables, the obvious imputation methods are: race (categorical, three values): mlogit urban (binary): logit edu (ordered categorical, four values): ologit exp (continuous): regress wage (continuous): regress female does not need to be imputed, but should be included in the imputation models both because it is in the analysis model and because its likely to be relevant. Before proceeding to impute we will check each of the imputation models. Always run each of your imputation models individually, outside the mi impute chained context, to see if they converge and (insofar as it is possible) verify that they are specified correctly. Code to run each of these models is: mlogit race i. urban exp wage i. edu i. female logit urban i. race exp wage i. edu i. female ologit edu i. urban i. race exp wage i. female regress exp i. urban i. race wage i. edu i. female regress wage i. urban i. race exp i. edu i. female Note that when categorical variables (ordered or not) appear as covariates i. expands them into sets of indicator variables. As well see later, the output of the mi impute chained command includes the commands for the individual models it runs. Thus a useful shortcut, especially if you have a lot of variables to impute, is to set up your mi impute chained command with the dryrun option to prevent it from doing any actual imputing, run it, and then copy the commands from the output into your do file for testing. Convergence Problems The first thing to note is that all of these models run successfully. Complex models like mlogit may fail to converge if you have large numbers of categorical variables, because that often leads to small cell sizes. To pin down the cause of the problem, remove most of the variables, make sure the model works with whats left, and then add variables back one at a time or in small groups until it stops working. With some experimentation you should be able to identify the problem variable or combination of variables. At that point youll have to decide if you can combine categories or drop variables or make other changes in order to create a workable model. Prefect Prediction Perfect prediction is another problem to note. The imputation process cannot simply drop the perfectly predicted observations the way logit can. You could drop them before imputing, but that seems to defeat the purpose of multiple imputation. The alternative is to add the augment (or just aug ) option to the affected methods. This tells mi impute chained to use the quotaugmented regressionquot approach, which adds fake observations with very low weights in such a way that they have a negligible effect on the results but prevent perfect prediction. For details see the section quotThe issue of perfect prediction during imputation of categorical dataquot in the Stata MI documentation. Checking for Misspecification You should also try to evaluate whether the models are specified correctly. A full discussion of how to determine whether a regression model is specified correctly or not is well beyond the scope of this article, but use whatever tools you find appropriate. Here are some examples: Residual vs. Fitted Value Plots For continuous variables, residual vs. fitted value plots (easily done with rvfplot ) can be useful8212several of the examples use them to detect problems. Consider the plot for experience: regress exp i. urban i. race wage i. edu i. female rvfplot Note how a number of points are clustered along a line in the lower left, and no points are below it: This reflects the constraint that experience cannot be less than zero, which means that the fitted values must always be greater than or equal to the residuals, or alternatively that the residuals must be greater than or equal to the negative of the fitted values. (If the graph had the same scale on both axes, the constraint line would be a 45 degree line.) If all the points were below a similar line rather than above it, this would tell you that there was an upper bound on the variable rather than a lower bound. The y-intercept of the constraint line tells you the limit in either case. You can also have both a lower bound and an upper bound, putting all the points in a band between them. The quotobviousquot model, regress. is inappropriate for experience because it wont apply this constraint. Its also inappropriate for wages for the same reason. Alternatives include truncreg, ll(0) and pmm (well use pmm ). Adding Interactions In this example, it seems plausible that the relationships between variables may vary between race, gender, and urbanrural groups. Thus one way to check for misspecification is to add interaction terms to the models and see whether they turn out to be important. For example, well compare the obvious model: regress exp i. race wage i. edu i. urban i. female with one that includes interactions: regress exp (i. race i. urban i. female)(c. wage i. edu) Well run similar comparisons for the models of the other variables. This creates a great deal of output, so see the log file for results. Interactions between female and other variables are significant in the models for exp. wage. ايدو. and urban. There are a few significant interactions between race or urban and other variables, but not nearly as many (and keep in mind that with this many coefficients wed expect some false positives using a significance level of .05). Well thus impute the men and women separately. This is an especially good option for this data set because female is never missing. If it were, wed have to drop those observations which are missing female because they could not be placed in one group or the other. In the imputation command this means adding the by(female) option. When testing models, it means starting the commands with the by female: prefix (and removing female from the lists of covariates). The improved imputation models are thus: bysort female: reg exp i. urban i. race wage i. edu by female: logit urban exp i. race wage i. edu by female: mlogit race exp i. urban wage i. edu by female: reg wage exp i. urban i. race i. edu by female: ologit edu exp i. urban i. race wage pmm itself cannot be run outside the imputation context, but since its based on regression you can use regular regression to test it. These models should be tested again, but well omit that process. The basic syntax for mi impute chained is: mi impute chained ( method1 ) varlist1 ( method2 ) varlist2. regvars Each method specifies the method to be used for imputing the following varlist The possibilities for method are regress. pmm. truncreg. intreg. logit. ologit. mlogit. poisson. and nbreg. regvars is a list of regular variables to be used as covariates in the imputation models but not imputed (there may not be any). The basic options are: add( N ) rseed( R ) savetrace( tracefile. replace) N is the number of imputations to be added to the data set. R is the seed to be used for the random number generator8212if you do not set this youll get slightly different imputations each time the command is run. The tracefile is a dataset in which mi impute chained will store information about the imputation process. Well use this dataset to check for convergence. Options that are relevant to a particular method go with the method, inside the parentheses but following a comma (e. g. (mlogit, aug) ). Options that are relevant to the imputation process as a whole (like by(female) ) go at the end, after the comma. For our example, the command would be: mi impute chained (logit) urban (mlogit) race (ologit) edu (pmm) exp wage, add(5) rseed(4409) by(female) Note that this does not include a savetrace() option. As of this writing, by() and savetrace() cannot be used at the same time, presumably because it would require one trace file for each by group. Stata is aware of this problem and we hope this will be changed soon. For purposes of this article, well remove the by() option when it comes time to illustrate use of the trace file. If this problem comes up in your research, talk to us about work-arounds. Choosing the Number of Imputations There is some disagreement among authorities about how many imputations are sufficient. Some say 3-10 in almost all circumstances, the Stata documentation suggests at least 20, while White, Royston, and Wood argue that the number of imputations should be roughly equal to the percentage of cases with missing values. However, we are not aware of any argument that increasing the number of imputations ever causes problems (just that the marginal benefit of another imputation asymptotically approaches zero). Increasing the number of imputations in your analysis takes essentially no work on your part. Just change the number in the add() option to something bigger. On the other hand, it can be a lot of work for the computer8212multiple imputation has introduced many researchers into the world of jobs that take hours or days to run. You can generally assume that the amount of time required will be proportional to the number of imputations used (e. g. if a do file takes two hours to run with five imputations, it will probably take about four hours to run with ten imputations). So heres our suggestion: Start with five imputations (the low end of whats broadly considered legitimate). Work on your research project until youre reasonably confident you have the analysis in its final form. Be sure to do everything with do files so you can run it again at will. Note how long the process takes, from imputation to final analysis. Consider how much time you have available and decide how many imputations you can afford to run, using the rule of thumb that time required is proportional to the number of imputations. If possible, make the number of imputations roughly equal to the percentage of cases with missing data (a high end estimate of whats required). Allow time to recover if things to go wrong, as they generally do. Increase the number of imputations in your do file and start it. Do something else while the do file runs, like write your paper. Adding imputations shouldnt change your results significantly8212and in the unlikely event that they do, consider yourself lucky to have found that out before publishing. Speeding up the Imputation Process Multiple imputation has introduced many researchers into the world of jobs that take hours, days, or even weeks to run. Usually its not worth spending your time to make Stata code run faster, but multiple imputation can be an exception. Use the fastest computer available to you. For SSCC members that means learning to run jobs on Linstat, the SSCCs Linux computing cluster. Linux is not as difficult as you may think8212Using Linstat has instructions. Multiple imputation involves more reading and writing to disk than most Stata commands. Sometimes this includes writing temporary files in the current working directory. Use the fastest disk space available to you, both for your data set and for the working directory. In general local disk space will be faster than network disk space, and on Linstat ramdisk (a quotdirectoryquot that is actually stored in RAM) will be faster than local disk space. On the other hand, you would not want to permanently store data sets anywhere but network disk space. So consider having your do file do something like the following: Windows (Winstat or your own PC) This applies when youre using imputed data as well. If your data set is large enough that working with it after imputation is slow, the above procedure may help. Checking for Convergence MICE is an iterative process. In each iteration, mi impute chained first estimates the imputation model, using both the observed data and the imputed data from the previous iteration. It then draws new imputed values from the resulting distributions. Note that as a result, each iteration has some autocorrelation with the previous imputation. The first iteration must be a special case: in it, mi impute chained first estimates the imputation model for the variable with the fewest missing values based only on the observed data and draws imputed values for that variable. It then estimates the model for the variable with the next fewest missing values, using both the observed values and the imputed values of the first variable, and proceeds similarly for the rest of the variables. Thus the first iteration is often atypical, and because iterations are correlated it can make subsequent iterations atypical as well. To avoid this, mi impute chained by default goes through ten iterations for each imputed data set you request, saving only the results of the tenth iteration. The first nine iterations are called the burn-in period. Normally this is plenty of time for the effects of the first iteration to become insignificant and for the process to converge to a stationary state. However, you should check for convergence and increase the number of iterations if necessary to ensure it using the burnin() option. To do so, examine the trace file saved by mi impute chained. It contains the mean and standard deviation of each imputed variable in each iteration. These will vary randomly, but they should not show any trend. An easy way to check is with tsline. but it requires reshaping the data first. Our preferred imputation model uses by(). so it cannot save a trace file. Thus well remove by() for the moment. Well also increase the burnin() option to 100 so its easier to see what a stable trace looks like. Well then use reshape and tsline to check for convergence: preserve mi impute chained (logit) urban (mlogit) race (ologit) edu (pmm) exp wage female, add(5) rseed(88) savetrace(extrace, replace) burnin(100) use extrace, replace reshape wide mean sd, i(iter) j(m) tsset iter tsline expmean, title(quotMean of Imputed Values of Experiencequot) note(quotEach line is for one imputationquot) legend(off) graph export conv1.png, replace tsline expsd, title(quotStandard Deviation of Imputed Values of Experiencequot) note(quotEach line is for one imputationquot) legend(off) graph export conv2.png, replace restore The resulting graphs do not show any obvious problems: If you do see signs that the process may not have converged after the default ten iterations, increase the number of iterations performed before saving imputed values with the burnin() option. If convergence is never achieved this indicates a problem with the imputation model. Checking the Imputed Values After imputing, you should check to see if the imputed data resemble the observed data. Unfortunately theres no formal test to determine whats quotclose enough. quot Of course if the data are MAR but not MCAR, the imputed data should be systematically different from the observed data. Ironically, the fewer missing values you have to impute, the more variation youll see between the imputed data and the observed data (and between imputations). For binary and categorical variables, compare frequency tables. For continuous variables, comparing means and standard deviations is a good starting point, but you should look at the overall shape of the distribution as well. For that we suggest kernel density graphs or perhaps histograms. Look at each imputation separately rather than pooling all the imputed values so you can see if any one of them went wrong. The mi xeq: prefix tell Stata to apply the subsequent command to each imputation individually. It also applies to the original data, the quotzeroth imputation. quot Thus: mi xeq: tab race will give you six frequency tables: one for the original data, and one for each of the five imputations. However, we want to compare the observed data to just the imputed data, not the entire data set. This requires adding an if condition to the tab commands for the imputations, but not the observed data. Add a number or numlist to have mi xeq act on particular imputations: mi xeq 0: tab race mi xeq 15: tab race if missrace This creates frequency tables for the observed values of race and then the imputed values in all five imputations. If you have a significant number of variables to examine you can easily loop over them: foreach var of varlist urban race edu mi xeq 0: tab var mi xeq 15: tab var if missvar For results see the log file . Running summary statistics on continuous variables follows the same process, but creating kernel density graphs adds a complication: you need to either save the graphs or give yourself a chance to look at them. mi xeq: can carry out multiple commands for each imputation: just place them all in one line with a semicolon ( ) at the end of each. (This will not work if youve changed the general end-of-command delimiter to a semicolon.) The sleep command tells Stata to pause for a specified period, measured in milliseconds. mi xeq 0: kdensity wage sleep 1000 mi xeq 15: kdensity wage if missvar sleep 1000 Again, this can all be automated: foreach var of varlist wage exp mi xeq 0: sum var mi xeq 15: sum var if missvar mi xeq 0: kdensity var sleep 1000 mi xeq 15: kdensity var if missvar sleep 1000 Saving the graphs turns out to be a bit trickier, because you need to give the graph from each imputation a different file name. Unfortunately you cannot access the imputation number within mi xeq. However, you can do a forvalues loop over imputation numbers, then have mi xeq act on each of them: forval i15 mi xeq i: kdensity exp if missexp graph export expi. png, replace Integrating this with the previous version gives: foreach var of varlist wage exp mi xeq 0: sum var mi xeq 15: sum var if missvar mi xeq 0: kdensity var graph export chkvar0.png, replace forval i15 mi xeq i: kdensity var if missvar graph export chkvari. png, replace For results, see the log file . Its troublesome that in all imputations the mean of the imputed values of wage is higher than the mean of the observed values of wage. and the mean of the imputed values of exp is lower than the mean of the observed values of exp. We did not find evidence that the data is MAR but not MCAR, so wed expect the means of the imputed data to be clustered around the means of the observed data. There is no formal test to tell us definitively whether this is a problem or not. However, it should raise suspicions, and if the final results with these imputed data are different from the results of complete cases analysis, it raises the question of whether the difference is due to problems with the imputation model. Last Revised: 8232012

No comments:

Post a Comment