مقدمه
بسیاری از تصمیمات پزشکی متکی است بر تستهای آزمایشگاهی. پزشکان اغلب در جستجوی این هستند که 1- کدام تست (ها ) بیشتر اختصاصی هستند 2- و کم هزینه تر هستند 3- و یک مسیر درست و موثری را جهت تشخیص یا عملیات پزشکی فراهم میکنند.بهمین جهت در این جا ما به این مساله می پردازیم که چگونه از اطلاعات تشخیصی بدست آمده توسط یک تست استفاده کنیم و نیز تستهای تشخیصی مختلف را چگونه با یکدیگر مقایسه و ارزیابی کنیم.کارایی انالایتیکال (analytical performance) تستها در حال حاضر بطور چشمگیری بسیار افزایش یافته است اما با این حال یک تست با حساسیت و اختصاصیت انالایتیکال بسیار بالا ممکن است کاربرد بالینی تشخیصی مفیدی در مقایسه با یک تستی که کارایی انالایتیکال بدتری دارد نداشته باشد.به عنوان مثال یک تستی که کلسیم یونیزه را اندازه میگیرد از نظر انالایتیکال بسیار دقیق تر و حساس تر است نسبت به تستی که هورمون پاراتیرویید (Parathyroid hormone) را اندازه میگیرد اما اطلاعات در مورد کلسیم یونیزه کاربرد تشخیصی بسیار کمی در ارتباط با بیماری هایپرپاراتیروییدیسم (hyperparathyrooidism) دارد. دو سوال عمده که در این باره مطرح است 1- چگونه محتوای اطلاعاتی تشخیصی یک تست را ارزیابی کنیم 2- از چه روشی استفاده کنیم تا در مورد قدرت تشخیص بیماری ها توسط تستهای مختلف بتوانیم تصمیم گیری کنیم.
منبع:تیتز پایه های شیمی بالینی و تشخیصهای مولکولی،ویرایش پنجم،فصل سوم
,Tietz; textbook of clinical chemistry and molecular diagnostics ,fifth edition,chapter3
صحت تشخیصی(diagnostic accuracy) تستها
وقتی یک پزشک می خواهد از یک تست ازمایشگاهی استفاده کند نیاز دارد که در مورد کارایی تشخیصی تست(clinical performance characteristics) اطلاعاتی داشته باشد. میزان هم خوانی نتایج یک تست ازمایشگاهی با تشخیص صحیح یک بیماری به چند صورت بیان میشود که شامل 1- حساسیت بالینی و اختصاصیت بالینی 2- مقادیر پیشامد 3- منحنی های ROC اختصار برای receiver operating characteristic و در اخر نسبتهای احتمال (likelihood ratios)
حساسیت و اختصاصیت تشخیصی
حساسیت تشخیصی یک تست برای یک بیماری خاص عبارت است از تعداد مواردی که تست به درستی می تواند بیماری را تشخیص دهد و اختصاصیت تشخیصی عبارت است از تعداد موارد فاقد بیماری که تست به درستی می تواند درست تشخیص دهد .در جدول ذیل طبقه بندی افراد بیمار و غیر بیمار را در ارتباط با نتایج تست آنها نشان میدهد .
مثبتهای درست (true positive=TP) تعداد افراد بیماری است که توسط تست به درستی طبقه بندی شده است، مثبتهای غلط (false positive=FP) تعداد افراد سالمی است که توسط تست به غلط ، بیمار طبقه بندی شده است. منفی های غلط (false negative=FN) تعداد افراد بیماری است که توسط تست ، سالم طبقه بندی شده است ، و منفی های درست (true negative=TN) تعداد افراد سالمی است که توسط تست ، به درستی طبقه بندی شده است .
(sensitivity=TP/(TP+FN
(specificity=TN/(TN+FP
حساسیت بسیار بالا (FN پایین ) و اختصاصیت بسیار بالا (FP پایین ) برای یک تست بسیار ایده ال است اما بستگی به شرایط بالینی یکی بر دیگری ترجیح داده میشود.تستهای دوقطبی (dichotomous) طوری طراحی میشوند که فقط نتیجه مثبت یا منفی (نتایج کیفی ) دارند، این گونه تستها برای یک مقدار cutoff که مرز تعیین کننده نتایج مثبت و منفی است یک حساسیت و اختصاصیت منفردی را دارا می باشند. اگر cutoff طوری انتخاب شود که حساسیت بالایی برای تست مد نظر باشد اغلب اختصاصیت هر مقدار که باشد پذیرفته میشود و همچنین اگر در تستی cutoff اختصاصیت را افزایش دهد میزان حساسیت کم میشود.
یک مثال از تستهای دو قطبی (تستهای دارای نتایج مثبت و منفی) تست غربالگری تشخیص ویروس ایدز (HIV) است، این تست انتی بادی های ضد ویروس ایدز را شناسایی میکند و نتایج مثبت و منفی واقعی را علاوه بر نتایج مثبت و منفی کاذب ارایه میدهد . نتایج مثبت کاذب بخاطر خطاهای تکنیکی مانند برچسب زدن اشتباه یا الودگی و نیزحضور انتی بادی های واکنش متقاطع دهنده (cross reacting antibody) در زنانی که چندین بار زایمان داشته اند و یا کسانی که چندین بار فراورده های خونی دریافت کرده اند مشاهده میشود.نتایج منفی کاذب نیز در موارد خطاهای فنی مانند بد پی پت کردن و یا نمون گیری در زمانهای اولیه عفونت مانند 3 الی 4 هفته اول عفونت (زمانی که انتی بادی تولید نمی شود) منجر به نتایج منفی کاذب میشود.
در مقابل تستهای پیوسته قرار دارند که نتایج کمی تولید میکنند و هرگاه مقدار cutoff از تغییر کند تعداد نامحدودی جفت حساسیت و اختصاصیت تشخیصی ایجاد میکنند.
شکل بالا گراف نقطه ای از کارایی یک سنجش پیوسته را در مورد تشخیص انتی ژن اختصاصی پروستات (prostatic specific antigen=PSA) در دو دسته از بیماران دارای هایپر پلازی خوش خیم پروستات (benign prostatic hyperplasia) و بیماران دارای سرطان تایید شده پروستات (prostatic carcinoma) را نشان میدهد.اغلب تستهای پیوسته (تستهای کمی ) از مدل تستهای دو قطبی استفاده میکنند البته با انتخاب یک یا چند cutoff برای تصمیم گیری. دو خط در واقع نشاندهنده دو cutoff تشخیصی است با مقادیر 4ug/L و 10ug/L. وقتی تست A را با تست B مقایسه میکنیم در cutoff 4ug/L تست A حساسیت تشخیصی بیشتری را تولید میکند اما به هزینه کاهش اختصاصیت.
شکل بالا نتایج یک تست فرضی است که نتایج بیشتری از افراد سالم و بیمار را نشان میدهد.همینطور که cutoff تصمیم گیری افزایش پیدا میکند FP کاهش و FN افزایش پیدا میکند.در مقدار بسیار پایین و مقدار بسیار بالای cutoff میزان حساسیت و اختصاصیت تشخیصی به 100% می رسد.
منبع:تیتز پایه های شیمی بالینی و تشخیصهای مولکولی،ویرایش پنجم،فصل سوم
,Tietz; textbook of clinical chemistry and molecular diagnostics ,fifth edition,chapter3
منحنی های (ROC (receiver operating characteristic
گراف نقطه ای که در بالا نشان داده شده است کارایی کمی تست را بصورت محدود نشان میدهد که به وسیله آن نمی توان به راحتی حساسیت و اختصاصیت تشخیصی را در cutoff های مختلف براورد کرد. یک نوع دیگری از گراف که بازگو کننده همان اطلاعات است و منحنی ROC نامیده میشود طی جنگ جهانی دوم استفاده شد تا حساسیت و اختصاصیت تشخیصی رادارهای بررسی کننده هواپیماهای دشمن را مورد ارزیابی قرار دهد.یک منحنی ROC با کشیدن sensitivity (محور Y ها ) در برابر
1-specificity
(ها X روی محور)
ایجاد میشود.
شکل بالا منحنی ROC را برای داده های شکل 3-1 که بصورت گراف نقطه ای نشان داده شده بود ارایه میدهد. محور x ها درصد افراد غیر بیمار را به ازای هر نقطه تصمیم گیری مخصوص نشان میدهد که به خطا به عنوان بیمار طبقه بندی شده اند. این در واقع میزان مثبت کاذب است که از بصورت ریاضی معادل
1- specificity
است. محور y ها میزان مثبتهای درست را به ازای هر نقطه تصمیم گیری مخصوص نشان میدهد که معادل sensitivity است .مثلث های تو خالی بیانگر cutoff های مختلف است و کل گراف رسم شده بیانگر کارایی تست می باشد.
تست A و تست B بصورت دو نقطه تصمصم گیری روی منحی ROC نشان داده شده است. خط نقطه دار شده که از گوشه پایین چپ کشیده شده تا به گوشه بالای راست بیانگر تستی است که هیچ گونه تفکیک پذیری ندارد (یعنی درصد مثبتهای درست با مثبتهای غلط برابر است ) و به همین خاطر خط حدس تصادفی (random guess line) نامیده میشود. یک منحنی که بالای این خط حدس تصادفی قرار میگیرد نشانده وجود کارایی در تست و بهتر از حدس تصادفی است . و یک منحنی که از گوشه سمت چپ پایین به سمت گوشه بالای چپ توسعه می یابد و سپس به سمت گوشه بالای راست می رود بیانگر یک تست عالی (perfect test) است.یکی از قدرت های منحنی ROC در توانایی مقایسه کارایی تستهای تشخیصی مختلف است. هنگامی که یک تست در اولین انتشار خود یک cutoff را جهت انالیز ارایه میکند این سنجش یا یک تست با حساسیت بالا طبقه بندی میشود و یا یک تستی با اختصاصیت بالا .همانطوری که از منحنی ROC برداشت میشود یک تست در بعضی cutoff ها دارای حساسیت بیشتر در بعضی از cutoff ها دارای اختصاصیت بیشتر است.
برای سالها اسید فسفاتاز پروستات (prostatic acid phosphatase=PAP) با سنجش PSA جهت مقاصد تشخیصی و پیگیری درمان مقایسه میشدند.ادعاهای مختلفی در رابطه با حساسیت و اختصاصیت هر یک از سنجش ها مطرح شد.
شکل 3-4 کارایی هر یک از تست ها را بصورت منحنی ROC در تشخیص بین BPH و prostatic CA در دسته یکسانی از بیماران نشان میدهد.
اگر چه هر یک از این تستها توسط نویسندگان ادعا شده است که نسبت به دیگری حساستر و با اختصاصیت کمتر است اما از منحنی روشن است که نویسندگان مقاله دو نقطه متفاوت را روی منحنی انتخاب کرده بوده اند. جدا از اینکه کدام نقطه از حساسیت انتخاب شود سنجش PSA به نسبت سنجش PAP اختصاصیت بییشتری در نقطه ای یکسان از حساسیت را داراست.البته از این مطلب نباید استنباط کرد که سنجش PSA همیشه برترین است .این فقط نشان میدهد که در یک دسته مشترک از بیماران سنجش PSA نسبت به سنجش PAP از کارایی بهتری برخوردار است .
سطح زیر منحنی ROC نشاندهنده کارایی نسبی تست است.شاخص wilcoxon (یا هم ارز آن mann-whitney U-test) بطور اماری تعیین میکند که کدام تست سطح زیر منحنی بیشتری دارد.این شاخص ها به ویژه زمانی کمک کننده هستند که منحنی های ROC همدیگر را قطع نمیکنند چرا که اگر قطع کنند به این معنی است که ممکن است دو منحنی ROC سطح زیر منحنی یکسانی داشته باشند اما با کارایی های تشخیصی متفاوت .
منبع:تیتز پایه های شیمی بالینی و تشخیصهای مولکولی،ویرایش پنجم،فصل سوم
,Tietz; textbook of clinical chemistry and molecular diagnostics ,fifth edition,chapter3
روش هایی برای ارزیابی صحت تشخیصی (diagnostic accuracy)
نتایج یک تست جدید که اغلب به نام تست شاخص (index test) نیز نامیده میشود با نتایج یک تست استاندارد طلایی (gold standard test) بر روی نمونه های یکسان مقایسه میشود به استاندارد طلایی ، استاندارد مرجع نیز گفته میشود و روش استاندارد مرجع روشی است که در اثبات وجود بیماری بهترین روش موجود به شمار میرود. روش استاندارد مرجع از روش های متعددی جهت اثبات بیماری بهره میبرد که از آنجمله میتوان 1- استفاده از تستهای ازمایشگاهی اضافی 2- تستهای تصویر برداری 3- تاریخچه پزشکی 4- ارزیابی فیزیکی 5- تغییرات بالینی طی زمان را نام برد.
در سال 1980 عده ای از محققین متوجه شدند که بیشتر مطالعات صحت تشخیصی دارای خطا و ناکارامدی هستند که سبب ایجاد bias در گزارش کارایی تستها می کند. نتیجه کار این محققین روی بهبود نحوه مطالعه و گزارش (improved study design and reporting) منتهی به توسعه ابزارهای ارزیابی مهمی شد. که از آنجمله شامل(QUADAS=quality assessment of diagnostic accuracy studies) و (STARD= standards for reporting of diagnostic accuracy) است که در فصل چهار با جزییات توضیح داده خواهند شد.
مطالعات دارای طراحی خوب ، منابع متعدد bias و variation اثرگذار بر سوژه های مورد مطالعه (study subject) چه بیمار چه کنترل ، اثر گذرا بر تایید(verification) با استفاده از استاندارد مرجع ، اثر گذار بر bias ناشی از شاهد / تکنیسین و نیز داده های مفقودی یا ناکامل بیماران ، و همچنین تکنیکهای تحلیلی که بر براوردهای محاسباتی صحت تشیخصی اثر میگذارند را کاهش میدهد. یک مطالعه در سال 2006 نشان داد که توصیف ناکامل مطالعه ، مانع ارزیابی تمام و کمال منابع بالقوه bias و variation در مطالعه شده بود.
اطمینان یابی از سوژه های مورد مطالعه (study subject ascertainment)
سوژه مورد مطالعه منبع اصلی نوسانات در مطالعات صحت تشخیصی است .سوژه های مورد مطالعه می تواند بصورت پیش نگرانه یا پس نگرانه ، پیوسته یا ناپیوسته انتخاب شود. طیف (spectrum) مربوط می شود به وسعت وضعیت پزشکی سوژه های مورد مطالعه در ارزیابی متد تشخیصی.
این جنبه های مهم شامل 1- مدت و شدت وضعیت بیماری 2- طبقه بندی پاتولوژی آن 3- وجود وضعیت هایی که ممکن است روی کارایی متد تشخیصی تاثیر بگذارد.شدت بیماری در بین سوژه های مورد مطالعه در مقایسه با وضعیت هدف (target condition) که از وضعیت ملایم تا وضعیتهای تهدید کننده زندگی متغیر است و نیز طیفی که در دیگر نمونه های مورد مطالعه یعنی کنترل ها وجود دارد می تواند بر صحت ظاهری تشخیصی متد مورد نظر اثر بگذارد.گروه های مورد مطالعه ممکن است همزمان وضعیتهای پزشکی دیگر و یا تشیخیص های دیگری نیز داشته باشند.سه عاملی که می تواند سبب ایجاد نوسانات در طیف هنگام انتخاب سوژه های مورد مطالعه میشود شامل 1- طراحی مطالعه 2- شیوه انتخاب 3- سری های پیوسته یا ناپیوسته می باشد.
منبع:تیتز پایه های شیمی بالینی و تشخیصهای مولکولی،ویرایش پنجم،فصل سوم
,Tietz; textbook of clinical chemistry and molecular diagnostics ,fifth edition,chapter3