Abstract
The routine prediction of three-dimensional protein structure from sequence remains a challenge in computational biochemistry. It has been intuited that calculated energies from physics-based scoring functions are able to distinguish native from nonnative folds based on previous performance with small proteins and that conformational sampling is the fundamental bottleneck to successful folding. We demonstrate that as protein size increases, errors in the computed energies become a significant problem. We show, by using error probability density functions, that physics-based scores contain significant systematic and random errors relative to accurate reference energies. These errors propagate throughout an entire protein and distort its energy landscape to such an extent that modern scoring functions should have little chance of success in finding the free energy minima of large proteins. Nonetheless, by understanding errors in physics-based score functions, they can be reduced in a post-hoc manner, improving accuracy in energy computation and fold discrimination
چکیده
پیش بینی متعارف ساختار سوم پروتئین با استفاده از توالی، چالشی در بیوشیمی میباشد. دانستهها حاکی از آن است که انرژیهای محاسبه شده توسط توابع رتبه با اساس فیزیک، با توجه به عملکرد پیشین آن در مورد پروتئینهای کوچک، قادر به تشخیص پروتئینهای تاخوردهی طبیعی از غیر طبیعی میباشد و اینکه نمونه گیری از پیکربندی، مانعی اساسی در تاخوردگی موفق پروتئین بود. ما نشان دادیم که اگر اندازهی پروتئین افزایش یابد، خطا در انرژیهای محاسبه شده به مشکلی بزرگ نبدیل خواهد شد. ما با استفاده از توابع تراکم احتمال خطا، نشان دادیم که رتبههای با اساس فیزیک، حاوی خطاهای قابل توجه سیستماتیک و تصادفی در انرژیهای دقیق مرجع میباشند. این خطاها، در سراسر پروتئین توزیع میشوند و به شکلی وسیع موجب انحراف چشم انداز انرژی آن میشوند، بطوریکه همین موجب کم شدن شانس توابع رتبهی مدرن در یافتن موفقیت آمیز حداقل انرژی در پروتئینهای بزرگ میگردد. با این وجود، با تشخیص خطاهای تابع رتبه با اساس فیزیک، این خطاها در مسیر پیش رو میتوانند کاهش یابند، همچنین دقت محاسبهی انرژی میتواند بهبود یابد و تشخیص شکل تاخورده پروتئین ممکن شود.
1-مقدمه
یکی از مسائلی که مطالعات فراوانی روی آن انجام شده و همچنان بدون حل باقی مانده، محاسبات بیوشیمیایی در مسئلهی تاخوردگی ab- initio یا تاخوردگی ساختار سه بعدی پرتئین از روی توالی آمینو اسیدی آن میباشد. در سالهای اخیر، روشهای با اساس فیزیک (آنهایی که مدلهای سادهی میانکنشهای درون و میان مولکولی یک سیستم شیمیایی میباشند)، به صورت ترکیب شده با جستجوها و نمونه گیریهای گسترده از پیکربندی، به عنوان راه حل اصلی این مسئله شناسایی شد. اساس هر روش بر پایهی فیزیک که در مطالعهی تاخوردگی پروتئین مورد استفاده قرار میگیرد فرضیهای ترمودینامیکی است که بیان میکند نوعی از تاخوردگی در یک پروتئین که از نظر زیستی فعال است، در حداقل انرژی قرار دارد. این الگویی است که بسیار مورد استفاده قرار گرفته است، با این وجود، استثنائاتی نیز برای این قائده وجود دارد. شبیه سازی دینامیک مولکولی (MD) معمولا با استفاده از پتانسیلهای فیزیکی در تجزیه و تحلیل سینتیک تاخوردگی پروتئین استفاده میشد، با این وجود بازههای زمانی مورد نیاز برای شبیهسازی کامل فرآیند تاخوردگی پروتئینهای بزرگ میتواند به شکلی ممانعت کننده طولانی بشود. جستجو براساس مونته کارلو و تکنیکهای به حداقل رساندن نیز همراه پتانسیلهای محاسبه شده با اساس فیزیک به کار گرفته شدهاند. متأسفانه، اینها و دیگر روشهای با اساس فیزیک در پیشبینی صحیح تاخوردگی پروتئینهای دارای بیش از 100 آمینو اسید، مشکل دارند...