المعلوماتية الحيوية: مقالة مفيدة في المعلوماتية الحيوية

يمكن تعريف المعلوماتية الحيوية على أنها فرع من فروع العلوم حيث يمكن للمرء أن يفسر البيانات البيولوجية ويقارنها ويحللها. وقد برز كترتيب جديد يحاول حل المشكلات المعقدة في علوم الحياة ، لا سيما في مجال التكنولوجيا الحيوية.

أصبحت عمليات التقاط البيانات وتخزين البيانات والتنقيب عن البيانات قضايا رئيسية بالنسبة للتكنولوجيا الحيوية وعلماء البيولوجيا بسبب النمو المفاجئ في البيانات الكمية في البيولوجيا مثل الجينوم الكامل للأنواع البيولوجية ، بما في ذلك الجينوم البشري ، متواليات البروتين ، هياكل البروتين ثلاثي الأبعاد ، المسار الأيضي قواعد البيانات وخطوط الخلايا والمعلومات المتعلقة بالتنوع البيولوجي. ويجري استخدام التقدم في تكنولوجيا المعلومات ، ولا سيما الإنترنت ، لجمع ونشر ونشر المعلومات المتزايدة باستمرار في مجال البيولوجيا والتكنولوجيا الحيوية.

المعلوماتية الحيوية هي مجال واسع جدا وتشمل قضايا مثل رسم الخرائط ، التسلسل ، مقارنة التسلسل ، تحديد الجينات ، نمذجة البروتين ، قواعد بيانات الشبكة ، التصور والأخلاق. إنه موضوع متعدد التخصصات يتطلب من ناحية بناء المعلومات الحيوية والبنية التحتية ومن ناحية أخرى يتطلب البحث البيولوجي القائم على الحساب. كل هذا يعتمد على المخازن الكبيرة من البيانات التجريبية والمشتقة.

يستند أساس المعلوماتية الحيوية على التقنيات الحسابية ، الخوارزميات ، الذكاء الاصطناعي ، إدارة قواعد البيانات ، هندسة البرمجيات وغيرها. كل هذا يؤدي إلى تطوير موارد البيانات المجتمعية ومن هذا يبدأ تطوير تطبيقاتها للمعلوماتية الحيوية لتحليل البيانات الوراثية.

لقد أدت المعلوماتية الحيوية مع قواعد بياناتها الكبيرة إلى ظهور العديد من التحديات لعلماء الكمبيوتر. هؤلاء هم:

1. تخزين المعلومات

2. إدارة وتكامل البيانات البيولوجية

3. برنامج تحليل التسلسل

4. بروتين للطي تنبؤ البرمجيات

5. خريطة التجمع والتكامل البرمجيات

6. أدوات الجينوم المقارن

7. التعدين الجيني

8. الكمبيوتر بمساعدة المخدرات تصميم

موارد البيانات البيولوجية:

بما أن كمية كبيرة من البيانات يتم توليدها بوتيرة سريعة ، يصبح من الضروري معرفة كيفية الوصول إلى هذه المعلومات والبحث عنها وتفسيرها. هناك العديد من أنظمة استرجاع البيانات ، التي تم إنشاؤها لأغراض بحثية مختلفة وتستخدم على نطاق واسع. هناك العديد من قواعد البيانات الدولية للتتابعات الجينية التي تنسق ، إلى حد ما ، أرشفة التسلسلات الحيوية.

هناك المئات من قواعد البيانات تسلسل النوكليوتيدات والبروتين التي يتم إنشاؤها لأغراض محددة. وتصنف وفقا لوظيفة التي يتم تحديثها والمدرجة في العدد الأول من الأحماض النووية. مجلة البحوث في بداية كل عام. يوجد كتالوج لقواعد بيانات DBCAT التي توفر المعلومات المتعلقة بقاعدة البيانات ، حيث تكون متوفرة ومن يجب الاتصال به للاستفادة من قواعد البيانات هذه.

في الوقت الحاضر قوائم DBCAT 60 الحمض النووي ، 22 RNA ، 75 البروتين ، و 58 Genomic ، 29 رسم الخرائط ، 18 بنية البروتين ، 37 الأدب و 113 قواعد البيانات المتنوعة. قواعد بيانات مستودع التخزين الشاملة لتسلسل النوكليوتيدات والبروتين ، والبُنى الثلاثية الأبعاد للبروتين ، المعروفة جيداً والمستخدمة على نطاق واسع ، منتشرة في جميع أنحاء العالم عبر الإنترنت. وتشمل هذه البنوك الجينات ، وبنوك بيانات البروتين ، وأدوات البرمجيات استرجاع تسلسل الخ

بنك معلومات البروتين (PDB):

تم إيداع تراكيب ثلاثية الأبعاد للبروتينات بواسطة الأشعة البلورية بالأشعة السينية ، ودراسات حيود النيوترون ، ودراسات الرنين المغناطيسي النووي في وقت سابق في قاعدة بيانات البروتين المنشأة في مختبرات بروكهافن الوطنية ، نيويورك ، الولايات المتحدة الأمريكية.

يتم حاليًا صيانة بنك المعلومات البروتيني بواسطة متعاوني الأبحاث في مجال المعلوماتية الحيوية الهيكلية في روتجرز ، بالولايات المتحدة الأمريكية. يوجد في الوقت الحاضر 12500 بنية في قاعدة البيانات ، ولكن 50٪ من الهياكل لا لزوم لها ، لأن معظم الهياكل متجانسة أو ذات قرارات مختلفة. من المرجح أن تتم إضافة حوالي 2500 بنية جديدة ثلاثية الأبعاد كل عام.

التعريف الجيني / التعليق التوضيحي:

المهام الأكثر إلحاحًا لتحليل التسلسل الحيوي الحسابي هي:

1. العثور على الجينات في تسلسل الحمض النووي للكائنات الحية المختلفة. وتبين أن الجينات تتخللها دنا لها وظائف أخرى ، مثل تنظيم الجينات ، ومن الصعب تحديد الحدود الدقيقة للجينات نفسها ، بحيث يمكن استخلاصها من قاعدة بيانات الدنا. برامج اكتشاف الجينات مثل GRAIL و Gene-lD و Gene-Parser و Gene-Lang و FGELEH و Genie و Eco-Phrase هي شبكات عصبية و AI أو طرق إحصائية لتحديد الجينات في تسلسلات الدنا.

2. بمجرد تحديد الجين بشكل صحيح من قاعدة بيانات DNA ، من السهل تحديد البروتين الذي يرمز إليه ، باستخدام الشفرة الوراثية المعروفة جيداً. يمكن تمثيل البروتين كتسلسل من الأحماض الأمينية المكونة من 20 حرفًا.

يُشار إلى هذا التسلسل على أنه البنية الأساسية للبروتين ، وفقًا للشفرة الوراثية. في حين أنه من السهل تحديد البنية الأساسية للبروتين ، إلا أنه من الصعب التنبؤ بهيكل ثلاثي الأبعاد.

في الخلية ، يتدرج تسلسل البروتين على نفسه بطريقة فريدة من نوعها لكل بروتين ، مما يعطيها مرتبة أعلى من البنية. إن فهم هذا الهيكل العالي المستوى أمر بالغ الأهمية لفهم وظائف البروتينات.

الوضع مشابه لجزيئات الرنا. ومن ثم ، فإن المهمة الملحة الثانية لتحليل التسلسل الحيوي الحسابي هي تطوير طرق للتنبؤ بهيكل و / أو وظيفة البروتين المكتشف حديثا ومتواليات RNA الهيكلية.

يتمثل أحد الأساليب العامة لهذه المشكلة في البحث في قاعدة بيانات عن تسلسل أو تسلسل معروف مشابه للتسلسل المكتشف حديثًا. من المهم هنا البحث عن التسلسلات التي سيكون لها بنية ترتيب و / أو وظيفة مشابهة أعلى للتسلسلات الجديدة ، بدلاً من إجراء مطابقة أكثر سذاجة ، والتي تهتم فقط بالمطابقات في البنية الأساسية. وقد ثبت أن هذه مهمة صعبة للغاية.

تحليل التسلسل (جين / بروتين):

بعض الطرق لتحليل تسلسل DNA جديد ، تشمل:

1. استخدم التسلسل كمسبار في البحث في قاعدة البيانات في حالة تسلسل شخص ما للمنطقة نفسها ،

2. استخدم طريقة ، والتي ستحاول تحديد مناطق التشفير ،

3 - استخدام طريقة تحاول تحديد مواقع الإشارات ، مثل المروجين ، ومناطق بدء الترجمة ، ومواقع معالجة RNA ، والمُنَهيِلات في المنطقة ذات الإطار المشفر المحتمل ،

4. محاولة تجميع تسلسل الترميز إلى جزء مستمر وترجمة ،

5. يجب استخدام البروتين الناتج الناتج عن ذلك في عملية البحث في قاعدة البيانات لمحاولة تحديد ما إذا كانت هناك بروتينات متماثلة. إذا تم العثور على تسلسل مماثل ، فإن المقارنة الدقيقة ستوضح الأخطاء المحتملة في تسلسل المسبار الذي ينتج عنه منتج مقطوع ، والاختيار غير الصحيح لحدود intron-exon ، وتغييرات الإطار المتقاربة إلى حد كبير التي تدرج التسلسل غير الترميز.

6. البحث عن مناطق مثيرة للاهتمام للهياكل ساقه وحلقة ربما أهمية في تنظيم التعبير. وعلى وجه الخصوص ، يمكن فحص المناطق المحتملة غير المشفرة 5 ′ أو 3،.

البروتينات:

تستمد البروتيوميات أو تكنولوجيا البروتين من كلمة بروتيوم (مجموعة من البروتينات المشفرة بجينوم). وتغطي البروتيوميات الفصل المادي للبروتينات مع الأخذ بعين الاعتبار الاختلافات التي تسببها التعديلات بعد الترجمة ، والعزل الكمي بواسطة التحليل الكروماتوجرافي السائل عالي الضغط (HPLC) وأنواع أخرى من الأعمدة وتحديد البروتين بواسطة تسلسل N-terminal بواسطة التحليل الطيفي الشامل. يمكن دراسة قياس نشاط البروتين عن طريق الفحص الوظيفي.

علم الجينوم الإنشائي:

كشف تسلسل الجينوم عن مجموعة من البروتينات التي تكون وظائفها غير معروفة. في مثل هذه الحالات ، توفر قوة البنية للكشف عن العلاقات التطورية البعيدة أداة لتحديد الأدوار البيوكيميائية لمثل هذه البروتينات. تلعب المقاربات الحسابية والتجريبية أدوارًا مجانية في محاولة لتوفير بنية تجريبية أو نموذج نظري جيد لكل بروتين يكتمل.

ومع ذلك ، ليس من الممكن تحديد بنية الأشعة السينية لجميع البروتينات المعزولة. قد يساعد التحليل الهيكلي للرنين النووي المغناطيسي (الرنين المغناطيسي النووي) إلى حد ما ، لكنه قد لا يكون فعالا من حيث التكلفة ولن يساعد في حل البروتينات ذات العدد الكبير من بقايا الأحماض الأمينية.

في الوقت الحاضر ، هناك ما يقرب من ثلاثة عشر ألف مدخل من تراكيب البروتين في Brookhaven Protein Data Bank ، الولايات المتحدة الأمريكية بالمقارنة مع ثمانية وثمانين ألف تسلسل غير متكرر من البروتين في قاعدة بيانات Swissprot وحوالي ألف وخمسين تسلسل بروتين في قاعدة بيانات تحديد هوية البروتين.

من بين هؤلاء الثلاثة عشر ألف مدخلة ، هناك فقط 300-400 من التراكيب الفريدة على أقصى حد يمكن تصنيفها على أنها أسر بروتينية لها بنية ووظيفة مماثلة. في البروتين البشري ، تم التنبؤ بأنه سيكون هناك بروتينات أحادية اللحم ، وقد لا تحتوي جميع البروتينات على أكثر من ألف طيات بروتينية فريدة.

وبالتالي ، فإن التحليل البنيوي سيلعب دوراً مهماً في بناء النماذج ، وهو عبارة عن معلومات هيكلية ثلاثية الأبعاد ، بالإضافة إلى خوارزميات التنبؤ بالخيوط من خلال تسلسل خيوط إلى طيات البروتين المعروفة. تتم مقارنة البنى التي تم حلها حديثًا أو نمذجةها مع بروتينات أخرى ذات بنية معروفة في تصنيفات مثل SCOP (التصنيف الهيكلي للبروتينات) و CATH (Class ، و Architecture ، و Topology و Homology) أو FSSP (تصنيف الطيات استنادًا إلى محاذاة البنية للبروتينات) للإنتاج معلومات حول تطورها ووظيفتها.

تصميم الأدوية (الطب الجزيئي):

جاء دور أجهزة الكمبيوتر في تصميم الأدوية على أساس هيكل في الوجود في أوائل 1980s وفي السنوات الأخيرة لعبت أجهزة الكمبيوتر دورا متزايدا في عملية تصميم الدواء. مع الحواسيب السريعة التطور سريعة التطور ، الدقة المحسنة في فحص الجنيدة ، تصاميم كيميائية اندماجية محسنة ، انفجار افتراضي في توافر قاعدة البيانات الثلاثية الأبعاد وقاعدة بيانات تسلسل الجينوم ، ستستمر التقنيات الحاسوبية في اتخاذ مركز الصدارة في العديد من جوانب المخدرات المختلفة. تصميم وتطوير العملية.

تصميم الأدوية على أساس الهيكل (تصميم عقلاني للعقل) هو عملية متعلّقة باستخدام المعلومات المتضمنة في البُنى ثلاثية الأبعاد للأهداف الضخمة الجزيئية ومجمّعات الهدف المترابط ذات الصلة ، لتصميم عقاقير جديدة لمختلف الأمراض.

يتم استخدام الأساليب الحسابية لاستخراج جميع المعلومات ذات الصلة من الهياكل المتاحة لتصميم الأدوية الفعالة. العديد من التقنيات المستخدمة على نطاق واسع ، مثل البلورات بالأشعة السينية ، والنمذجة الجزيئية ، NMR وما إلى ذلك تنطوي على حساب مكثف. إن البحث في قواعد البيانات ، وربط الالتصاق المستهدف ، وتقنيات تحويل الارتباطات هي مفتاح تطوير مركبات الرصاص ، وكل هذه الطرق تستخدم أساليب حسابية.

إن تقنية QSAR (علاقة النشاط الكمي للنوعية) ثنائية وثلاثية الأبعاد التي تتضمن تحليلاً إحصائيًا لمجموعة من الخصائص أو الواصفات لسلسلة من الجزيئات النشطة بيولوجيًا للتنبؤ بنشاط المركبات الإضافية ، قد استفادت بشكل كبير من أجهزة الكمبيوتر المودم ، مما يسمح تحليل أسرع وأكثر صرامة.

لعب تصميم الأدوية القائم على بنية بمساعدة الكمبيوتر دوراً هاماً في التطور الناجح الأخير للعقاقير لعلاج الإيدز (مثبطات إنزيم بروتياز HIV) والالتهاب (مثبطات COX-2). وتشارك أجهزة الكمبيوتر في كل جانب تقريبا من عملية اكتشاف الأدوية في الوقت الحاضر.

يتم استبدال النهج التقليدي لفحص الآلاف من المركبات للنشاط ضد الهدف ، من أجل العثور على مركب للرصاص ، بسرعة من خلال نهج HTS (الفحص عالي الإنتاجية). تستخدم تقنية HTS ماكينات روبوتية عالية السرعة تعمل بالكمبيوتر ، مما يقلل من وقت الفحص بشكل كبير.

إن الأدوات الحسابية لتعدين بيانات الجينوم ، وتحديد الأهداف المحتملة للعقاقير الجديدة ، وتوضيح أو التنبؤ بالبنية ثلاثية الأبعاد للأهداف من البنية الأساسية ، هي في جوهر تكنولوجيا المعلوماتية الحيوية الحالية. وستظل النُهج القائمة على الحسابية جزءا أساسيا من عملية تصميم وتطوير العقاقير الجارية والمستقبلية.

استنتاج:

التحليل القائم على الكمبيوتر للتسلسلات الحيوية له تأثير متزايد على مجال البيولوجيا. إن تحليل البيانات التسلسلية الحاسوبية وأدوات البحث في قواعد البيانات أصبحت الآن جزءًا أساسيًا ومتكاملًا من الحقل ، وتؤدي إلى اكتشافات علمية مهمة عديدة في العقد الماضي. وقد نتج معظمها عن عمليات البحث في قاعدة البيانات التي كشفت عن أوجه شبه غير متوقعة بين الجزيئات التي لم تكن معروفة من قبل بأنها مرتبطة.

ومع ذلك ، فإن هذه الأساليب مهمة بشكل متزايد في التحديد المباشر لهيكل ووظيفة الجزيئات الحيوية كذلك. عادة تعتمد هذه العملية بشكل كبير على التطبيق البشري للمعرفة البيولوجية والتجربة المخبرية ، بالاقتران مع النتائج من تطبيق العديد من البرامج البسيطة المختلفة التي تقوم بتحليل إحصائي للبيانات و / أو تطبق أساليب اندماجية بسيطة.

يتمثل التحدي الرئيسي للمستقبل في بناء أساليب حاسوبية يمكنها تفسير التسلسلات الحيوية باستخدام تكامل أكثر اكتمالا للمعرفة البيولوجية والأساليب الإحصائية. وهذا من شأنه تمكين البيولوجيا من العمل بمستوى أعلى في عملية التفسير حيث يمكن أن يكون إبداعه ذا قيمة قصوى.