Σπίτι Ήχος Γιατί το hadoop είναι ένα τέλειο ταίρι για την αλληλουχία του γονιδιώματος

Γιατί το hadoop είναι ένα τέλειο ταίρι για την αλληλουχία του γονιδιώματος

Πίνακας περιεχομένων:

Anonim

Η κλινική γονιδιωματική είναι ένα συναρπαστικό θέμα, όπου οι άνθρωποι εργάζονται σε τεχνολογίες αιχμής για να επεξεργάζονται γρήγορα και ακριβή αποτελέσματα. Υπάρχουν πολλοί ακολουθούμενοι γονιδιώματος που διατίθενται στην αγορά και παράγουν πεντακύτταρα δεδομένων αλληλουχίας και η ανάπτυξη της αλληλουχίας θα παράγει exabytes δεδομένων στο εγγύς μέλλον. Εδώ, ο Hadoop είναι η τέλεια πλατφόρμα για την επεξεργασία σύνθετης ροής εργασιών γονιδιωματικής. Ο Hadoop μπορεί να αποθηκεύσει και να ταξινομήσει τεράστιες ποσότητες πληροφοριών και μπορεί επίσης να προβεί σε ουσιαστική ανάλυση. (Για να πάρετε μια ιδέα για το πόσα δεδομένα αυτό πραγματικά συνεπάγεται, διαβάστε την κατανόηση Bits, Bytes και τα πολλαπλάσια.)

Το παρόν και το μέλλον της γονιδιωματικής

Σήμερα, η χαρτογράφηση του γονιδιώματος έχει φτάσει στο αποκορύφωμά της. Πολλοί άνθρωποι που συνδέονται με τη βιομηχανία της γονιδιωματικής εκρήγνυνται με περιέργεια, και καθώς παρουσιάζονται νέες ευκαιρίες, η καλύτερη τεχνολογία είναι η ανάγκη της ώρας. Η αλληλούχιση του γονιδιώματος είναι μια πολύ επαναλαμβανόμενη και απαιτητική εργασία. Μόνο το 2013, παράχθηκαν περίπου 15 πεντακύτταρα δεδομένων και μόνο 2 000 αλληλουχίες. Αυτή η ποσότητα πτώσης σιαγόνων περιελάμβανε 300 KB δεδομένων αλληλουχίας ανθρώπινου γονιδιώματος. Με αυτό το ρυθμό παραγωγής δεδομένων, μπορεί να εκτιμηθεί ότι μέχρι το 2018 θα παραχθεί περίπου ένα exabyte δεδομένων. Αυτό θα οφείλεται στην ανάπτυξη αλληλουχιών, οι οποίες θα παράγουν όλο και περισσότερα δεδομένα ανά διαδρομή. Ένας άλλος λόγος είναι η εμφάνιση εξαιρετικά ισχυρών και χαμηλού κόστους μηχανημάτων προσδιορισμού αλληλουχίας γονιδιώματος. Από το 2008, η τιμή των μηχανών αυτών μειώνεται σταθερά. Αυτό συμβαίνει λόγω ισχυρών μηχανών επόμενης γενιάς που έχουν εισέλθει στην αγορά.

Οι ανάγκες της βιομηχανίας χαρτογράφησης του γονιδιώματος

Χρησιμοποιούνται σύνθετοι αλγόριθμοι για την επεξεργασία των δεδομένων που συλλέγονται από το ανθρώπινο γονιδίωμα. Στη συνέχεια, αυτές οι πληροφορίες πρέπει να αποθηκευτούν. Μπορεί να αναθεωρηθεί στο μέλλον για σύγκριση με τα αρχικά δεδομένα. Το καθήκον επεξεργασίας και αποθήκευσης 100 GB δεδομένων δεν είναι πολύ δύσκολο, ειδικά όταν το κάνετε με τα ισχυρά μηχανήματα που χρησιμοποιούνται στα κέντρα αλληλούχησης. Μελέτες δείχνουν ότι αυτή η ποσότητα δεδομένων μπορεί να επεξεργαστεί σε περίπου 1.000 ώρες CPU, γι 'αυτό είναι πολύ εύκολο. Με αυτό το ρυθμό τεχνικής προόδου, είναι φανερό ότι η βιομηχανία γονιδιώματος θα επεξεργαστεί σύντομα χιλιάδες gigabytes σε λίγα δευτερόλεπτα.

Γιατί το hadoop είναι ένα τέλειο ταίρι για την αλληλουχία του γονιδιώματος