Method for the coding of genomic variants
// Informations- und Kommunikationstechnik
Ref-Nr: 16985
Einleitung / Abstract
Die Repräsentation und Codierung von genomischen Annotationen wird derzeit von ISO/IEC JTC 1/SC 29/WG 11 (MPEG) standardisiert. Die vorliegende Erfindung wurde in den Standardisierungsprozess eingebracht und betrifft ein Verfahren zum Komprimieren und Dekomprimieren einer Information einer Erbinformation, insbesondere einer genetischen Variation.Hintergrund
Sequenzierungsexperimente können das Ziel haben, genetische Variationen zu identifizieren. Die Entdeckung von genetischen Variationen ist bei großen Populationen verwandter Proben eine der Hauptanwendungen der Sequenzierungstechnologien der nächsten und dritten Generation. Genetische Variationen können klassifiziert werden in:
• Einzelnukleotid-Polymorphismus (singlenucleotide polymorphisms (SNPs)),
• Einfügungen und Streichungen (insertions and deletions (indels)),
• Strukturvarianten (structural variants).
Genetische Variationen werden üblicherweise im textbasierten Variantenaufrufformat (VCF) gespeichert.
Lösung
Erfindungsgemäß wird ein verbessertes Verfahren für die Kodierung der Genotyp-Matrix vorgeschlagen, d.h. der Allel- und Phaseninformation. Die Kodierung einer Genotyp-Matrix G umfasst dabei die folgenden Schritte: 1. Reihenweise Aufspaltung der Genotyp-Matrix G in Blöcke, die anschließend separat prozessiert werden. Dabei können die Blöcke so konstruiert werden, dass sie nur eine bestimmte Klasse von genomischer Variation enthalten (z.B. SNPs, Indels oder Strukturvarianten). Zur Rekonstruktion der ursprünglichen Zeilenreihenfolge muss ein Index geführt werden. 2. Aufspaltung der Genotyp-Matrix G in eine Allel-Matrix A und eine Phasenmatrix P. 3. Optionale Binarisierung der Allel-Matrix A (dieser Prozess ergibt entweder die Bitebenen Bq oder eine binäre Allel-Matrix C). 4. Optionale zeilen- und spaltenweise Sortierung der Allelmatrix A oder der Bitebenen Bq oder der binären Allelmatrix C und der Phasenmatrix P. 5. Entropie-Kodierung der Allel-Matrix A oder der Bit-Ebenen Bq oder der binären AllelMatrix C und der Phasenmatrix P.Vorteile
Zusätzlich zur spaltenweisen Sortierung wird erfindungsgemäß eine zeilenweise Sortierung vorgeschlagen. Experimente zeigten, dass Entropie-Kodierungsschemata kleinere Bitströme ergeben, wenn die Zeilen auf bestimmte Weise sortiert werden.
Anwendungsbereiche
Repräsentation und Codierung von genomischen Annotationen.Sie können dieses Fenster schließen. Ihre Suchergebnisse finden Sie in dem vorherigen Fenster .