Kapitel 3 Genomic Best Linear Unbiased Prediction (GBLUP)
Die Methode GBLUP verwendet genomische Verwandtschaftsbeziehungen zur Schätzung des genetischen Potentials von Individuen. Die genomische Verwandtschaft wird aufgrund von DNA-Informationen geschätzt. Die genomische Verwandtschaftsmatrix \(G\) definiert die Kovarianz zwischen Individuen aufgrund von Ähnlichkeiten auf dem Niveau der genomischen Information. Diese Definition der Kovarianz steht im Gegensatz zur Kovarianz aufgrund der erwarteten Ähnlichkeit aufgrund von Pedigrees in der traditionellen Verwandtschaftsmatrix \(A\).
3.1 DNA Markers
Die Verfügbarkeit von Markerkarten in genügender Dichte verteilt über das ganze Genom, ermöglicht die Schätzung des genetischen Potentials von Individuen basierend auf der beobachteten Markerinformation. Das aktuell am weitesten verbreitete Markermodell wird als Single Nucleotide Polymorphism
(SNP) bezeichnet. Bei den SNPs handelt es sich um Positionen im Genom, an welchen Unterschiede zwischen Individuen einer Population bei einer einzelnen DNA-Base auftreten. Nehmen wir an, dass Genorte (QTL), welche wichtig sind für die Expression von interessanten phänotypischen Eigenschaften, sich in der Nähe von beobachteten SNPs befinden, können wir aufgrund von Kopplungsungleichgewichten zwischen SNPs und QTL eine statistische Beziehung zwischen phänotypischen Werten und SNP-Genotypen modellieren.
Für die Schätzung der SNP-Effekte auf phänotypische Ausprägungen stehen verschiedene statistische Verfahren zur Verfügung. Als einfachste Methode können wir die Regression auf einzelne SNP-Marker bezeichnen. Das Problem der Single-Marker Regression liegt in der im Vergleich zur Anzahl der Beobachtungen sehr grossen Anzahl an SNP-Markern. Eine Lösung dieses Problems besteht darin, dass die SNP-Effekte im linearen Modell als zufällige Effekte aufgefasst werden. Dadurch wird das einfache lineare Regressionsmodell in ein lineares gemischtes Modell verwandelt. Aus der traditionellen Zuchtwertschätzung ((Hofer 1990) und (von Rohr 2016)) kennen wir die Mischmodellgleichungen, welche uns Schätzwerte für fixe und zufällige Effekte mit BLUE- und BLUP-Eigenschaften liefern. Bei diesem Verfahren werden aber allen SNPs der gleiche Varianzanteil zugesprochen. Die totale genetische Varianz wird somit auf alle SNPs gleichmässig aufgeteilt. Bayes’sche Methoden, wie sie in Kapitel 5 beschrieben sind, erlauben es verschiedenen genomischen Regionen verschiedene Varianzanteile zuzuordnen.
3.2 Markerinformationen in BLUP-Verfahren
Parameterschätzverfahren, welche zu Schätzungen für fixe Effekte mit Best Linear Unbiased Estimation
(BLUE)-Eigenschaften und zu Vorhersagen von zufälligen Effekten mit Best Linear Unbiased Prediction
(BLUP)-Eigenschaften führen werden hier kurz als BLUP-Verfahren bezeichnet. Die traditionelle Zuchtwertschätzung basiert auf Pedigreeinformationen zur Schätzung der Covarianz zwischen zufälligen Effekten (Zuchtwerten) von verwandten Tieren. Die Covarianz kann aber auch aufgrund von Markerinformation geschätzt werden. Die aufgrund von SNPs erstellte Matrix wird als Genomic Relationship Matrix
(GRM) bezeichnet.
Wir besprechen hier zwei verschiedene Ansätze
Ridge Regression
(RR)-BLUPGenomic BLUP
(GBLUP)
3.2.1 Ridge Regression (RR) BLUP
Diese Methode wurde von (Meuwissen, Hayes, and Goddard 2001) und (Habier, Fernando, and Dekkers 2007) untersucht. Dabei haben die Autoren das folgende Modell angenommen.
\[\begin{equation} y = 1_n\mu + Wq + e \label{eq:RRBlupModel} \end{equation}\]Die Genotypen an jedem SNP-Locus in Matrix \(W\) werden mit \(0\), \(1\) und \(2\) codiert. Diese Codes repräsentieren die Anzahl an SNP-Allelen mit positiver Wirkung. Die SNP-Effekte werden als zufällig betrachtet. Das Modell in () ist also ein gemischtes lineares Modell. Die unbekannten Parameter werden mit Hilfe von Mischmodellgleichungen geschätzt. Der geschätzte genomische Zuchtwert entspricht der Summe der SNP-Effekte über alle SNP-Loci. Die durch die SNP-Effekte erklärte Varianz ist gleich \(WW^T\sigma_q^2\). Die Varianz der Resteffekte wird als \(I\sigma_e^2\) angenommen. Somit entspricht die Covarianz zwischen Beobachtungen \(WW^T\sigma_q^2 + I\sigma_e^2\). In RR-BLUP wird die Varianz an allen SNPs als konstant angenommen.
3.2.2 Genomic BLUP (GBLUP)
Die zweite Methode, welche genomische Information berücksichtigt verwendet die genomische Verwandtschaftsmatrix \(G\) anstelle der additiv genetischen Verwandtschaftsmatrix \(A\) in einem gemischten linearen Modell. Dieser Ansatz wird als gBLUP bezeichnet. Das Modell zur Umsetzung von gBLUP lautet
\[\begin{equation} y = Xb + Zg + e \label{eq:GblupModel} \end{equation}\]Der Vektor \(g\) enthält zufällige genetische Effekte für alle Tiere, welche typisiert sind. Diese Tiere können Beobachtungen aufweisen oder nicht. Die Tiere mit Beobachtungen und Typisierungsergebnisse werden allgemein als Trainings- oder Referenzpopulation bezeichnet. Die Tiere ohne phänotypische Beobachtung mit Typisierungsergebnissen bilden das Testset, für welche die genomischen Zuchtwerte geschätzt werden sollen. Die Varianz \(var(g) = G * \sigma_g^2\) wobei \(G\) der genomischen Verwandtschaftsmatrix entspricht. Die zufälligen Resteffekte werden als unabhängig angenommen mit der Covarianzmatrix \(var(e) = I*\sigma_e^2\).
GBLUP hat drei wichtige Vorteile im Vergleich zu RR-BLUP.
- Die Dimension der genetischen Effekte in GBLUP beträgt \(n\times n\), wobei \(n\) die Anzahl Tiere sind. In RR-BLUP beträgt diese Dimension \(m\times m\), wobei \(m\) der Anzahl an SNP-Markern entspricht. Somit ist GBLUP effizienter im Hinblick auf Rechenresourcen.
- Die Genauigkeiten der genomischen Zuchtwerte können bei GBLUP analog zu den Genauigkeiten der Zuchtwerte im BLUP-Tiermodell berechnet werden.
- GBLUP kann mit Pedigree-basierten Informationen zu den sogenannten single step Verfahren kombiniert werden (Misztal, Legarra, and Aguilar 2009).
3.3 Genomische Verwandtschaftsmatrix (GRM)
Die Covarianz zwischen den gentischen Effekten \(g\) im Modell () wird über die genomische Verwandtschaftsmatrix \(G\) ausgedrückt. Analog zum BLUP-Tiermodell, soll die Covarianz der genetischen Effekte als Produkt der genomischen Verwandtschaftsmatrix \(G\) mal die Varianzkomponente \(\sigma_g^2\) dargestellt werden.
3.3.1 Herleitung der GRM
Als erstes stellt sich die Frage, wie wir die genetischen Effekte \(g\) überhaupt definieren sollen. Auf dieser Definition von \(g\) aufbauend können wir uns anschliessend überlegen, wie die Matrix \(G\) aufgestellt werden kann. Die folgenden Eigenschaften für die genetischen Effekte \(g\) und für die GRM \(G\) sollen gelten.
- Die genetischen Effekte \(g\) sollen der Summe aller SNP-Effekte \(q\) entsprechen.
- Die genetischen Effekte \(g\) sollen nicht als Absolute Werte sondern analog zu den Zuchtwerten aus dem BLUP-Tiermodell als Abweichungen von einer festgelegten Basis definiert sein, das heisst der Erwartungswert \(E\left[g\right] = 0\).
- Wie schon erwähnt soll die Covarianz der genetischen Effekte \(g\) dem Produkt aus GRM \(G\) und der Varianzkomponente \(\sigma_g^2\) entsprechen, d.h. \(var(g) = G * \sigma_g^2\).
- Die GRM \(G\) soll ähnlich wie die additive Verwandtschaftsmatrix \(A\) aussehen, d.h. die Diagnoalelemente sollen um \(1\) liegen und auf der Offdiagonalen sollen hohe Werte mit genetisch ähnlichen Tieren assoziiert werden.
Als Informationsquellen für die Definition von \(g\) und zum Aufstellen der GRM \(G\) haben wir die SNP-Markerinformationen zur Verfügung. Das hier vorgestellte Material basiert auf den Arbeiten von (VanRaden 2008) und von (Gianola et al. 2009). In den folgenden Unterabschnitten wollen wir die Konsequenzen der oben aufgelisteten Eigenschaften analysieren und daraus die GRM \(G\) aufstellen.
3.3.2 Genetische Effekte als Summe der SNP-Effekte
Basierend auf der SNP-Markerinformation können wir Effekte für die einzelnen SNP-Marker schätzen. Wir nehmen hier also an, dass wir den Vektor \(q\) kennen. Formell bedeutet die Eigenschaft, dass die genetischen Effekte \(g\) als Summe der SNP-Effekte \(q\) dargestellte werden können, dass es eine Matrix \(U\) gibt, für welche gilt, dass
\[\begin{equation} g = U * q \label{eq:VecGSumOfVecQ} \end{equation}\]wobei an dieser Stelle die Matrix \(U\) noch unbekannt ist. Wir werden diese anhand der nächsten Eigenschaft bestimmten.
3.3.3 Genetische Effekte als Abweichungen
Die genetischen Effekte sollen, analog zu den Zuchtwerten aus dem BLUP-Tiermodell als Abweichungen von einer festgelegten Basis definiert werden. Die Basis stellt den Nullpunkt der genetischen Effekte dar. Somit kommen die einzelnen Genetischen Effekte \(g_i\) für Tier \(i\) aus einer Verteilung mit Erwartungswert \(E\left[g_i\right] = 0\). Die Frage ist nun, wie muss die Matrix \(U\) aussehen, dass unabhängig vom Vektor \(q\) der Erwartungswert der Komponenten von \(g_i\) gleich null ist.
Betrachten wir die Zufallsvariable \(w\) mit den SNP-Genotypencodes in Matrix \(W\) im RR-BLUP-Modell () und nehmen wir an, das Hardy-Weinberg-Gleichgewicht gelte für alle SNP-Genorte, dann sind folgende Realisierungswerte für \(w\) möglich
\[\begin{equation} w = \left\{ \begin{array}{lll} 0 & \text{mit Wahrscheinlichkeit} & (1-p)^2\\ 1 & \text{mit Wahrscheinlichkeit} & 2p(1-p) \\ 2 & \text{mit Wahrscheinlichkeit} & p^2 \end{array} \right. \label{eq:RandVarGenotypesW} \end{equation}\]Der Erwartungswert der Zufallsvariablen \(w\) entspricht
\[\begin{equation} E\left[w\right] = 0*(1-p)^2 + 1 * 2p(1-p) + 2 * p^2 = 2p \label{eq:ExpectedValueW} \end{equation}\]Die Matrix \(U\) aus () berechnen wir als Differenz zwischen den Matrizen \(W\) und \(P\). Die Matrix \(P\) besteht aus Kolonnenvektoren \(1_n2p_j\) der Länge \(n\) für die entsprechenden SNPs \(j = 1,\ldots ,m\). Für einen bestimmten SNP-Locus \(j\) folgen aufgrund der Definition der Matrix \(U\) die folgenden Codierungen der SNP-Genotypen. Dabei nehmen wir an, dass das Allel \((G_{2})_j\) einerseits mit Frequenz \(p_j\) auftritt und andererseits dasjenige Allel mit der positiven Wirkung ist. Die nachfolgende Tabelle gibt eine Übersicht über die genotypischen Werte und der Codierung der Genotypen in der Matrix \(U\) für die drei auftretenden Genotypen am SNP-Locus \(j\).
Unter der Annahme des Hardy-Weinberg-Gleichgewichts für die Genotypen am SNP-Locus \(j\) können wir den Erwartungswert für den genetischen Effekt \(g\) am SNP-Locus \(j\) berechnen. Der Erwartungswert wird über alle Komponenten des Vektors \(g\) der genetischen Effekte berechnet.
\[\begin{equation} \begin{split} E\left[g\right]_j & = \left[(1-p_j)^2(-2p_j) + 2p_j(1-p_j)(1-2p_j) + p_j^2(2-2p_j)\right]q_j\\ & = \left[(1 - 2p_j + p_j^2)(-2p_j) + (2p_j - 2p_j^2)(1-2p_j) + p_j^2(2-2p_j)\right]q_j\\ & = \left[-2p_j + 4p_j^2 - 2p_j^3 + 2p_j - 4p_j^2 - 2p_j^2 + 4p_j^3 + 2p_j^2 - 2p_j^3\right]q_j\\ & = 0 \end{split} \label{eq:ExpectedValueGj} \end{equation}\]Die gleiche Herleitung lässt sich für jeden SNP Locus \(j = 1,\ldots, m\) machen. Somit ist der Erwartungswert über alle genetischen Komponenten \(g_i\) gleich null, unabhängig von den SNP-Effekten \(q_j\) am Locus \(j\). Somit haben wir die Matrix \(U\), welche aus den SNP-Effekten \(q\) in () die genetischen Effekte \(g\) in () berechnet, gefunden.
3.3.4 Alternative Codierung
Anstelle der verwendeten Codierungen von \(0\), \(1\) und \(2\) für die SNP-Genotypen können diese auch mit \(-1\), \(0\) und \(1\) codiert werden. Diese Codierung wird in (VanRaden 2008) zum Aufstellen der GRM \(G\) verwendet. Auch die Autoren des Papers (Gianola et al. 2009) verwenden diese alternative Codierung. Am prinzipiellen Vorgehen ändert sich aber dadurch nichts. Nur die verwendeten Werte in den Matrizen sind anders. Die Matrix \(W\) unter der alternativen Codierung besteht aus Werten \(-1\), \(0\) und \(1\). Die Zufallsvariable \(w\), welche wir in () definiert und zur Bestimmung der Matrix \(P\) verwendet hatten, sieht unter der alternativen Codierung wie folgt aus.
\[\begin{equation} w = \left\{ \begin{array}{lll} -1 & \text{mit Wahrscheinlichkeit} & (1-p)^2\\ 0 & \text{mit Wahrscheinlichkeit} & 2p(1-p) \\ 1 & \text{mit Wahrscheinlichkeit} & p^2 \end{array} \right. \label{eq:RandVarGenotypesWalternative} \end{equation}\]Der Erwartungswert für \(w\) unter der alternativen Codierung ist dann
\[\begin{equation} E\left[w\right] = (-1)*(1-p)^2 + 0 * 2p(1-p) + 1 * p^2 = -1 + 2p - p^2 + p^2 = 2p - 1 = 2(p - 0.5) \label{eq:ExpectedValueWalternative} \end{equation}\]Die Kolonne \(j\) der Matrix \(P\) besteht aus dem Kolonnenvektoren \(1_n*2(p_j - 0.5)\). Die Matrix \(U\) (welche der Matrix \(Z\) in (VanRaden 2008) entspricht) kann wird berechnet als
\[\begin{equation} U = W - P \label{eq:MatrixUalternative} \end{equation}\]Die Elemente der Matrix \(U\) der Genotypen am SNP-Locus \(j\) unter der alternativen Codierung lauten
Der Erwartungswert der Komponenten der genetischen Effekte \(g\) aufgrund des SNP-Locus \(j\) beträgt dann
\[\begin{equation} \begin{split} E\left[g\right]_j & = \left[(1-p_j)^2(-1-2(p_j-0.5)) + 2p_j(1-p_j)(-2(p_j-0.5)) + p_j^2(1-2(p_j-0.5))\right]q_j\\ & = \left[- 2 \ p_j^{3} + 4 \ p_j^{2} - 2 \ p_j + 4 \ p_j^{3} - 6 \ p_j^{2} + 2 \ p_j - 2 \ p_j^{3} + 2 \ p_j^{2} \right]q_j\\ & = 0 \end{split} \label{eq:ExpectedValueGjalternative} \end{equation}\]3.3.5 Varianz der genetischen Effekte
Aufgrund der postulierten Eigenschaften soll die Varianz \(var(g)\) der genetischen Effekte berechnet werden als das Produkt der GRM \(G\) mal die gemeinsame Varianzkomponente \(\sigma_g^2\). Als Formel geschrieben lautet der Ausdruck für \(var(g)\)
\[\begin{equation} var(g) = G * \sigma_g^2\text{.} \label{eq:VarGFormula} \end{equation}\]Aus der Theorie folgt unter Berücksichtigung von (), dass
\[var(g) = U * var(q) * U^T\] ist. Für die Varianz der SNP-Effekte nehmen wir an, dass \(var(q) = I\sigma_q^2\). Dies bedeutet, dass sich der Ausdruck für die Kovarianz der genetischen Effekte \(g\) vereinfacht zu \(var(g) = UU^T \sigma_q^2\).
Im Paper von (Gianola et al. 2009) wurde \(\sigma_g^2\) aus \(\sigma_q^2\) hergeleitet. Das Resultat dieser Herleitung lautet
\[\begin{equation} \sigma_g^2 = 2 \sum_j^m p_j(1-p_j) \sigma_q^2 \label{eq:GenomicVariance} \end{equation}\]Fassen wir alle diese Beziehungen zusammen, können wir die verschiedenen Ausdrücke für die Kovarianz der genetischen Effekte gleichsetzen.
\[\begin{equation} var(g) = G * \sigma_g^2 = UU^T \sigma_q^2 \label{eq:GenomicVarianceTwoExpr} \end{equation}\]Ersetzen wir \(\sigma_g^2\) in () durch den Ausdruck in () so folgt
\[\begin{equation} G * 2 \sum_j^m p_j(1-p_j) \sigma_q^2 = UU^T \sigma_q^2 \label{eq:GenomicVarianceInserted} \end{equation}\]Aus der Gleichung in () kann die genomische Verwandtschaftsmatrix \(G\) berechnet werden als
\[\begin{equation} G = \frac{UU^T}{2\sum_j p_j(1-p_j)} \label{eq:GenomRelMat} \end{equation}\]3.3.6 R-Code zur Berechnung der GRM
Im Kapitel 13 von (Clark and van der Werf 2013) ist ein R-Programm zur Berechnung der genomischen Verwandtschaftsmatrix aufgeführt. Wir wollen dieses Programm analysieren und präsentieren auch eine alternative Art der Berechnung der genomischen Verwandtschaftsmatrix.
# Making the genomic relationship matrix
nmarkers <- 1000
# Reading SNP-Genotype codes (0,1,2) from file
data <- matrix(scan("genotypes.txt"),ncol = nmarkers,byrow = TRUE)
# Initialisation of variables
sumpq = 0
freq = dim(data)[1]
P = freq
lamda = ncol(data)
# Compute allele frequencies and column vectors of matrix P
for(i in 1:ncol(data)){
(freq[i] <- ((mean(data[,i])/2)))
(P[i] = (2*(freq[i]-0.5)))
(sumpq = sumpq+(freq[i]*(1-freq[i])))
}
# Transform coding from (0,1,2) to (-1,0,1) and subtract P
Z <- data
for(i in 1:nrow(data)){
for(j in 1:ncol(data)){
(Z[i,j] <- ((data[i,j]-1)-(P[j])))
}
}
# Compute GRM
Zt = t(Z)
ZtZ = Z%*%Zt
G = ZtZ/(2*sumpq)
G
## [,1] [,2] [,3] [,4] [,5]
## [1,] 0.8978768 -0.2330233 -0.2286366 -0.2067029 -0.2295139
## [2,] -0.2330233 0.8469907 -0.2014388 -0.2189858 -0.1935427
## [3,] -0.2286366 -0.2014388 0.9171785 -0.2453062 -0.2417968
## [4,] -0.2067029 -0.2189858 -0.2453062 0.9215652 -0.2505703
## [5,] -0.2295139 -0.1935427 -0.2417968 -0.2505703 0.9154238
Das gezeigte Programm zur Berechnung der genomischen Verwandtschaftsmatrix aus (Clark and van der Werf 2013) kann vereinfacht werden. Insbesondere können die for
-loops durch einfachere Funktionen und vektorisierte Berechnungen ersetzt werden. Das folgende Programm berechnet die gleiche genomische Verwandtschafsmatrix.
# Making the genomic relationship matrix
nmarkers <- 1000
# Reading SNP-Genotype codes (0,1,2) from file
data <- matrix(scan("genotypes.txt"),ncol = nmarkers,byrow = TRUE)
# Compute allele frequencies, column vectors of matrix P and sum of frequency products
freq <- apply(data, 2, mean) / 2
P <- 2 * (freq - 0.5)
sumpq <- sum(freq*(1-freq))
# Compute matrix Z by first changing the coding from (0,1,2)
# to (-1,0,1) and then subtracting matrix P
Z <- data - 1 - matrix(P, nrow = nrow(data), ncol = ncol(data), byrow = TRUE)
# Z%*%Zt is replaced by tcrossprod(Z)
(matGrm <- tcrossprod(Z)/(2*sumpq))
## [,1] [,2] [,3] [,4] [,5]
## [1,] 0.8978768 -0.2330233 -0.2286366 -0.2067029 -0.2295139
## [2,] -0.2330233 0.8469907 -0.2014388 -0.2189858 -0.1935427
## [3,] -0.2286366 -0.2014388 0.9171785 -0.2453062 -0.2417968
## [4,] -0.2067029 -0.2189858 -0.2453062 0.9215652 -0.2505703
## [5,] -0.2295139 -0.1935427 -0.2417968 -0.2505703 0.9154238
Wir können überprüfen, ob die beiden Matrizen identisch sind
all.equal(G, matGrm)
## [1] TRUE
Das oben gezeigte alternative Programm zur Berechnung der genomischen Verwandtschaftsmatrix kann so verwendet werden. Da R eine funktionale Programmiersprache ist, soll es unser Ziel sein, möglichst viele Aufgaben in Funktionen zu kapseln. Die folgende Funktion computeMatGrm()
berechnet aufgrund der Datenmatrix die genomischen Verwandtschaftsmatrix auf.
#' Compute genomic relationship matrix based on data matrix
computeMatGrm <- function(pmatData) {
# Allele frequencies, column vector of P and sum of frequency products
freq <- apply(pmatData, 2, mean) / 2
P <- 2 * (freq - 0.5)
sumpq <- sum(freq*(1-freq))
# Changing the coding from (0,1,2) to (-1,0,1) and subtract matrix P
Z <- data - 1 - matrix(P, nrow = nrow(pmatData),
ncol = ncol(pmatData),
byrow = TRUE)
# Z%*%Zt is replaced by tcrossprod(Z)
return(tcrossprod(Z)/(2*sumpq))
}
# Computing the genomic relationship matrix using the above defined function
nmarkers <- 1000
# Reading SNP-Genotype codes (0,1,2) from file
data <- matrix(scan("genotypes.txt"),ncol = nmarkers,byrow = TRUE)
# calling the function
(matGrmFunc <- computeMatGrm(pmatData = data))
## [,1] [,2] [,3] [,4] [,5]
## [1,] 0.8978768 -0.2330233 -0.2286366 -0.2067029 -0.2295139
## [2,] -0.2330233 0.8469907 -0.2014388 -0.2189858 -0.1935427
## [3,] -0.2286366 -0.2014388 0.9171785 -0.2453062 -0.2417968
## [4,] -0.2067029 -0.2189858 -0.2453062 0.9215652 -0.2505703
## [5,] -0.2295139 -0.1935427 -0.2417968 -0.2505703 0.9154238
# checking the result
all.equal(G, matGrmFunc)
## [1] TRUE
3.4 Wie GBLUP funktioniert
Die genomischen Verwandtschaftsmatrix erlaubt es uns die Daten der Tiere mit Beobachtung mit den Tieren ohne Beobachtungen aber mit SNP-Genotypen zu verlinken. Die Inverse \(G^{-1}\) der genomischen Verwandtschaftsmatrix wird zur Modellierung der Kovarianzstruktur zwischen den genetischen Effekten und somit zwischen den genomischen Zuchtwerten verwendet. Wie schon beim BLUP-Tiermodell werden auch bei GBLUP die unbekannten Effekte mit Mischmodellgleichungen geschätzt. Für das GBLUP-Modell in () lauten die Mischmodellgleichungen, wie folgt.
\[\left[ \begin{array}{lll} X^TX & X^TZ & 0 \\ Z^TX & Z^TZ + G^{11} & G^{12} \\ 0 & G^{21} & G^{22} \\ \end{array}\right] \left[ \begin{array}{l} \hat{b} \\ \hat{g}_1 \\ \hat{g}_2 \\ \end{array}\right] = \left[ \begin{array}{l} X^Ty \\ Z^Ty \\ 0 \\ \end{array}\right] \]
\(G^{11}\) steht für den Teil der Inversen \(G^{-1}\), der zu den Tieren mit phänotypischen Beobachtungen gehört. Analog dazu entspricht \(G^{22}\) dem Teil von \(G^{-1}\), der die Tiere ohne Beobachtungen mit nur SNP-Genotypen beinhaltet. Die Teile \(G^{12}\) und \(G^{21}\) verknüpfen die Tiere mit und ohne Beobachtungen. Bei den oben gezeigten Mischmodellgleichungen wird ein Verhältnis der Varianzkomponenten \(\sigma_g^2\) und \(\sigma_e^2\) von \(1\) angenommen.
Aufgrund der letzten Zeile der GBLUP-Mischmodellgleichungen ist ersichtlich, dass die genomischen Zuchtwerte \(\hat{g}_2\) der Tiere ohne phänotypische Beobachtungen aufgrund der Schätzungen \(\hat{g}_1\) der genomischen Zuchtwerte der Tiere mit Beobachtungen vorhergesagt werden können.
\[\begin{equation} \hat{g}_2 = -\left( G^{22}\right)^{-1}G^{21}\hat{g}_1 \label{eq:GenomicBvAnimalNoPhen} \end{equation}\]Die Beziehung in () wird auch als genomische Regression der Zuchtwerte der Tiere ohne Beobachtung auf die genomischen Zuchtwerte der Tiere mit Beobachtung bezeichnet.
References
Hofer, A. 1990. “Schätzung von Zuchtwerten Feldgeprüfter Schweine Mit Einem Mehrmerkmals-Tiermodell.” PhD thesis, ETH Zürich.
von Rohr, P. 2016. “Züchtungslehre.” https://charlotte-ngs.github.io/LBGHS2016.
Meuwissen, Theo HE, Ben J Hayes, and Mike E Goddard. 2001. “Prediction of Total Genetic Value Using Genome-Wide Dense Marker Maps.” Genetics, no. 157: 1819–29.
Habier, D., RL Fernando, and JCM Dekkers. 2007. “The Impact of Genetic Relationship Information on Genome-Assisted Breeding Values.” Genetics, no. 177: 2389–97.
Misztal, I, A Legarra, and I Aguilar. 2009. “Computing Procedures for Genetic Evaluation Including Phenotypic, Full Pedigree, and Genomic Information.” J Dairy Sci, no. 92: 4648–55.
VanRaden, PM. 2008. “Efficient Methods to Compute Genomic Predictions.” J Dairy Sci, no. 91: 4414–23.
Gianola, Daniel, Gustavo de los Campos, William G. Hill, Eduardo Manfredi, and Rohan Fernando. 2009. “Additive Genetic Variability and the Bayesian Alphabet.” Genetics, no. 183: 347–63.
Clark, Samuel A., and Julius van der Werf. 2013. “Genomic Best Linear Unbiased Prediction (GBLUP) for the Estimation of Genomic Breeding Values.” In Genome-Wide Association Studies and Genomic Prediction, Methods in Molecular Biology, Vol 1019, edited by Cedric Gondro, Julius van der Werf, and Ben Hayes. Springer. doi:10.1007/978-1-62703-447-0_13.