Predicción de resultados transcripcionales de nuevas perturbaciones multigénicas con GEARS

Predicción de resultados transcripcionales de nuevas perturbaciones multigénicas con GEARS

Resumen de ENGRANAJES

GEARS considera un conjunto de datos de perturbaciones de norte células ({{{mathcal{D}}}}={{({{{{bf{g}}}}}^{i},{{{{mathcal{P}}}}}^ {i})}}_{i = 1}^{N})dónde ({{{{bf{g}}}}}^{i}in {{mathbb{R}}}^{K}) es el vector de expresión génica de la célula i con k genes, y ({{{{mathcal{P}}}}}^{i}=({P}_{1}^{i},cdots ,,{P}_{M}^{i}) ) es el conjunto de perturbaciones de tamaño METRO realizado en celular i. METRO = 0 corresponde a una celda no perturbada. Cada perturbación PAGk en el conjunto corresponde al índice de un gen. El objetivo de GEARS es aprender una función Fque mapea un nuevo conjunto de perturbaciones ({{{mathcal{P}}}}) a su resultado posterior a la perturbación, que es un vector de expresión génica gramo.

Específicamente, dado un conjunto de perturbaciones ({{{mathcal{P}}}}=({P}_{1},cdots,,{P}_{M}))GEARS primero aplica un codificador GNN ({f}_{{{mbox{pert}}}}:{mathbb{Z}}longrightarrow {{mathbb{R}}}^{d}) que mapea cada perturbación genética (Pin {{{mathcal{P}}}}) a un dIncrustación de perturbaciones genéticas -dimensionales. Otro codificador basado en GNN ({f}_{{{mbox{gen}}}}:{mathbb{Z}}longrightarrow {{mathbb{R}}}^{d}) mapea cada gen en un gen incrustado. GEARS luego combina el conjunto de incrustaciones de perturbaciones con cada una de las incrustaciones de genes utilizando un módulo de composición. Un decodificador de genes cruzados ({f}_{{{mbox{dec}}}}:{{{{mathbb{R}}}_{i}^{d}}}_{i = 1}^{K }longrightarrow {{mathbb{R}}}^{K}) luego toma el conjunto de incrustaciones de genes perturbados y los asigna al vector de expresión génica posterior a la perturbación. Toda la red está entrenada de extremo a extremo con una pérdida consciente de la dirección del enfoque automático (Nota complementaria 22).

Codificador gráfico de coexpresión de genes

Para capturar la heterogeneidad relativa de la respuesta perturbadora para cada gen, GEARS representa cada gen (uen {mathbb{Z}}) como una incrustación aprendible ({{{{bf{x}}}}}^{{{mbox{gen}}}}in {{mathbb{R}}}^{d}) en lugar de un escalar. GEARS primero obtiene una representación para cada gen que captura patrones de coexpresión en la célula. Para esto, aplicamos un GNN en un gráfico de coexpresión de genes ({{{{mathcal{G}}}}}_{{{mbox{gen}}}}), donde los bordes unen genes coexpresados ​​(nodos). GEARS calcula las correlaciones de Pearson rtu,v entre genes tu ,ven el conjunto de datos de entrenamiento. Para cada gen tulo conectamos a la parte superior Hgene genes que tienen la mayor rtu,v y están por encima de un umbral d. A continuación, aplicamos una GNN parametrizada por igramo que aumenta cada gen tuestá incrustado ({{{{bf{x}}}}}_{u}^{,{{mbox{gen}}},}) integrando información de las incrustaciones de sus genes coexpresados: ({{{{bf{h}}}}}_{u}^{,{{mbox{gen}}},}={{{{rm{GNN}}}}}_ {{theta }_{g}}left({{{{bf{x}}}}}_{u}^{,{{mbox{gen}}},},{{{ {mathcal{G}}}}}_{{{mbox{gen}}}}right)in {{mathbb{R}}}^{d}).

Incorporación del conocimiento previo de las relaciones gen-gen utilizando el gráfico GO

GEARS predice el resultado de perturbar genes nunca antes vistos mediante la construcción de un gráfico de similitud de perturbaciones de genes ({{{{mathcal{G}}}}}_{{{mbox{pert}}}})aprovechando la información de ruta contenida en GO51. Primero definimos ({{{{mathcal{G}}}}}_{{{mbox{GO}}}}) como un gráfico bipartito donde un borde vincula un gen con un término GO de vía. denotamos ({{{{mathcal{N}}}}}_{u}) como el conjunto de vías para un gen tu. Calculamos el índice de Jaccard entre un par de genes tu ,vcomo ({J}_{u,v}=frac{| {{{{mathcal{N}}}}}_{u}cap {{{{mathcal{N}}}}}_{ v}| }{| {{{{mathcal{N}}}}}_{u}cup {{{{mathcal{N}}}}}_{v}| }); esto mide la fracción de vías compartidas entre los dos genes. Para cada gen tu luego seleccionamos la parte superior Himpertinente gene vcon el más alto jtu,v para construir ({{{{mathcal{G}}}}}_{{{mbox{pert}}}}). A continuación, inicializamos todas las perturbaciones genéticas posibles (PAG1,,PAGk) con incrustaciones aprendibles (({{{{bf{x}}}}}_{1}^{,{{mbox{pert}}},},cdots ,,{{{{bf{x }}}}}_{K}^{,{{mbox{experto}}},})). Luego los alimentamos a un GNN parametrizado por ipag para aumentar cada perturbación vestá incrustado ({{{{bf{x}}}}}_{v}^{,{{mbox{pert}}},}) integrando información de perturbaciones vecinas en ({{{{mathcal{G}}}}}_{{{mbox{pert}}}}): ({{{{bf{h}}}}}_{v}^{,{{mbox{pert}}},}={{{{rm{GNN}}}}}_ {{theta}_{p}}({{{{bf{x}}}}}_{v}^{,{{mbox{pert}}},},{{{{ mathcal{G}}}}}_{{{mbox{pert}}}})in {{mathbb{R}}}^{d}).

Modelado de perturbaciones combinatorias entre genes

Dado un conjunto de perturbaciones ({{{mathcal{P}}}}=({P}_{1},cdots,,{P}_{M}))GEARS busca la incrustación de perturbaciones de cada elemento de ese conjunto (({{{{bf{h}}}}}_{{P}_{1}}^{,{{mbox{pert}}},},cdots ,,{{ {{bf{h}}}}}_{{P}_{M}}^{,{{mbox{pert}}},})). Para modelar perturbaciones multigénicas, usamos el operador composicional ‘suma’ seguido de un MLP: ({{{{bf{h}}}}}^{{{{mathcal{P}}}}}={{{{rm{MLP}}}}}_{{theta }_ {c}}left(mahop{sum}nolimits_{i = 1}^{M}{{{{bf{h}}}}}_{{P}_{i}}^{ ,{{mbox{pert}}},}right)). El operador ‘suma’ permite la extensibilidad a perturbaciones de cualquier tamaño. Por lo tanto, cada perturbación incrustada desde (({{{{bf{h}}}}}_{{P}_{1}}^{,{{mbox{pert}}},},cdots ,,{{ {{bf{h}}}}}_{{P}_{M}}^{,{{mbox{pert}}},})) se aplica a cada incrustación de genes para obtener una incrustación de genes posterior a la perturbación. por gen tutenemos ({{{{bf{h}}}}}_{u}^{,{{mbox{post-pert}}},}={{{rm{MLP}}}} }_{{theta }_{pp}}left({{{{bf{h}}}}}_{u}^{,{{mbox{gen}}},}+{ {{{bf{h}}}}}^{{{{mathcal{P}}}}}right)).

Efectos de genes cruzados y decodificador específico de genes

Tras la aplicación de las perturbaciones en el espacio de incrustación, GEARS mapea la incrustación del gen posterior a la perturbación en su correspondiente vector de expresión del gen posterior a la perturbación. Como cada gen tiene su propio patrón de perturbación, para cada gen tuaplicamos una capa lineal específica del gen parametrizada por ({{{{bf{w}}}}}_{u}in {{mathbb{R}}}^{d},{b}_{u}in {mathbb{R} }) para asignarlo a un escalar de efecto de expresión génica de perturbación ({{{{bf{z}}}}}_{u}={{{{bf{w}}}}}_{u}{{{{bf{h}}}}} _{u}^{,{{mbox{post-pert}}},}+{b}_{u}in {mathbb{R}}). Luego concatenamos el efecto individual a un solo vector de efecto de perturbación ({{{bf{z}}}}en {{mathbb{R}}}^{K}) para la celda Debido a que el efecto perturbador en un gen puede generar efectos secundarios en otros genes, queríamos utilizar la información de ‘genes cruzados’ de todo el transcriptoma para la célula al predecir la expresión génica final para cada gen. Por lo tanto, agregamos un MLP adicional que genera una incrustación cruzada de genes para la célula. ({{{{bf{h}}}}}^{{{mbox{cg}}}}={{{{rm{MLP}}}}}_{{theta }_{cg }}izquierda({{{bf{z}}}}derecha)en {{mathbb{R}}}^{d}). Condicionado a este estado de genes cruzados, para cada gen tu un decodificador específico de genes parametrizado por ({{{{bf{w}}}}}_{u}^{,{{mbox{cg}}},}in {{mathbb{R}}}^{d+ 1},{b}_{u}^{,{{mbox{cg}}},}en {mathbb{R}}) aumenta ztu a ({sombrero{{{{bf{z}}}}}}_{u}={{{{bf{w}}}}}_{u}^{,{{mbox{ cg}}},}left({{{{bf{z}}}}}_{u}parallel {{{{bf{h}}}}}^{{{mbox{cg }}}}right)+{b}_{u}^{{{mbox{cg}}},}in {mathbb{R}})donde la notación de doble barra () se refiere a la operación de concatenación de vectores. Finalmente, el vector de efecto de perturbación predicho (sombrero{{{{bf{z}}}}}en {{mathbb{R}}}^{K}) se agrega a la expresión génica de una célula de control no perturbada muestreada aleatoriamente (gramocontrol) para llegar al vector de expresión génica posperturbación previsto para esa célula (sombrero{{{{bf{g}}}}}=sombrero{{{{bf{z}}}}}+{{{{bf{g}}}}}_{{ {{rm{ctrl}}}}}). Esto permite que GEARS se concentre solo en el aprendizaje de los efectos de perturbación.

Pérdida consciente de la dirección del enfoque automático

GEARS optimiza los parámetros del modelo para ajustarse a lo previsto (sombrero{{{{bf{g}}}}}) expresión génica posperturbación a verdadera expresión génica posperturbación gramo mediante descenso de gradiente estocástico. Diseñamos una pérdida de enfoque automático que otorga automáticamente un mayor peso a los genes expresados ​​​​diferencialmente al elevar el exponente del error. Dado un mini lote de T perturbaciones, donde cada perturbación k tiene Tk células y cada célula tiene k genes con expresión génica posperturbación predicha (sombrero{{{{bf{g}}}}}) y verdadera expresión gramola pérdida se define como

$${L}_{{{{rm{enfoque automático}}}}}=frac{1}{T}mahop{sum }limits_{k=1}^{T}frac{1} {{T}_{k}}mahop{sum }limits_{l=1}^{{T}_{k}}frac{1}{K}mahop{sum }limits_{u =1}^{K}{({{{{bf{g}}}}}_{u}-{sombrero{{{{bf{g}}}}}}_{u})} ^{(2+gamma )}.$$

Sin embargo, esta pérdida es insensible a la direccionalidad. Para abordar esto, GEARS incorpora una pérdida consciente de la dirección adicional

$${L}_{{{{rm{dirección}}}}}=frac{1}{T}mahop{sum}limits_{k=1}^{T}frac{1} {{T}_{k}}mahop{sum }limits_{l=1}^{{T}_{k}}frac{1}{G}mahop{sum }limits_{u =1}^{K}{izquierda[{{{rm{sign}}}}left({{{{bf{g}}}}}_{u}-{{{{bf{g}}}}}_{u}^{{{{rm{ctrl}}}}}right)-{{{rm{sign}}}}left({hat{{{{bf{g}}}}}}_{u}-{{{{bf{g}}}}}_{u}^{{{{rm{ctrl}}}}}right)right]}^{2}.$$

La función de pérdida de predicción es L = Lenfoque automático+ yoLdireccióndónde yo ajusta el peso para la pérdida de direccionalidad.

Incertidumbre

GEARS genera una puntuación de incertidumbre para medir la confianza de la predicción del modelo en una nueva perturbación. Una probabilidad gaussiana ({{{mathcal{N}}}}({hat{{{{bf{g}}}}}_{u},{hat{sigma }}_{u}^{ 2})) se utiliza para modelar el valor de expresión génica posterior a la perturbación para el gentubajo perturbación ({{{mathcal{P}}}})dónde ({sombrero{{{{bf{g}}}}}}_{u}) es el escalar posperturbación predicho y ({sombrero{sigma}}_{u}^{2}) es la varianza52. Agregamos una capa adicional específica de genes para predecir el término de varianza logarítmica ({s}_{u}=log {hat{sigma }}_{u}^{2}={{{{bf{w}}}}}_{u}^{{{ {rm{unc}}}}}{{{{bf{h}}}}}_{u}^{,{{mbox{post-pert}}}}+{b}_{u }^{{{mbox{unc}}},}) para cada gentuy aprenderlo a través de una pérdida de red neuronal bayesiana modificada52

$${L}_{{{{rm{unc}}}}}=frac{1}{T}mahop{sum}limits_{k=1}^{T}frac{1} {{T}_{k}}mahop{sum }limits_{l=1}^{{T}_{k}}frac{1}{G}mahop{sum }limits_{u =1}^{K}exp (-{s}_{u}){({{{{bf{g}}}}}_{u}-{sombrero{{{{bf{g }}}}}}_{u})}^{(2+gamma )}.$$

Al fomentar que la varianza logarítmica sea grande cuando el error es grande, se aprende que la varianza logarítmica es un indicador de la incertidumbre del modelo.

Resumen de informes

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de la cartera de naturaleza vinculado a este artículo.

2023-08-17 02:00:00
#Predicción #resultados #transcripcionales #nuevas #perturbaciones #multigénicas #con #GEARS,


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.