1 Análise de Sobrevivência

A análise de sobrevivência constitui um ramo específico da estatística aplicada dedicado ao estudo do tempo até à ocorrência de um evento de interesse, designadamente morte, falha de um sistema, recaída de uma doença, cessação de um contrato ou incumprimento financeiro. Segundo Kalbfleisch e Prentice (2002), ao contrário dos modelos clássicos de regressão, esta abordagem lida explicitamente com dados censurados, isto é, observações para as quais o evento não ocorreu durante o período de observação.

Segundo Kleinbaum e Klein (2012), historicamente, a análise de sobrevivência teve forte desenvolvimento no contexto da biostatística e epidemiologia, mas, ao longo das últimas décadas, passou a ser amplamente aplicada em áreas como engenharia da fiabilidade, economia, ciências sociais, demografia e finanças quantitativas.

2 Conceitos fundamentais

2.1 Tempo de sobrevivência e função de sobrevivência

Seja \(T\) uma variável aleatória contínua que representa o tempo até à ocorrência do evento. A função de sobrevivência é definida como:

\[S(t) = P(T>t), \; t\geq0\] Esta função descreve a probabilidade de um indivíduo ou unidade sobreviver para além do tempo \(t\), sendo particularmente útil para comparações entre grupos.

2.2 Função de risco (hazard function)

A função de risco caracteriza a taxa instantânea de ocorrência do evento no tempo \(t\), dado que o indivíduo sobreviveu até esse instante:

\[h(t)=\lim_{\Delta t\to0}\dfrac{P(t\le T<t+\Delta t\,|\,T\ge t)}{\Delta t}\] Segundo Therneau e Grambsch (2000), esta função é frequentemente mais informativa do que a função de sobrevivência, pois permite compreender como o risco evolui ao longo do tempo.

2.3 Censura

A censura constitui um elemento distintivo da análise de sobrevivência. Kleinbaum e Klein (2012) distinguem principalmente:

  • censura à direita, quando o evento não é observado até ao final do estudo;

  • censura à esquerda, quando o evento ocorre antes do início da observação;

  • censura por intervalo, quando o evento ocorre entre dois instantes observados.

A ignorância da censura conduz a estimativas enviesadas da função de sobrevivência e da função de risco.

3 Métodos não paramétricos

3.1 Estimador de Kaplan–Meier

Kaplan e Meier (1958) propuseram um estimador não paramétrico da função de sobrevivência, amplamente conhecido como estimador produto-limite, definido como:

\[\hat{S}(t)=\prod_{t_i\le t}\left(1-\frac{d_i}{n_i}\right)\] em que \(t_i\) denota os tempos distintos de ocorrência dos eventos observados, \(d_i\) representa o número de eventos observados no instante \(t_i\) e \(n_i\) o número de indivíduos em risco imediatamente antes desse instante.

Por construção, o estimador satisfaz \(\hat{S}(t)= 1\) para \(0 \le t < t_1\), sendo \(t_1\) o primeiro tempo de evento observado.

O estimador de Kaplan–Meier é amplamente utilizado como ferramenta exploratória na análise de sobrevivência, permitindo a estimação empírica da função de sobrevivência na presença de censura à direita e servindo de base para comparações iniciais entre grupos.

3.2 Teste Log-Rank

Para a comparação de curvas de sobrevivência entre grupos, o teste Log-Rank é o procedimento amplamente utilizado. Conforme descrito por Mantel (1966), este teste avalia a hipótese nula de igualdade das funções de sobrevivência ao longo do tempo, assumindo riscos proporcionais entre os grupos.

4 Modelos semi-paramétricos

4.1 Modelo de riscos proporcionais de Cox

Cox (1972) introduziu o modelo de riscos proporcionais, cuja função de risco condicional é dada por

\[h(t \mid \mathbf{X}) = h_0(t)\,\exp\!\left(\boldsymbol{\beta}^\top \mathbf{X}\right),\] em que \(h(t \mid \mathbf{X})\) representa a função de risco associada a um indivíduo com vector de covariáveis \(\mathbf{X} = (X_1,\ldots,X_p)^\top\), \(h_0(t)\) denota a função de risco basal não especificada e \(\boldsymbol{\beta} = (\beta_1,\ldots,\beta_p)^\top\) corresponde ao vector de parâmetros desconhecidos.

A principal inovação do modelo reside no facto de não exigir a especificação paramétrica da função de risco basal, mantendo, contudo, uma estrutura multiplicativa para o efeito das covariáveis. A interpretação dos coeficientes do modelo é usualmente realizada através dos hazard ratios, definidos por

\[\text{HR}_j = \exp(\beta_j),\] os quais quantificam o efeito relativo de uma variação unitária na covariável \(X_j\) sobre o risco de ocorrênciado evento, assumindo constantes as restantes covariáveis.

4.2 Hipótese de proporcionalidade dos riscos

A validade do modelo de Cox depende da hipótese de proporcionalidade dos riscos, segundo a qual o rácio entre as funções de risco de dois indivíduos é constante ao longo do tempo. Para dois vectores de covariáveis \(\mathbf{X}_a\) e \(\mathbf{X}_b\), esta hipótese implica que

\[\frac{h(t \mid \mathbf{X}_a)}{h(t \mid \mathbf{X}_b)} = \exp\!\left(\boldsymbol{\beta}^\top (\mathbf{X}_a - \mathbf{X}_b)\right),\]

independente de \(t\).

Therneau e Grambsch (2000) propõem métodos gráficos e testes estatísticos baseados nos resíduos de Schoenfeld, os quais permitem avaliar a constância temporal dos efeitos das covariáveis. A violação desta hipótese compromete a adequação do modelo de Cox, tornando necessária, em tais circunstâncias, a adopção de extensões do modelo, nomeadamente o modelo de Cox com covariáveis dependentes do tempo.

5 Modelos paramétricos

Ao contrário do modelo de riscos proporcionais de Cox, no qual as funções de sobrevivência basal \(S_0(t)\) e de risco basal \(h_0(t)\) são estimadas de forma não paramétrica, os modelos paramétricos de sobrevivência assumem explicitamente uma distribuição teórica para o tempo até à ocorrência do evento de interesse. Entre os modelos paramétricos mais utilizados destacam-se os modelos exponencial, Weibull e Gompertz, cujas funções de risco são completamente determinadas por um conjunto finito de parâmetros.

No contexto de modelos paramétricos com estrutura de riscos proporcionais, a função de risco condicional pode ser escrita como

\[ h(t \mid \mathbf{X}) = h_0(t)\exp\!\left(\boldsymbol{\beta}^\top \mathbf{X}\right), \] em que \(h_0(t)\) assume uma forma funcional específica dependente da distribuição considerada.

5.1 Modelo Exponencial

No modelo exponencial, o risco basal é constante no tempo, \(h_0(t)=\lambda\), com \(\lambda>0\).

Assim, obtém-se

\[ h(t \mid \mathbf{X}) = \lambda \exp\!\left(\boldsymbol{\beta}^\top \mathbf{X}\right). \]

Este modelo constitui um caso particular do modelo de Weibull.

5.2 Modelo Weibull

No modelo Weibull (parametrização PH), a função de risco basal assume a forma

\[ h_0(t) = \lambda p t^{\,p-1}, \]

com \(\lambda>0\) (escala) e \(p>0\) (forma).

Consequentemente,

\[ h(t \mid \mathbf{X}) = \lambda p t^{\,p-1}\exp\!\left(\boldsymbol{\beta}^\top \mathbf{X}\right). \] Note-se que:

  • se \(p=1\), o modelo reduz-se ao modelo exponencial;
  • se \(p>1\), o risco aumenta com o tempo;
  • se \(p<1\), o risco diminui com o tempo.

5.3 Modelo Gompertz

No modelo de Gompertz, a função de risco basal pode ser expressa como

\[ h_0(t) = \lambda \exp(\gamma t), \]

com \(\lambda>0\) e \(\gamma\in\mathbb{R}\).

Deste modo,

\[ h(t \mid \mathbf{X}) = \lambda \exp(\gamma t)\exp\!\left(\boldsymbol{\beta}^\top \mathbf{X}\right) = \lambda \exp\!\left(\gamma t + \boldsymbol{\beta}^\top \mathbf{X}\right). \]

O parâmetro \(\gamma\) controla a evolução temporal do risco:

  • \(\gamma>0\): risco crescente;
  • \(\gamma<0\): risco decrescente;
  • \(\gamma=0\): o modelo reduz-se ao exponencial.

6 Contexto do problema

O Ministério da Saúde de determinado país pretende analisar os factores associados à mortalidade em doentes diagnosticados com insuficiência cardíaca, acompanhados ao longo de um período de follow-up clínico. Para esse efeito, recorre-se a um conjunto de dados constituído por registos clínicos de 299 doentes, contendo informação demográfica, clínica e laboratorial, bem como o registo da ocorrência do óbito durante o acompanhamento.

O objectivo do estudo consiste em avaliar o impacto destas características individuais sobre o risco de mortalidade, considerando explicitamente o tempo até à ocorrência do evento de interesse (óbito). No final do período de observação, alguns doentes apresentaram o evento (morte), enquanto outros não o apresentaram, sendo estes últimos considerados observações censuradas.

A descrição das variáveis recolhidas, para cada doente, é apresentada de seguida.

Descrição das variáveis do conjunto de dados clínicos
Variável Descrição
age Idade do doente, em anos.
anaemia Presença de anemia (sim = 1; não = 0).
creatinine_phosphokinase Nível sérico de creatinina fosfoquinase (mcg/L).
diabetes Presença de diabetes (sim = 1; não = 0).
ejection_fraction Percentagem da fracção de ejecção ventricular esquerda.
high_blood_pressure Presença de hipertensão arterial (sim = 1; não = 0).
platelets Contagem de plaquetas (kiloplaquetas/mL).
serum_creatinine Nível sérico de creatinina (mg/dL).
serum_sodium Nível sérico de sódio (mEq/L).
sex Sexo do doente (feminino = 0; masculino = 1).
smoking Hábito tabágico (sim = 1; não = 0).
time Tempo de acompanhamento, em dias.
death_event Indicador do evento de interesse: óbito (1) ou censura (0).

7 Análise Exploratória

Segundo John Tukey (1977), a análise exploratória de dados constitui uma etapa fundamental da análise estatística, recorrendo a estatísticas descritivas e representações gráficas para identificar padrões, detectar anomalias e compreender a estrutura dos dados, orientando o processo subsequente de modelação estatística.


As análises estatísticas foram conduzidas assumindo um nível de significância de 5%.


7.1 Distribuição do tempo de follow-up por evento

Observa-se que os óbitos ocorrem predominantemente nos períodos iniciais do acompanhamento, enquanto os indivíduos censurados apresentam tempos de acompanhamento mais prolongados. Este padrão sugere uma concentração do risco de mortalidade nas fases iniciais do seguimento, reforçando a relevância da dimensão temporal na análise.

7.2 Sobrevivência global

A curva de sobrevivência global evidencia um declínio mais acentuado no início do follow-up, seguido de uma redução progressivamente mais lenta da probabilidade de sobrevivência. Tal comportamento indica que o risco não é constante ao longo do tempo, sendo mais elevado nos momentos iniciais.

7.3 Sobrevivência estratificada por factores clínicos

As curvas de sobrevivência estratificadas revelam diferenças nas trajectórias de sobrevivência consoante o factor clínico considerado. No caso da hipertensão arterial, observa-se uma separação clara das curvas, acompanhada de evidência estatística de diferenças na sobrevivência entre os grupos. Para a anemia, embora se observe uma tendência para menor sobrevivência nos doentes afectados, a diferença não atinge o critério de significância adoptado. Por contraste, as estratificações por diabetes, sexo e tabagismo apresentam trajectórias amplamente sobrepostas ao longo do follow-up, não se observando evidência estatística de diferenças na sobrevivência entre os respectivos grupos.

7.4 Distribuição das variáveis contínuas por estado do evento

Os boxplots das variáveis numéricas revelam diferenças sistemáticas entre doentes censurados e doentes que evoluíram para óbito. Observa-se que os doentes com óbito tendem a apresentar idades mais elevadas, valores mais altos de creatinina sérica e valores mais baixos de fração de ejeção, em concordância com a plausibilidade clínica destas variáveis como potenciais determinantes do risco.

8 Estimação do modelo de riscos propocionais de Cox

Com base na análise exploratória, foram seleccionadas para a modelação as covariáveis associadas ao tempo até à ocorrência do evento. Variáveis como sexo, diabetes, tabagismo, contagem de plaquetas e creatinina fosfoquinase não foram consideradas na especificação do modelo de riscos proporcionais de Cox, por não apresentarem evidência exploratória consistente de associação com a sobrevivência, privilegiando-se uma abordagem parcimoniosa.

O modelo inicial foi ajustado incluindo idade, fracção de ejecção ventricular esquerda, creatinina sérica, sódio sérico, hipertensão arterial e anemia.

#> Surv(time, death_event) ~ age + ejection_fraction + serum_creatinine + 
#>     serum_sodium + high_blood_pressure + anaemia
#> <environment: 0x0000015ed62bd708>

8.1 Verificação do pressuposto de proporcionalidade

ggcoxzph(cox.zph(modelo_cox), ggtheme = theme_bw())

A avaliação do pressuposto de riscos proporcionais, com base nos resíduos de Schoenfeld, não evidenciou violação global do modelo (p = 0,207), indicando que, de forma geral, o modelo satisfaz a hipótese de proporcionalidade dos riscos. Contudo, observou-se evidência de não proporcionalidade para a fracção de ejecção ventricular esquerda (p = 0,033), sugerindo variação temporal do seu efeito.

8.2 Modelo de Cox com efeito dependente do tempo

Para acomodar esta violação, foi ajustado um modelo de Cox estendido, introduzindo um termo dependente do tempo para a fracção de ejecção.

#> Call:
#> coxph(formula = Surv(time, death_event) ~ age + serum_creatinine + 
#>     serum_sodium + high_blood_pressure + anaemia + tt(ejection_fraction), 
#>     data = df, tt = function(x, t, ...) x * log(t))
#> 
#>   n= 299, number of events= 96 
#> 
#>                            coef exp(coef)  se(coef)      z    Pr(>|z|)    
#> age                    0.044107  1.045094  0.009000  4.901 0.000000954 ***
#> serum_creatinine       0.306599  1.358797  0.070005  4.380 0.000011885 ***
#> serum_sodium          -0.041779  0.959082  0.023998 -1.741      0.0817 .  
#> high_blood_pressure1   0.487152  1.627674  0.212701  2.290      0.0220 *  
#> anaemia1               0.395450  1.485053  0.210264  1.881      0.0600 .  
#> tt(ejection_fraction) -0.012960  0.987124  0.002699 -4.802 0.000001568 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#>                       exp(coef) exp(-coef) lower .95 upper .95
#> age                      1.0451     0.9569    1.0268    1.0637
#> serum_creatinine         1.3588     0.7359    1.1846    1.5586
#> serum_sodium             0.9591     1.0427    0.9150    1.0053
#> high_blood_pressure1     1.6277     0.6144    1.0728    2.4696
#> anaemia1                 1.4851     0.6734    0.9835    2.2424
#> tt(ejection_fraction)    0.9871     1.0130    0.9819    0.9924
#> 
#> Concordance= 0.731  (se = 0.028 )
#> Likelihood ratio test= 79.78  on 6 df,   p=0.000000000000004
#> Wald test            = 87.39  on 6 df,   p=<0.0000000000000002
#> Score (logrank) test = 86.51  on 6 df,   p=<0.0000000000000002

A idade apresenta associação positiva e estatisticamente significativa com o risco de mortalidade (HR = 1,05), correspondendo a um aumento aproximado de 5% no risco por cada ano adicional de idade, mantendo as restantes covariáveis constantes.

A fracção de ejecção ventricular esquerda apresenta um efeito protector estatisticamente significativo, cujo impacto no risco de mortalidade varia ao longo do tempo

A creatinina sérica associa-se a um aumento significativo do risco de mortalidade (HR = 1,36), o que corresponde a um incremento de aproximadamente 36% no risco por cada unidade adicional desta variável.

O sódio sérico apresenta um efeito protector marginal (HR = 0,96), sugerindo uma redução do risco de cerca de 4% por cada unidade adicional de sódio sérico.

A hipertensão arterial associa-se a um aumento do risco de mortalidade (HR = 1,63), indicando que doentes hipertensos apresentam um risco aproximadamente 63% superior comparativamente aos não hipertensos.

A anemia evidencia um efeito positivo marginal (HR = 1,49), correspondendo a um aumento aproximado de 49% no risco de mortalidade em doentes com anemia, face aos doentes sem anemia.

O modelo apresenta boa capacidade discriminativa (Concordance= 0.731), classificando correctamente cerca de 73% dos pares comparáveis em termos de risco de mortalidade.

9 Conclusões

A análise de sobrevivência permitiu identificar factores associados ao risco de mortalidade em doentes com insuficiência cardíaca, evidenciando o papel da idade, creatinina sérica e hipertensão arterial como factores de risco, e da fracção de ejecção ventricular esquerda e do sódio sérico como factores protectores.

A verificação dos pressupostos revelou variação temporal do efeito da fracção de ejecção, justificando a utilização de um modelo de Cox com efeito dependente do tempo.

O modelo final apresentou bom ajustamento e adequada capacidade discriminativa.

10 Recomendações

Com base nas conclusões obtidas, recomendam-se as seguintes orientações:

  1. Considerar a estratificação do risco com base na idade, creatinina sérica e fracção de ejecção, como apoio à identificação de doentes com maior probabilidade de desfechos adversos.

  2. Promover a gestão integrada das comorbilidades, nomeadamente hipertensão arterial, anemia e alterações do sódio sérico, como parte do cuidado global ao doente.

  3. Assegurar a monitorização da função renal e cardíaca no acompanhamento clínico, reconhecendo o seu impacto no prognóstico.

11 Referências

  1. Cox, D. R. (1972). Regression models and life-tables. Journal of the Royal Statistical Society: Series B (Methodological).

  2. Kalbfleisch, J. D., & Prentice, R. L. (2002). The statistical analysis of failure time data (2nd ed.). Wiley.

  3. Kaplan, E. L., & Meier, P. (1958). Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, 53(282).

  4. Kleinbaum, D. G., & Klein, M. (2012). Survival analysis: A self-learning text (3rd ed.). Springer.

  5. Mantel, N. (1966). Evaluation of survival data and two new rank order statistics arising in its consideration. Cancer Chemotherapy Reports, 50(3), 163–170.

  6. Therneau, T. M., & Grambsch, P. M. (2000). Modeling survival data: Extending the Cox model. Springer.

  7. Tukey, J. W. (1977). Exploratory data analysis. Addison-Wesley.


Link do dataset utilizado: acesso ao dataset