banner

blog

Nov 10, 2023

Modelos estatísticos versus aprendizado de máquina para riscos competitivos: desenvolvimento e validação de modelos prognósticos

BMC Medical Research Methodology volume 23, Número do artigo: 51 (2023) Citar este artigo

1353 acessos

9 Altmétrica

Detalhes das métricas

Na pesquisa em saúde, várias doenças crônicas são suscetíveis a riscos competitivos (CRs). Inicialmente, modelos estatísticos (SM) foram desenvolvidos para estimar a incidência cumulativa de um evento na presença de RCs. Como recentemente há um interesse crescente na aplicação de aprendizado de máquina (ML) para previsão clínica, essas técnicas também foram estendidas para modelar CRs, mas a literatura é limitada. Aqui, nosso objetivo é investigar o papel potencial de ML versus SM para CRs em dados não complexos (tamanho de amostra pequeno/médio, configuração de baixa dimensão).

Um conjunto de dados com 3.826 pacientes coletados retrospectivamente com sarcoma de partes moles de extremidade (eSTS) e nove preditores é usado para avaliar o desempenho preditivo do modelo em termos de discriminação e calibração. Duas técnicas de SM (Cox de causa específica, Fine-Gray) e três técnicas de ML são comparadas para CRs em um ambiente clínico simples. Os modelos de ML incluem uma rede neural artificial logística parcial original para CRs (PLANNCR original), um PLANNCR com novas especificações em termos de arquitetura (PLANNCR estendido) e uma floresta de sobrevivência aleatória para CRs (RSFCR). O desfecho clínico é o tempo em anos entre a cirurgia e a progressão da doença (evento de interesse) ou óbito (evento competitivo). Os pontos de interesse no tempo são 2, 5 e 10 anos.

Com base nos dados eSTS originais, 100 conjuntos de dados de treinamento bootstrap são desenhados. O desempenho dos modelos finais é avaliado nos dados de validação (amostras excluídas) empregando como medidas o escore de Brier e a Área sob a curva (AUC) com CRs. A má calibração (erro absoluto de precisão) também é estimada. Os resultados mostram que os modelos ML são capazes de atingir um desempenho comparável ao SM em 2, 5 e 10 anos em relação ao escore de Brier e AUC (intervalos de confiança de 95% sobrepostos). No entanto, os SM são freqüentemente mais bem calibrados.

No geral, as técnicas de ML são menos práticas, pois exigem um tempo de implementação substancial (pré-processamento de dados, ajuste de hiperparâmetros, intensidade computacional), enquanto os métodos de regressão podem funcionar bem sem a carga de trabalho adicional do treinamento do modelo. Como tal, para dados de sobrevivência não complexos da vida real, estas técnicas só devem ser aplicadas de forma complementar ao SM como ferramentas exploratórias do desempenho do modelo. Mais atenção à calibração do modelo é necessária com urgência.

Relatórios de revisão por pares

A análise de sobrevivência (também conhecida como análise de tempo até o evento) é usada para estimar o tempo de vida de uma determinada população em estudo. Freqüentemente, os dados de sobrevivência são censurados à direita; o tempo até o evento não é observado para todos os pacientes devido à interrupção do acompanhamento antes de vivenciar o evento de interesse ou limitações de tempo (término do estudo). Riscos competitivos (CRs) ocorrem frequentemente em aplicações clínicas de dados de sobrevivência [1,2,3,4]. Nesse tipo de dados, um indivíduo pode falhar por uma das várias causas. Um CR é um evento cuja ocorrência impede a ocorrência de um evento de interesse (por exemplo, a morte pode impedir a ocorrência de recidiva da doença) [5, 6]. Na pesquisa em saúde, é improvável que os CRs sejam independentes, pois a biologia sugere pelo menos alguma dependência entre os eventos. Em várias doenças crônicas atribuíveis ao envelhecimento e fragilidade, como câncer, insuficiência cardíaca crônica ou demência, as populações de estudo são suscetíveis a CRs [7].

A abordagem não paramétrica mais popular para estimar a sobrevivência na presença de dados de tempo até o evento censurados à direita é a metodologia de Kaplan-Meier (KM) [8]. No entanto, na presença de CRs, esta metodologia superestima a probabilidade de falha que pode levar ao tratamento excessivo dos pacientes [1, 5, 9]. Diferentes modelos estatísticos (SM) foram desenvolvidos para estimar a incidência cumulativa (risco absoluto) de um evento na presença de CRs, como o modelo Cox de causa específica [10] e o modelo de regressão de riscos de subdistribuição Fine-Gray [ 11]. O primeiro é uma extensão natural do modelo de Cox de riscos proporcionais padrão para a configuração de CRs, onde um modelo de Cox é aplicado para cada perigo de causa específica. O último modela o efeito das covariáveis ​​diretamente na função de incidência cumulativa (CIF) ao longo do tempo, relatando a taxa de risco de subdistribuição [9].

A common approach in the literature is the partial logistic artificial neural network (PLANN) of Biganzoli et al. (1998) [3.0.CO;2-D ." href="/articles/10.1186/s12874-023-01866-z#ref-CR18" id="ref-link-section-d54317150e784"18]. For the purpose of implementation, time is specified in discrete non-overlapping time intervals which are added as an input feature in a longitudinally transformed feed-forward network with logistic activation, and entropy error function. The output layer estimates smoothed discrete hazards for each time interval. PLANN was extended by Lisboa et al. (2003) under a Bayesian regularisation framework which performs automatic relevance determination (PLANN-ARD) [19]. Recently, Kantidakis et al. in 2020 proposed extensions of PLANN in terms of architecture i.e., new hyperparameters, new activation functions, and time interval specification as multiple input features [20]. Next to survival neural networks (SNNs), another well-known ML technique for clinical prediction of survival data is random survival forests (RSF, Ishwaran et al. 2008) [21]. RSF adapt Breiman's random forest method by using a collection of survival trees [22]./p>

In 2006, Biganzoli et al. extended the partial logistic artificial neural network to competing risks (PLANNCR) for the joint modelling of discrete cause-specific hazards [3.0.CO;2-D ." href="/articles/10.1186/s12874-023-01866-z#ref-CR18" id="ref-link-section-d54317150e2646"18, 23]. PLANNCR is a feed-forward network comprised of a group of units called nodes (or neurons) in each layer. It has an input layer that picks up the signals and passes them to a single hidden layer after the application of an activation (also called transformation) function. An activation function modulates the degree of non-linearity transferred from the input features to the hidden layer. Connections between the artificial neurons of different layers are called edges - each having a weight. Weights are adjusted through training increasing or decreasing the strength of each connection [35]. Signals are transmitted towards the output layer, which provides a smoothed estimation of discrete conditional event probabilities (in multiple output nodes; each for an event), with another activation function./p>

This expression can be expanded based on Graaf et al. 1999 [3.0.CO;2-5 ." href="/articles/10.1186/s12874-023-01866-z#ref-CR41" id="ref-link-section-d54317150e5094"41] taking the following form/p>s \}\) the information at time s used to compute the prediction of \(\pi (s, t)\). The first term in (12) measures calibration - how close the predictions are to \(\mathbb{E} [\Delta (s, t) | H(s)]\), the "true" underlying risk of event in \((s, s+t]\) given H(s). In addition, the second term depends on the discrimination ability of H(s). Thus, Brier score is a measure of both calibration and discrimination. Typically, it ranges from 0 to 0.25 (lower values mean smaller prediction error)./p>

Biganzoli E, Boracchi P, Mariani L, Marubini E. Feed forward neural networks for the analysis of censored survival data: a partial logistic regression approach. Stat Med. 1998;17(10):1169–86. 3.0.CO;2-D"https://doi.org/10.1002/(SICI)1097-0258(19980530)17:10<1169::AID-SIM796>3.0.CO;2-D./p>

Graf E, Schmoor C, Sauerbrei W, Schumacher M. Assessment and comparison of prognostic classification schemes for survival data. Stat Med. 1999;18(17-18):2529–2545. http://www.ncbi.nlm.nih.gov/pubmed/10474158. 3.0.CO;2-5"https://doi.org/10.1002/(SICI)1097-0258(19990915/30)18:17/18<2529::AID-SIM274>3.0.CO;2-5./p>

COMPARTILHAR