Analisi di sopravvivenza

  • 08/08/2015
  • Tempo di lettura: 12 minuti

Questo articolo proviene da un Motore di traduzione automatico.

c #

zvi topol

analisi di sopravvivenza (SA) è una disciplina di statistiche che si concentra sulla stima del tempo degli eventi. In genere, applicherebbe metodi di analisi di sopravvivenza negli studi clinici per determinare l’efficacia di determinati farmaci (tempo di morte del paziente), affidabilità dei sistemi software (tempo di guasto) e analisi del credito (tempo di prestito predefinito).

Pharmaceutical Gli studi clinici che coinvolgono due gruppi di pazienti sono un eccellente esempio di come questo può funzionare. Il gruppo di controllo è membro amministrato da un placebo. I membri del gruppo di test ricevono la medicina sperimentale contro la malattia. I metodi di analisi di sopravvivenza sono applicati per determinare se vi è una differenza statisticamente significativa nella sopravvivenza dei pazienti tra i due gruppi. L’evento “è il tempo” in questo caso è il momento dall’inizio dello studio ai pazienti muore.

Per esporlo per utilizzare SA, coprirò i concetti di base insieme ad un’implementazione di C # di un Metodo di stima comunemente usato chiamato stimatore Kaplan-Meier. Utilizzerai un vero esempio di stima della probabilità di sopravvivenza delle applicazioni mobili.

Immagina una società di sviluppo del software produce due applicazioni mobili indipendenti intitolate X e Y. Ognuno è stato sviluppato da squadre separate. L’azienda è desiderosa di apprendere quanto siano robuste applicazioni mobili e per determinare se un’applicazione è significativamente meno robusta e richiede più sforzo per migliorare la tua affidabilità.

In qualsiasi momento, potrebbero esserci molti casi di X E e Livere e in esecuzione sui dispositivi client mobili. Pertanto, un’applicazione mobile è ciò che è più interessante. Periodi più lunghi per l’evento, in questo caso, indicherà che l’applicazione è più robusta o ha una migliore capacità di sopravvivenza.

Nel programma Demo, prima puoi vedere i dati di sopravvivenza per gli usi mobili X E e (vedere Figura 1). I dati mostrano che entrambe le applicazioni sono dirette da 10 diversi utenti con identificazioni che vanno da zero a nove. Nel mio esempio, un’applicazione può qualsiasi incidente (descritto dall’evento = incidente app nello screenshot) o chiuso dall’utente (descritto da Event = App Off). Il giorno è anche registrato in cui si verifica l’evento.

La demo di analisi di sopravvivenza che mostra il ciclo di vita delle app mobili
figura 1 La dimostrazione dell’analisi della sopravvivenza con Ciclo di vita delle applicazioni mobili

Concetti di base di SA

Il concetto di base più semplice in SA è quello della funzione di sopravvivenza. Questo di solito è indicato da s (T). Se x è una variabile casuale (una variabile i cui valori sono risultati basati sull’opportunità) che rappresenta il tempo dell’evento, quindi S (T) = PR (X > T) . In altre parole, s (T) è la probabilità di sopravvivenza dopo il tempo t. S (0) è definito come 1. La funzione di sopravvivenza è correlata alla funzione di distribuzione di una vita. Questo di solito è indicato da f (t) e definito come f (t) = PR (x < = t), in altre parole, la probabilità che l’evento sia avvenuto fino al tempo t. Pertanto, f (t) = 1 – S (T). La funzione di densità degli eventi F (T) viene quindi definita come DF (T) / DT – il primo derivato F (T), se f (t) è differenziale. Pertanto, F (T) può essere considerato come il tasso dell’evento (per unità di tempo).

La funzione di rischio, un altro concetto di base, è uguale a AF (T) / S (T) e IT È il tipo di evento nel tempo T per le persone che sono vive nel tempo T.

possono specificare le funzioni di sopravvivenza in modo parametrico, utilizzando una funzione esplicita o una famiglia di funzioni. Puoi anche dedurlo non parametrico da dati esistenti, senza avere una forma chiusa parametrizzata. È anche possibile una specifica semi-parametrica, che è una miscela tra specifiche parametriche e non parametriche. La distribuzione esponenziale è una famiglia di funzioni parametrizzate semplice e popolare per descrivere le funzioni di sopravvivenza grazie alle sue interessanti proprietà matematiche.

Ad esempio, S (T) = exp (-0.05t) è una funzione di sopravvivenza di un Distribuzione parametrica esponenziale nella figura 2. Funzioni di sopravvivenza della forma S (T) = EXP (-A) (quando un parametro che controlla il tasso di rischio può descrivere tale distribuzione). La funzione utile della distribuzione della vita è data da F (T) = 1 – S (T) = 1 – EXP (-A).La figura 2 ci aiuta a visualizzare come vengono comportate le funzioni di sopravvivenza nel tempo.

Come funziona le funzioni di sopravvivenza nel tempo
figura 2 Come si comportano le funzioni di sopravvivenza In Time

Lavorare con un determinato modello parametrico, è possibile utilizzare i dati reali per stimare i parametri del modello. Nel caso della distribuzione esponenziale, è il parametro di uno. Un modo per farlo è usare i metodi di stima massima della researy (MLE), ma questo è completamente un altro argomento.

Ci concentriamo sull’applicazione di un’impostazione non parametrica per la funzione di sopravvivenza. Cioè, non stabilisce un modello predefinito per la funzione di sopravvivenza e stimare i parametri del modello. Invece, potrebbe derivare la funzione di sopravvivenza direttamente con i dati osservati. Prima di descrivere come farlo, devo spiegare un altro importante concetto SA chiamato censura.

La censura si verifica quando alcune osservazioni nel set di dati sono incomplete. Ad un certo punto, hai perso la nozione dell’oggetto osservato. Nel mio esempio, ciò significherebbe che un’applicazione mobile ha terminato la sua esecuzione senza cadere (avvio di un’eccezione fatale). L’applicazione è stata chiusa con grazia dall’utente. Sebbene ci siano altri motivi per cui un’applicazione è terminata senza cadere, decollerò che un’applicazione è bloccata o chiusa dall’utente.

Ci sono due sapori principali di censura, censura destra e destra. Bene, la censura si verifica quando è conosciuta l’ora di inizio, ma mancano il tempo dell’evento. La censura sinistra si verifica quando è presente il tempo dell’evento, ma manca il tempo di partenza. Bene, la censura sta accadendo nel mio esempio.

Utilizzo dello stimatore Kaplan-Meier per stimare la funzione di sopravvivenza

Lo stimatore Kaplan-Meier (Km) è un algoritmo non parametrico che stima il Funzione di sopravvivenza. Derivare lo stimatore KM coinvolge l’uso di matematica avanzata, compresa la teoria della Martingala e il conteggio dei processi ed è fuori portata di questo articolo. Implementazione del KM stimatore, tuttavia, è semplice ed è basato su account.

Considera il semora della sopravvivenza dell’applicazione del computer dell’app mobile. Lo stimatore km dovrebbe essere seguito con tre diversi accuse:

  1. Quanti istanze di applicazione X mobile sono ancora funzionanti. Questo è rappresentato dalla variabile di rischio nella mia applicazione.
  2. Il numero di istanze che si sono schiantati. Questo è seguito nella variabile schiantata.
  3. Il numero di casi che hanno chiuso l’implementazione con la grazia. Questi vengono contati utilizzando la variabile censurata.

Le seguenti righe di codice (per applicazione mobile X) stanno utilizzando la classe CrashMatadata per codificare i dati di sopravvivenza rappresentati nella Figura 3:

var appX = new CrashMetaData {new CrashMetaData{UserID = 0, CrashTime = 1, Crashed = false}, new CrashMetaData{UserID = 1, CrashTime = 5, Crashed = true}, new CrashMetaData{UserID = 2, CrashTime = 5, Crashed = false}, new CrashMetaData{UserID = 3, CrashTime = 8, Crashed = false}, new CrashMetaData{UserID = 4, CrashTime = 10, Crashed = false}, new CrashMetaData{UserID = 5, CrashTime = 12, Crashed = true}, new CrashMetaData{UserID = 6, CrashTime = 15, Crashed = false}, new CrashMetaData{UserID = 7, CrashTime = 18, Crashed = true}, new CrashMetaData{UserID = 8, CrashTime = 21, Crashed = false}, new CrashMetaData{UserID = 9, CrashTime = 22, Crashed = true}};

figura 3 Dati di sopravvivenza dell’applicazione mobile x

x

.

ID utente GIORNI SCHKED censurato
0 1
1 5 x
2 5 x
3 8
4
5 12
6 15 x
7 18
8
9 22 X

Dati di sopravvivenza che contengono Il tempo dell’evento nei giorni (codificato dal crash) e le informazioni sul se l’evento si riferisce a una domanda di shock o censura. Se schiantato è uguale a true, l’applicazione si è schiantata. Altrimenti, l’applicazione è stata chiusa con grazia (in altre parole, è stata censurata). Inoltre, un campo ID utente segue l’esempio dell’applicazione.

Lo stimatore km è implementato nel metodo della proprietàKaplanmeier. Ciò divide i dati che non si sovrappongono a intervalli di tempo diversi in base ai periodi di tempo agli eventi (nel mio caso è un crollo di applicazione). Prendere traccia dei conti in ogni intervallo.

È importante tenere conto dell’account di quante applicazioni sono ancora attive e funzionanti sono eseguite poco prima dell’evento (questo è dovuto alla formulazione matematica del conteggio i processi). Così nel primo intervallo nel mio esempio, che copre da 0 a 5 giorni, 9 dei 10 casi sono saliti e funzionanti appena prima del 5 ° giorno (un’istanza è finita in esecuzione a tempo 1).Nell’intervallo fino al giorno 5, ho avuto un incidente (definendo l’intervallo) e 2 casi finiti (giorni 1 e 5). Vedere la Figura 4.

Intervalli giornalieri creati dall'ASTATOR KM
Figura 4 Intervalli di giorno creati dall’attrazione km

Stima km per la funzione di sopravvivenza è quindi il prodotto su tutti gli intervalli di sopravvivenza diversi derivati dai conti nelle partizioni:

1 – (schiantato in intervallo) / (quelli a rischio poco prima della fine dell’intervallo)

Il metodo della proprietàkapalanmeier restituisce un oggetto di classe di sopravvivelcurve. Questo rappresenta la funzione di sopravvivenza stimata. L’uscita è una funzione passo. Ogni passaggio è il valore della funzione di sopravvivenza in un intervallo corrispondente (come stimato dall’atmosfera km). La figura 5 include parte della produzione del programma di dimostrazione dell’analisi di sopravvivenza corrispondente all’oggetto di Survivalcurve (per entrambe le applicazioni X e Y).

Uscita demo di analisi di sopravvivenza per stime per applicazioni x e e
figura 5 Uscita demo di analisi di sopravvivenza per le stime km per applicazioni di XE e

La figura 6 include un grafico della funzione di sopravvivenza stimata per l’applicazione mobile X. nella trama, Le brevi linee verticali in ogni fase denotano diverse apparizioni dell’incidente evento durante l’intervallo corrispondente al passo.

stima di mq della funzione di sopravvivenza per l'applicazione mobile x
Figura 6 km Stima della funzione di sopravvivenza per l’applicazione mobile X

Quindi è possibile utilizzare la stima per inferire il tempo medio di sopravvivenza, o il tempo con cui la metà dell’istanza sarà vivo. Questo deve verificarsi ad un certo punto nel tempo tra i giorni 12 (dove la stima della probabilità di sopravvivenza è 0,711 > 0.5) e 18 (dove la probabilità di sopravvivenza è 0,474 < 0.5). Ci sono alcuni approcci nella letteratura SA che descrive come calcolare esattamente questo importo, perché di solito cade tra due passaggi.

È possibile definire il tempo medio di sopravvivenza come il tempo minimo di sopravvivenza in modo che la funzione di sopravvivenza sia Meno di 0,5, che per l’applicazione mobile X si traduce in un tempo medio di sopravvivenza di 18 giorni. L’interpretazione di questo importo è durante il XVIII, metà dei casi mobili applicazione x caduta e la media rimangono in piedi e funzionanti. Questa applicazione calcola il tempo di sopravvivenza medio nel metodo GetMediansUnoVivalTime.

Un’altra domanda che puoi rispondere utilizzando le stime semori è se c’è una differenza di sopravvivenza delle diverse applicazioni di due (o più). Un modo per affrontare questo problema è quello di rappresentare visivamente le stime km corrispondenti a ciascuna applicazione. Questo tipo di fotogramma è descritto nella figura 7 e confronta le funzioni di sopravvivenza stimata di x E e.

stime mm per applicazioni mobili x e e
figura 7 km stime per applicazioni mobili X E e

La curva verde rappresenta la funzione di applicazione x sopravvivenza e la curva blu rappresenta l’applicazione e la funzione di sopravvivenza.

della trama, puoi vedere che la funzione di sopravvivenza dell’applicazione X dirige l’applicazione e la funzione di sopravvivenza. Pertanto, può essere dedotto ha una migliore sopravvivenza e applicazione di applicazione X e, pertanto, è più robusto.

Mentre la visualizzazione delle funzioni di sopravvivenza può aiutare a determinare la sopravvivenza delle differenze, alcuni casi non sono così chiari. Fortunatamente, c’è un approccio statistico per rilevare le differenze in modo formale e rigoroso, chiamato Test di rango di registro. Questo è un algoritmo che dimostra se c’è una differenza significativa tra le distribuzioni di sopravvivenza di due (o più) in modo non parametrico. Letteratura SA includono una discussione dettagliata su questa e altre librerie statistiche SA includono implementazioni del test di rango di registro.

Va notato che è necessario un altro algoritmo popolare per calcolare la funzione di sopravvivenza non il modo parametrico chiamato Nelson Stimator – ALIN (NA). NA stima la funzione di rischio accumulato dai dati di sopravvivenza. Quindi può ricavare la funzione di sopravvivenza di questa stima utilizzando una formula matematica che l’ha unita alla funzione di rischio accumulato. Puoi trovare maggiori dettagli su questo stimatore in SA Letteratura.

In sintesi

Ho introdotto la terminologia e i concetti di base del ramo statistico dell’analisi di sopravvivenza. Gli ho mostrato come implementare lo stimatore non parametrico Kaplan-Meier e avevo applicato ad un esempio confrontando la robustezza delle applicazioni mobili.Questo stimatore può aiutare a determinare se c’è una differenza di sopravvivenza delle due applicazioni. Ho anche menzionato un rigoroso test statistico per trovare le differenze, chiamato Test di rigaggio. Un altro importo ottenuto utilizzando lo stimatore KM è il tempo medio di sopravvivenza, che punta anche alle differenze di sopravvivenza tra applicazioni X e Y.

Infine, ho menzionato lo stimatore di Nelson-Aalen come metodo alternativo non parametrico per la stima della funzione di sopravvivenza. Anche se direttamente non stimare la funzione di sopravvivenza come lo stimatore km, è piuttosto stimato la funzione di rischio accumulato. Quindi può ricavare la funzione di sopravvivenza della funzione di rischio accumulato.

Questo solo ragno la superficie del ricco Campo de SA. Le applicazioni coprono le aree della medicina all’ingegneria e i cui metodi e algoritmi sono implementati in molti pacchetti statistici. Con la proliferazione di applicazioni mobili e software come implementazioni aziendali di servizio, fornisco metodi SA può svolgere un ruolo nella supervisione e il miglioramento della qualità di quelle distribuzioni.

Zvi Topol funziona come uno scienziato senior in Analisi di marketing a New York. Progetta e applica algoritmi di ottimizzazione non lineare in scala variabile e metodi statistici per migliorare la pianificazione del marketing per le grandi aziende Fortune 500.

Grazie al prossimo esperto tecnico per il tuo aiuto nel rivedere questo articolo: Dr. James McCaffrey (Microsoft Research )

Leave a Comment

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *