Analyse de survie

  • 08/13/2015
  • Temps de lecture: 12 minutes

Cet article vient d’un Moteur de traduction automatique.

C #

ZVI Topol

Analyse de survie (SA) est une discipline de statistiques qui se concentre sur l’estimation temporelle des événements. En règle générale, il appliquerait des méthodes d’analyse de survie dans des études cliniques pour déterminer l’efficacité de certains médicaments (temps de mort des patients), la fiabilité des systèmes logiciels (heure de défaut) et l’analyse de crédit (heure de prêt par défaut).

pharmaceutique Des études cliniques qui impliquent deux groupes de patients sont un excellent exemple de la manière dont cela peut fonctionner. Le groupe témoin est membre administré par un placebo. Les membres du groupe de test reçoivent la médecine expérimentale contre la maladie. Les méthodes d’analyse de survie sont appliquées pour déterminer s’il existe une différence statistiquement significative dans la survie des patients entre les deux groupes. L’événement « est l’heure » dans ce cas est le moment du début de l’étude aux patients meurent.

Pour l’exposer à utiliser SA, je couvrirai des concepts de base avec une implémentation de C # d’un Méthode d’estimation couramment utilisée appelée estimateur Kaplan-Meier. Vous utiliserez un vrai exemple d’estimation de la probabilité de survie des applications mobiles.

Imagine Une société de développement logiciel produit deux applications mobiles indépendantes intitulé X et Y. Chacune d’entre elles est développée par des équipes distinctes. L’entreprise est impatiente d’apprendre à quel point les applications mobiles sont robustes et de déterminer si une application est significativement moins robuste et nécessite plus d’efforts pour améliorer votre fiabilité.

à tout moment, il peut y avoir de nombreuses instances de x e et en direct et en cours d’exécution sur des appareils client mobiles. Par conséquent, une application mobile est ce qui est plus intéressant. La plupart des périodes plus longues de l’événement, dans ce cas, indiqueront que l’application est plus robuste ou a une meilleure capacité de survie.

dans le programme de démonstration, vous pouvez d’abord voir les données de survie pour les utilisations mobiles x e et (voir Figure 1). Les données montrent que les deux applications sont dirigées par 10 utilisateurs différents avec des identifications allant de zéro à neuf. Dans mon exemple, une application peut un accident (décrit par l’événement = accident d’application dans la capture d’écran) ou fermé par l’utilisateur (décrit par Event = App Off). La journée est également enregistrée à laquelle l’événement survient.

La démo d'analyse de survie montrant le cycle de vie des applications mobiles
Figure 1 L’analyse démonstration de survie avec Cycle de vie des applications mobiles

Concepts de base de SA

Le concept le plus élémentaire de SA est celui de la fonction de survie. Ceci est généralement désigné par s (t). Si X est une variable aléatoire (une variable dont les valeurs sont des résultats basés sur une opportunité) qui représente le temps de l’événement, alors S (T) = PR (x t) . En d’autres termes, S (t) est la probabilité de survie après le temps t. S (0) est défini comme 1. La fonction de survie est liée à la fonction de distribution d’une vie. Ceci est généralement désigné par f (t) et défini comme f (t) = pr (x

La fonction de risque, un autre concept de base, est égale à AF (t) / s (t) et il est le type d’événement dans le temps t pour les personnes vivantes à temps t.

peut spécifier des fonctions de survie de manière paramétrique, en utilisant une fonction explicite ou une famille de fonctions. Vous pouvez également les déduire pas paramétriques des données existantes, sans avoir un formulaire fermé paramétré. Une spécification semi-paramétrique, qui est un mélange entre les spécifications paramétriques et non paramétriques, est également possible. La distribution exponentielle est une famille de fonctions paramétrées simples et populaires pour décrire les fonctions de survie en raison de ses propriétés mathématiques attrayantes.

par exemple, S (t) = exp (-0.05T) est fonction de la survie d’un Distribution paramterizée exponentielle sur la figure 2. Fonctions de survie de la forme S (T) = exp (-At) (où un paramètre qui contrôle le taux de risque peut décrire cette distribution). La fonction de distribution de la vie utile est donnée par F (T) = 1 – S (T) = 1 – exp (-At).La figure 2 nous aide à visualiser comment les fonctions de survie se comportent dans le temps.

Comment les fonctions de survie se comportent au fil du temps

Figure 2 Comment vous comportez-vous des fonctions survivre Dans le temps

Utilisation d’un certain modèle paramétrique, vous pouvez utiliser des données réelles pour estimer les paramètres du modèle. Dans le cas de la distribution exponentielle, c’est le paramètre d’un. Une façon de le faire consiste à utiliser des méthodes d’estimation de réparation maximales (MLE), mais c’est un autre sujet complètement.

Nous nous concentrons sur l’application d’un paramètre non paramétrique pour la fonction de survie. C’est-à-dire qu’il n’établit pas de modèle prédéfini pour la fonction de survie et estimez les paramètres du modèle. Au lieu de cela, cela peut dériver la fonction de survie directement avec les données observées. Avant de décrire comment faire cela, je dois expliquer un autre concept important SA appelé censure.

Censure se produit lorsque certaines observations de l’ensemble de données sont incomplètes. À un moment donné, vous avez perdu la notion de l’objet observé. Dans mon exemple, cela signifierait qu’une application mobile a mis fin à son exécution sans tomber (lancement d’une exception fatale). L’application a été fermée avec la grâce par l’utilisateur. Bien qu’il puisse y avoir d’autres raisons, une application s’est terminée sans chute, je vais décoller qu’une application est bloquée ou fermée par l’utilisateur.

Il existe deux saveurs principales de censure, de censure droite et droite. La censure de bien se produit lorsque l’heure de début est connue, mais l’heure de l’événement est manquante. La censure gauche se produit lorsque l’heure de l’événement est présente, mais l’heure de départ est manquante. La censure de bien se passe dans mon exemple.

à l’aide de l’estimateur de Kaplan-Meier pour estimer la fonction de survie

L’estimateur de Kaplan-Meier (km) est un algorithme non paramétrique qui estime le fonction de survie. Dérivant que l’estimateur KM implique l’utilisation de mathématiques avancées, y compris la théorie de Martingala et comptant les processus et est hors de portée de cet article. Mise en œuvre de l’estimateur km, cependant, il est simple et est basé sur des comptes.

Considérez la Semeure de la survie d’applications informatiques mobiles. L’estimateur KM doit être suivi avec trois charges différentes:

  1. Combien d’instances d’application mobile x fonctionnent toujours. Ceci est représenté par la variable de risque dans ma demande.
  2. Le nombre d’instances qui s’est écrasé. Ceci est suivi dans la variable s’est écrasé.
  3. Le nombre de cas qui ont terminé la mise en œuvre avec la grâce. Celles-ci sont comptées à l’aide de la variable censurée.

Les lignes de code suivantes (pour l’application mobile x) utilisent la classe CrashmetaData pour coder les données de survie représentées à la figure 3:

var appX = new CrashMetaData {new CrashMetaData{UserID = 0, CrashTime = 1, Crashed = false}, new CrashMetaData{UserID = 1, CrashTime = 5, Crashed = true}, new CrashMetaData{UserID = 2, CrashTime = 5, Crashed = false}, new CrashMetaData{UserID = 3, CrashTime = 8, Crashed = false}, new CrashMetaData{UserID = 4, CrashTime = 10, Crashed = false}, new CrashMetaData{UserID = 5, CrashTime = 12, Crashed = true}, new CrashMetaData{UserID = 6, CrashTime = 15, Crashed = false}, new CrashMetaData{UserID = 7, CrashTime = 18, Crashed = true}, new CrashMetaData{UserID = 8, CrashTime = 21, Crashed = false}, new CrashMetaData{UserID = 9, CrashTime = 22, Crashed = true}};

Figure 3 Données de survie de l’application mobile x

« AE84F4753E »>

x

ID utilisateur jours écrasé censuré
0 1
1 5 x
2 5 x
3 8
4
5 12
6 15 x
7 18
8
9 22 x

Les données de survie qu’ils contiennent L’heure de l’événement des jours (codées par l’accident) et des informations sur la question de savoir si l’événement fait référence à une demande de choc ou de censure. S’il est écrasé est égal à vrai, l’application s’est écrasée. Sinon, l’application s’est clôturée gracieusement (en d’autres termes, a été censurée). De plus, un champ ID utilisateur suit l’exemple de l’application.

L’estimateur KM est implémenté dans la méthode de l’immeublekaplanmeier. Cela divise les données qui ne chevauchent pas différents intervalles de temps basés sur des périodes de temps aux événements (dans mon cas, un effondrement de l’application). Prendre une trace des comptes dans chaque intervalle.

Il est important de prendre en compte le compte de combien d’applications est toujours opérationnelle juste avant l’événement (cela est dû à la formulation mathématique du comptage de comptage les processus). Ainsi, dans le premier intervalle dans mon exemple, qui couvre 0 à 5 jours, 9 sur 10 cas ont augmenté et fonctionnant juste avant le jour 5 (une instance se termina à l’heure).Dans l’intervalle et y compris le jour 5, j’ai eu un accident (définissant l’intervalle) et 2 cas finis (jours 1 et 5). Voir la figure 4.

Intervalles de jour créés par KM ESTORNAL
Figure 4 jours Créé par l’estimateur KM

Estimation KM pour la fonction de survie est alors le produit sur tous les différents intervalles de survie dérivés des comptes dans les partitions:

1 – (intervalle d’intervalle) / (celles à risque juste avant la fin de l’intervalle)

La méthode de l’immobilierSkapalanmeier renvoie un objet de classe de survieCurve. Cela représente la fonction de survie estimée. La sortie est une fonction étape. Chaque étape est la valeur de la fonction de survie dans un intervalle correspondant (comme estimée par l’estimateur KM). La figure 5 inclut une partie de la production de programmes de démonstration d’analyse de survie correspondant à l’objet de survieCurve (pour les applications x et y).

analyse de survie Sortie de démonstration pour les estimations de km x et et
Figure 5 Analyse de survie Sortie de démonstration pour estimé KM pour les applications de XE et

Figure 6 comprend un graphique de la fonction de survie estimée à une application mobile X. dans l’intrigue, Des lignes verticales courtes dans chaque étape indiquent plusieurs apparitions de l’accident d’événement pendant la plage correspondant à l’étape.

km estimation de la fonction de survie pour une application mobile x
Figure 6 km Estimation de la fonction de survie pour une application mobile x

Ensuite, vous pouvez utiliser l’estimation pour déduire le temps de survie moyen, ou l’heure à laquelle la moitié de l’instance sera vivante. Cela doit se produire à un moment donné au fil du temps entre les jours 12 (où l’estimation de la probabilité de survie est de 0,711 > 0.5) et 18 (où la probabilité de survie est 0.474 < 0.5). Il existe certaines approches dans la littérature SA qui décrit comment calculer exactement ce montant, car elle tombe généralement entre deux étapes.

Vous pouvez définir la durée de survie moyenne comme la durée de survie minimale afin que la fonction de survie minimale soit possible. Moins de 0,5, qui pour une application mobile X se traduit par une durée de survie moyenne de 18 jours. L’interprétation de ce montant est au cours de la 18e, la moitié de l’application des cas mobiles X et la moyenne restent et fonctionnent. Cette application calcule la durée de survie moyenne dans la méthode GetMédianSurvivalTime.

Une autre question que vous pouvez répondre à l’aide des estimations de SEMO est s’il y a une différence de survie des différentes applications de deux (ou plus). Un moyen de résoudre ce problème est de représenter visuellement les estimations de km correspondant à chaque application. Ce type de cadre est décrit à la figure 7 et compare les fonctions de survie estimées de x e et.

mm Estimation des applications mobiles x et
7 km Estimation des applications mobiles x E et

La courbe verte représente la fonction de l’application x Survie et la courbe bleue représente la fonction d’application et de survie.

de la parcelle, vous pouvez voir que la fonction de survie de l’application x têtes la fonction d’application et de survie. Par conséquent, il peut être déduit a une meilleure survie et une meilleure application X et, par conséquent, est plus robuste.

Bien que la visualisation des fonctions de survie puisse aider à déterminer la survie des différences, certains cas ne sont pas si clairs. Heureusement, il existe une approche statistique pour détecter les différences de manière formelle et rigoureuse, appelée test de classement de journaux. Il s’agit d’un algorithme qu’il prouve s’il existe une différence significative entre les distributions de survie de deux (ou plus) de manière non paramétrique. La littérature SA inclut une discussion détaillée sur ce et plus de bibliothèques statistiques SA incluent des implémentations du test de rang de journal.

Il convient de noter qu’il existe un autre algorithme populaire pour calculer la fonction de survie non paramétrique appelé l’estimateur Nelson – Alin (na). NA estime que la fonction de risque accumulée des données de survie. Ensuite, il peut dériver la fonction de survie de cette estimation à l’aide d’une formule mathématique qui l’unit à la fonction de risque accumulée. Vous pouvez trouver plus de détails sur cet estimateur dans la littérature SA.

en résumé

J’ai introduit la terminologie et les concepts de base de la Direction statistique de l’analyse de survie. Je lui ai montré comment implémenter l’estimateur Kaplan-Meier non paramétrique et s’était appliqué à un exemple en comparant la robustesse des applications mobiles.Cet estimateur peut aider à déterminer s’il existe une différence de survie des deux applications. J’ai également mentionné un test statistique rigoureux pour trouver des différences appelées test de classement de journaux. Une autre quantité que j’ai obtenue à l’aide de l’estimateur KM est la durée de survie moyenne, qui pointe également des différences de survie entre les applications X et Y.

enfin, j’ai mentionné l’estimateur Nelson-Aalen comme une méthode alternative non paramétrique pour l’estimation de la fonction de survie. Bien que directement ne pas estimer la fonction de survie telle que l’estimateur de KM, il est tout à fait estimé à la fonction de risque accumulé. Ensuite, cela peut dériver la fonction de survie de la fonction de risque accumulée.

Ce seul araignée la surface du riche Campo de SA. Les applications couvrent les domaines de la médecine à l’ingénierie et dont les méthodes et les algorithmes sont mis en œuvre dans de nombreux packages statistiques. Avec la prolifération des applications mobiles et des logiciels en tant que mise en œuvre des entreprises du service, je fournis des méthodes SA peut jouer un rôle dans la supervision et l’amélioration de la qualité de ces déploiements.

ZVI Topol fonctionne comme un scientifique principal dans Analyse marketing à New York. Conçoit et applique des algorithmes d’optimisation non linéaire à grande échelle et des méthodes statistiques pour améliorer la planification du marketing des grandes entreprises de fortune 500.

Grâce au prochain expert technique pour votre aide pour examiner cet article: Dr. James McCaffrey (Microsoft Recherche )

Leave a Comment

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *