A l’époque de la création du CIRC, en 1965, on manquait de compétences en conception et en analyse statistique pour conduire des études expérimentales, cliniques et épidémiologiques sur le cancer, de même que sur les maladies en général. Il était toutefois difficile de répondre à ce besoin en raison du manque de personnes qualifiées, pénurie d’autant plus grave qu’il fallait aussi développer des méthodes appropriées à l’étude des maladies non transmissibles et maîtriser le potentiel informatique récemment introduit et encore peu exploité.
A cette fin, le CIRC a très tôt initié des études de méthodologie statistique dans le cadre de ses différents domaines de recherche. Comme dans d’autres instituts, la situation au CIRC en matière d’informatique reflétait celle de la fin des années 1960. Jacques Estève, alors chef du service des technologies de l’information du Centre, se souvient : « j’ai introduit le premier système de gestion des données. Les premières années ont été assez difficiles. Les épidémiologistes n’étaient pas satisfaits car ils avaient du mal à récupérer leurs données une fois qu’ils les avaient entrées dans l’ordinateur : y accéder relevait d’une sorte de mystère. Quant à l’installation informatique elle-même, elle occupait une grande salle, pour une puissance de calcul bien inférieure à celle du plus petit PC portable d’aujourd’hui. Mais en quelques années, la performance du système s’est améliorée. » Ce n’était que la première d’une longue série de transformations qui allaient permettre au système informatique du CIRC de rester à la pointe d’une technologique en constante évolution.
Etudiants travaillant sur des machines à calculer mécaniques, utilisées à la fin des années 1960 pour l’analyse statistique des séries de données épidémiologiques. Outre les quatre opérations arithmétiques, ces machines pouvaient calculer la somme d’une séquence de nombres, ainsi que la somme des produits de deux séquences de nombres.
Les recherches épidémiologiques sur l’étiologie du cancer ont été – et restent – au cœur des activités du CIRC, avec notamment le développement de méthodes statistiques qui ont débouché sur d’importantes publications, dont certaines servent encore de référence aujourd’hui. Il s’agit notamment de l’ouvrage Statistical Methods in Cancer Research, par Norman Breslow et Nick Day, publiés en deux tomes : The Analysis of Case–Control Studies (1980) et The Design and Analysis of Cohort Studies (1987). Disponible sur le site internet du CIRC, cet ouvrage est, à juste titre, reconnu comme un classique dans ce domaine (voir « Recherche pionnière en statistiques : Norman Breslow et Nick Day »).
Ce livre a connu un véritable succès pour plusieurs raisons. Tout d’abord, il est paru au bon moment et si son titre fait référence à la recherche sur le cancer en général, il traite essentiellement des méthodes statistiques appliquées à l’épidémiologie du cancer (même si certaines d’entre elles, telle que l’analyse de la survie, peuvent également être appliquées aux essais chez l’animal de laboratoire). Depuis les années 1950, le domaine de l’épidémiologie du cancer avait certes bénéficié de nombreuses innovations méthodologiques permettant de résoudre des problèmes spécifiques d’analyse des données, mais il n’était pas facile de faire le lien entre les différentes méthodes. De plus, leurs avantages et limites respectives en termes d’applicabilité étaient mal définies. Norman Breslow et Nick Day vont alors réaliser un examen critique de ces méthodes, décrites de façon disséminée dans des revues de statistique et d’épidémiologie, et les rassembler dans un cadre cohérent. Une autre raison du succès de cet ouvrage tient à l’exploitation par les auteurs des résultats originaux de leur propre recherche méthodologique. Par ailleurs, tout en étant d’une grande rigueur théorique et technique, son contenu est accessible aux lecteurs ne possédant pas une formation approfondie en mathématiques. Enfin, et c’est sans doute le point le plus important, les auteurs ont su illustrer les analyses statistiques, étape par étape, en les appliquant à de véritables données tirées d’études épidémiologiques, approche peu courante dans les manuels méthodologiques publiés à l’époque et même par la suite. Chaque méthode statistique est ainsi présentée en lien direct avec l’objet d’une étude épidémiologique, telle que l’étude des relations entre la consommation d’alcool et le cancer de l’œsophage, entre les hormones et le cancer de l’endomètre, ou entre les rayonnements ionisants et le cancer du poumon.
Taux de mortalité par cancer de l’œsophage en Bretagne, par canton (décès pour 100 000 personnes/an, entre 1958 et 1966). Ces taux sont nettement plus élevés que les taux moyens relevés dans le reste de la France. Au sein même de la région, on distingue de fortes variations entre les cantons. Des études épidémiologiques ont été entreprises pour vérifier l’hypothèse d’une relation avec les différents niveaux de consommation d’alcool.
D’après les conclusions d’une enquête de 2014 sur le taux de citation dans la littérature biomédicale des ouvrages consacrés aux méthodes statistiques et épidémiologiques, celui de Breslow et Day est cité 100 à 200 fois par an, dans le cadre de travaux de recherche ou à des fins d’enseignement (voir « Etudes cas–témoins »). Le test Breslow–Day, présenté pour la première fois dans cet ouvrage, est très souvent cité dans des publications scientifiques en qualité de test statistique permettant de déterminer si le risque (par exemple, l’incidence du cancer du poumon chez les fumeurs par rapport aux non-fumeurs) est similaire dans différents sous-groupes de population (par exemple, chez les hommes et chez les femmes).
L’ouvrage de Breslow et Day traite des méthodes d’analyse de l’incidence des cancers au sein de cohortes d’individus spécialement constituées pour étudier les causes de la maladie. Toutefois, on peut aussi examiner l’incidence ou la mortalité associée au cancer dans des populations de régions géographiques bien définies, ou bien analyser les décès ou les récidives associés au cancer dans un groupe de patients. Les méthodes statistiques appliquées à ces deux dernières situations ont fait l’objet d’une publication du CIRC en 1994, dont Jacques Estève est co-rédacteur, Statistical Methods in Cancer Research: Descriptive Epidemiology. Ce manuel détaille les méthodes d’analyse des données collectées par les registres du cancer, pour étudier notamment l’évolution chronologique et les variations géographiques des taux d’incidence, ainsi que leurs corrélations avec différents facteurs tels que le revenu, la pollution de l’air, la consommation d’alcool et l’alimentation. Ce manuel traite aussi d’un sujet essentiel pour évaluer l’efficacité des traitements anticancéreux : l’analyse de la survie des patients.
L’analyse de la survie est également un aspect fondamental des essais chez l’animal de laboratoire visant à déterminer le potentiel cancérogène d’une substance. A cet égard, le supplément 2 des Monographies du CIRC sur l’Evaluation des risques cancérogènes pour l’homme, publié en 1980, comporte une annexe d’une centaine de pages consacrée aux méthodes statistiques. Rédigée conjointement par des statisticiens du CIRC et des collègues extérieurs, cette annexe présente très clairement la façon dont les résultats des essais de cancérogénicité chez l’animal de laboratoire doivent être analysés (voir « Analyse des essais de cancérogénicité chez l’animal »). Un complément important consacré aux modèles statistiques théoriques d’analyse a été apporté en 1987 avec la publication du CIRC Statistical Methods in Cancer Research: The Design and Analysis of Long-Term Animal Experiments, dont Jürgen Wahrendorf a été co-auteur. Les points développés dans ces ouvrages illustrent une fois de plus l’importance des contributions apportées par le CIRC à l’analyse des données du cancer et de façon plus générale aux essais de toxicité à long terme.
L’analyse fiable des données ne dépend pas seulement de la méthode statistique utilisée, elle dépend aussi du mode de recueil des données. Par conséquent, le protocole d’étude est tout aussi important que l’approche analytique. L’Etude d’intervention contre l’hépatite en Gambie, un des grands projets du CIRC, en est un parfait exemple. En effet, cette étude qui vise à déterminer l’étiologie du cancer du foie et à tester l’efficacité préventive du vaccin contre l’hépatite B (voir le chapitre « Virus et vaccins »), n’est pas seulement importante du point de vue méthodologique, elle l’est aussi de par son protocole novateur.
Ce projet a débuté au milieu des années 1980, dans des circonstances un peu particulières. Un vaccin reconnu efficace contre le virus de l’hépatite B (VHB) venait d’être commercialisé et il s’agissait de savoir si la prévention de l’infection par ce virus (c’est-à-dire la vaccination des nouveau-nés pour éviter qu’ils deviennent porteurs du VHB) pourrait prévenir la survenue ultérieure d’un hépatocarcinome primaire. Il semblait initialement que la seule façon de répondre à cette question d’une façon acceptable au plan éthique, consistait à vacciner tous les nouveau-nés d’une année donnée et à comparer (plusieurs décennies après) l’incidence de cancer du foie entre les individus vaccinés et ceux non vaccinés, nés avant le démarrage du programme de vaccination. On parle alors de comparaison « pré–post ». Une telle approche peut cependant être biaisée, car beaucoup d’autres facteurs variables dans le temps et n’ayant rien à voir avec le vaccin peuvent modifier l’incidence de la maladie et la détection des cas.
Sur le plan éthique, ce protocole d’étude ne posait aucun problème, comme le confirma le Comité d’éthique du CIRC qui venait tout juste d’être constitué (voir « Comité d’éthique du CIRC »). Mais il était scientifiquement discutable, ce qui représente un sérieux handicap compte tenu de l’énorme investissement de ressources qu’exigeait un tel projet prévu sur 40 ans. Mais des problèmes logistiques liés à la distribution du vaccin allaient finalement imposer un autre protocole d’étude, plus solide. En effet, il était impossible de vacciner en une seule année tous les nouveau-nés de Gambie – plus de 60 000, disséminés dans des zones rurales. L’unique procédure envisageable consistait donc à introduire le vaccin progressivement sur plusieurs années.
La principale innovation méthodologique tient à la sélection aléatoire – plutôt que par commodité ou de façon systématique – des nouveau-nés à vacciner chaque année. On a ainsi sélectionné aléatoirement des groupes de nouveau-nés (en fonction des équipes locales de vaccination) plutôt que des nouveau-nés individuels. La première année du programme (1986), on a vacciné environ 25% de tous les nouveau-nés dans les régions couvertes par quatre équipes de vaccination choisies au hasard parmi les 17 que comptait le pays (ces 25% seraient à comparer avec les 75% n’ayant pas été vaccinés). La deuxième année, 50% des nouveau-nés ont été vaccinés. La troisième année, ce pourcentage s’élevait à 75% pour atteindre les 100%, la quatrième année. Ce protocole permet une comparaison non biaisée entre les groupes d’individus choisis aléatoirement pour être ou non vaccinés dans chacune des trois premières années du programme. Ce choix aléatoire était acceptable d’un point de vue éthique, dans la mesure où il était impartial et non discriminatoire.
Ce protocole scientifiquement fondé et conforme à l’éthique fait désormais partie des méthodes standardisées d’essai « par étapes ». Le principe consiste à assigner aléatoirement à une intervention les participants à l’essai, soit en tant qu’individus, soit en tant que groupes d’individus, et ce, séquentiellement, c’est-à-dire sur plusieurs périodes, de sorte qu’à la fin de cette assignation aléatoire, tous les individus ou tous les groupes d’individus aient reçu l’intervention. Ce type de protocole d’étude est utilisé dans le cadre de la recherche sur le cancer, notamment pour évaluer l’impact des programmes de vaccination, de dépistage et d’éducation à la santé.
Le travail de synthèse de Day et Breslow a consolidé un socle méthodologique de référence pour toute une variété de développements scientifiques particuliers. Les activités du CIRC en méthodologie statistique se sont spécialisées au cours des décennies et sont aujourd’hui intégrées à différents types d’études épidémiologiques. Toutefois, certaines conservent une perspective plus générale, illustrée par la récente publication du CIRC intitulée « Penalized loss functions for Bayesian model comparison ». En dépit d’un titre qui peut paraître ésotérique, ce travail aborde en réalité la question fondamentale du choix du meilleur modèle pour l’analyse de séries de données (par exemple, comment formuler au mieux la relation mathématique entre la consommation de divers aliments et l’incidence du cancer du côlon).
L’analyse des données des études épidémiologiques multicentriques constitue un autre thème important. Ce type de recherches portant sur plusieurs populations est en effet l’une des raisons scientifiques qui ont justifié la création du Centre en 1965, car les études multicentriques sur le cancer étaient rares à l’époque. Elles peuvent concerner plusieurs populations d’origine géographique différente, sélectionnées en raison de modes de vie particuliers. Il peut aussi s’agir de plusieurs populations d’ouvriers exposés au même risque potentiel de cancer (par exemple, substance chimique), recrutés dans différentes industries de façon à atteindre le nombre de participants suffisant pour obtenir une sensibilité suffisamment élevée pour pouvoir détecter un risque accru s’il existe. Les études multicentriques permettent également de vérifier la cohérence des résultats obtenus dans différentes populations. Par exemple, si l’on découvre la même relation inverse entre la consommation de fibres végétales et l’incidence du cancer du côlon dans différentes populations, c’est la preuve que les fibres végétales ont un rôle préventif. En science, la réplicabilité des résultats, tout au moins leur cohérence, constitue le critère le plus rigoureux pour juger d’une relation de cause à effet. Les méthodes permettant d’évaluer la cohérence sont simples en théorie, mais complexes en pratique (voir « Combiner les résultats épidémiologiques de différentes populations »). Leur optimisation fait l’objet de recherches biostatistiques constantes au CIRC.