miRNA-BASED PROGNOSTIC PREDICTOR FOR OVARIAN TUMORS USING MACHINE LEARNING

Favorite this paper
How to cite this paper?
Details
  • Presentation type: Especialização/Aperfeiçoamento
  • Track: Bioinformatics
  • Keywords: Machine Learning; miRNA; Prognosis;
  • 1 Bioinformatics and Computational Biology Laboratory, Research Centre / Instituto Nacional de Câncer – INCA, Rio de Janeiro, RJ, Brazil / Instituto Nacional de Câncer
  • 2 Faculdade de Saúde Pública / Universidade de São Paulo

Please log in to watch the video

Log in
Abstract

INTRODUCTION AND OBJECTIVES: Ovarian cancer is one of the neoplasms with the highest incidence among women worldwide, with significantly high mortality. The vast majority of patients are diagnosed in advanced stages of the disease since early stages present unspecific symptoms and inaccurate diagnoses. Currently, there are not many biomarkers available clinically to help diagnose or predict its prognosis because of contradicting diagnostic accuracy. In this sense, the application of multi-omic integration approaches combined with machine learning techniques is promising, not only to better understand cancer prognosis, but to identify effective prognostic biomarkers related to ovarian cancer. Therefore, our goal is to build a predictor of prognosis for patients diagnosed with ovarian cancer, as well as to identify new biomarkers. MATERIAL AND METHODS: Prognostic groups were defined based on the number of years of overall survival and their vital status: Patients less than 3 years of survival and with Dead status were allocated as the group with poor prognosis and patients with ≥ 3 years were considered as a good prognosis. Based on the miRNA expression data from samples of patients diagnosed with ovarian cancer obtained from the database of The Cancer Genome Atlas (TCGA) project, we applied variable selection methods (FCBF, Cox Univariate Regression, and ElasticNet) to identify relevant predictors. Subsequently, data were divided into training (70%) and test (30%) data sets. Nine machine learning algorithms (SVM Radial (Support Vector Machines), XGBoost (Extreme Gradient Boosting Machine), GBM (Gradient Boosting Machine), SGBM (Stochastic Gradient Boosting Machine), RF (Random Forest), CRF (Conditional Random Forest), MLP (multilayer perceptron), GLMNET (Generalized Linear Models) and RRF (Ranger Random Forest)) were trained to classify patients into either two groups with good or poor prognosis. RESULTS AND CONCLUSION: After applying the variable selection methods, 78 miRNAs were selected. Regarding the performance of the models on the test data set, the MLP, an artificial neural network model, presented the best metrics: 0.684 of AUC (Area Under the Curve); 0.740 specificity; 0.612 sensitivity; 0.603 of F1-Score and with an accuracy of around 70%. The miRNA-483, which was observed differentially expressed in more advanced stages of ovarian cancer in other studies, was considered to be an excellent predictor by the MLP model to classify patients in good or poor prognosis.

Questions (2 topics)

Share your ideas or questions with the authors!

Did you know that the greatest stimulus in scientific and cultural development is curiosity? Leave your questions or suggestions to the author!

Sign in to interact

Have a question or suggestion? Share your feedback with the authors!

Author

Cristiane Esteves

Olá, André Luiz! Muito obrigada pelo seu comentário e ótimas perguntas! Vou respondendo em tópicos.

- O câncer de ovário é uma doença muito heterogênea, principalmente o tipo epitelial que compreende diferentes subtipos histológicos e moleculares e, além disso, esse subtipos são caracterizados por diversas alterações genômicas e epigenéticas o que pode impactar nas vias de sinalização oncogênicas e, consequentemente, nas respostas terapêuticas. Muitos miRNAs têm sido associados a atividades oncogênicas ou de supressão tumoral. Dessa forma, como descrito na literatura, os microRNAs com perfis de expressão alterados no câncer de ovário, vêm sendo associados a processos de transição epitélio-mesenquimal, angiogênese e de metástase. Além disso,  podemos identificar miRNAs circulantes, os quais podem ser facilmente detectados no plasma quando observado as alterações nos seus níveis de expressão. No mais, estes podem ser identificados exclusivamente em tecidos tumorais. Dessa forma, esses foram um dos grandes motivos para começarmos as análises pelos dados de miRNA.

- Como mencionei, não há muitos biomarcadores disponíveis clinicamente principalmente relacionado ao prognóstico. Atualmente, é mais comumente usado o marcador sérico CA-125 para a detecção do câncer de ovário.Porém sua sensibilidade é muito baixa (40% aproximadamente),  podendo ser detectada também em doenças benignas como a endometriose quando se observa seu alto nível de expressão, o que pode elevar a porcentagem de falsos positivos. 

Sobre o diferencial do nosso trabalho,  apesar do grande número de publicações tentando identificar novos biomarcadores, muitos desses estudos só observam as alterações de maneira segmentada e não de forma abrangente. Sabemos que cada pessoa responde à terapia de maneiras diferentes, sendo que um dos fatores preponderantes para que isso ocorra são as alterações genéticas ou epigenéticas em tumores de diferentes pacientes. Dessa forma, o nosso grande e principal objetivo é desenvolver um preditor de prognóstico multi-ômico , utilizando não só dados transcriptômicos mas também dados genômicos, epigenômicos e de mutações e, uma das abordagens mais eficazes para integração desses dados (uma das nossas etapas futuras), com certeza são as técnicas de machine learning, no qual conseguem lidar com um grande volume de dados e podem ser eficientes para identificar novos biomarcadores de prognóstico a partir do desenvolvimento de modelos de classificação. Acho que esse é o grande diferencial, ter um olhar mais geral sobre o câncer de ovário já que é uma doença bastante heterogênea.

Recentemente, identificamos alguns potenciais alvos do miRNA-483 sim. E2F8 e TPD52, por exemplo. E2F8 é um fator de transcrição que vêm sendo associado à proliferação celular e ao processo de transição epitelio-mesenquimal no câncer de ovário e o TPD52 é uma proteína tumoral que já foi encontrada superexpressa no tecido tumoral de ovário.

Sobre a expressão do miRNA-483 mediante a alterações hormonais ou ao uso de medicação, ainda não analisamos. Porém, já foi descrito que alterações no perfil de expressão desse microRNA, modula negativamente o gene FAM171B no câncer colorretal, promovendo a resistência à oxaliplatina. Dessa forma, podemos observar o perfil de expressão do miRNA-483 entre os grupos sensíveis e resistentes a platina entre as pacientes diagnosticadas com câncer de ovário futuramente.

Espero ter esclarecido suas dúvidas. Caso não tenha ficado claro alguma questão, pode falar! :)

Author

Cristiane Esteves

Olá, Andrea! Muito obrigada pelo comentário e excelente questionamento! Eu acho que uma das principais limitações para aplicar essas metodologias na área clínica é a falta de diretrizes de aprovação, como o FDA, ou guidelines em torno do desenvolvimento de algoritmos de predição, seja pra prognóstico, diagnóstico ou monitoramento do tratamento. Muito se discute também sobre a transparência desses algoritmos, por apresentarem matemáticas complexas, o que poderia dificultar o entendimento da predição e aceitação da implementação desses tipos de metodologia mas acredito que essas questões poderiam ser solucionadas por abordagens de inteligência Artificial explicável, gerando modelos mais transparentes e fáceis de interpretar, consequentemente gerando uma aceitação maior na clínica médica. Ainda sobre essa questão, o grande desafio é alcançar a confiança de médicos sobre o uso desses algoritmos na tomada de decisão na prática clínica. Para isso, é importante estabelecer essa troca entre os médicos e os profissionais envolvidos no desenvolvimentos desses modelos de predição explicitando que esse tipo de abordagem é para o auxílio a tomada de decisão no qual irá proporcionar um melhor manejo clínico e uma estimativa mais acurada do prognóstico acerca do tratamento estabelecido para os pacientes. Além disso, é importante trabalhar e treinar modelos com conjuntos de dados de qualidade para que se tenha resultados mais precisos em relação a predição de prognóstico ou diagnóstico. Espero que eu tenha esclarecido sobre essa questões mas certamente é um assunto que gera muitos pontos de discussão, principalmente modelos de predição para suporte de tomada de decisão. Mais uma vez obrigada pelo interesse!