PlanTL-GOB-ES/roberta-base-biomedical-clinical-es · ¿Podría facilitarse un modelo para generar embeddings en español?

Dado el trabajo de recolección y limpieza del corpus, me pregunto si es accesible un modelo de generación de embeddings especializado en biomedicina en español. Un modelo como este sería muy beneficioso para la investigación de usos de PLN en hospitales, biomedicina y ámbitos clínicos.

Quizás es posible obtener este modelo a partir de este mismo, eliminando la parte de decoder para obtener la representación del input en las capas intermedias, pero quería saber si algo así ya está o estará disponible.

Edit: He encontrado embeddings especializados en biomedicina en el GitHub del Plan de Tecnologías del Lenguaje - Gobierno de España, pero ninguna basada en BERT o RoBERTa.