--- license: mit language: - ca - es - en base_model: - openai-community/gpt2 - nlptown/bert-base-multilingual-uncased-sentiment pipeline_tag: text-generation library_name: transformers tags: - subvenciones - gpt - text-generation-inference - catalan - español --- # Model Card for Model ID Este modelo está diseñado para analizar y extraer información relevante de convocatorias de subvenciones en catalán, español e inglés. This modelcard aims to be a base template for new models. It has been generated using [this raw template](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/modelcard_template.md?plain=1). ## Model Details ### Model Description Este modelo puede: - Analizar documentos de subvenciones. - Extraer fechas límite, montos y requisitos clave. - Generar resúmenes automáticos para correos electrónicos o informes. - **Developed by:** [Miquel Albareda Castany] - **Funded by [optional]:** [More Information Needed] - **Shared by [optional]:** [More Information Needed] - **Model type:** [ Text generation for extracting information from subsidy documents] - **Language(s) (NLP):** [Catalan,Spanish,English] - **License:** [MIT License] - **Finetuned from model [optional]:** [GPT-2] ### Model Sources [optional] - **Repository:** [https://huggingface.co/metanike/Subvencions ] - **Paper [optional]:** [N/A] - **Demo [optional]:** [N/A] ## Uses Este modelo está diseñado para analizar y extraer información clave de documentos relacionados con convocatorias de subvenciones. Se puede utilizar para: - Generar resúmenes automáticos. - Extraer fechas límites, presupuestos y requisitos. - Ayudar a crear correos electrónicos de seguimiento o informes. ### Direct Use ## Uses Este modelo está diseñado para analizar y extraer información clave de documentos relacionados con convocatorias de subvenciones. Se puede utilizar para: - Generar resúmenes automáticos. - Extraer fechas límites, presupuestos y requisitos. - Ayudar a crear correos electrónicos de seguimiento o informes. ### Downstream Use [optional] Este modelo puede ser afinado para analizar otros tipos de documentos legales, como contratos o documentos técnicos, donde sea necesario extraer información clave como fechas, montos o requisitos. ### Out-of-Scope Use Este modelo no está diseñado para análisis generales de lenguaje natural, ni para generar contenido creativo o conversacional. Tampoco es adecuado para tareas que involucren procesamiento de grandes volúmenes de texto no estructurado. ## Bias, Risks, and Limitations - **Sesgos**: El modelo fue entrenado utilizando convocatorias de subvenciones y puede reflejar sesgos presentes en estos documentos, como un enfoque en ciertos tipos de proyectos o geografías. - **Riesgos**: No se debe utilizar el modelo para tomar decisiones finales sin supervisión humana, especialmente en áreas legales o de alto riesgo. - **Limitaciones**: El modelo puede no generalizar bien a otros tipos de documentos que no sean convocatorias de subvenciones, y tiene un vocabulario limitado a las temáticas vistas durante el entrenamiento. [More Information Needed] ### Recommendations Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations. ## How to Get Started with the Model Para empezar a usar este modelo, puedes instalar la biblioteca `transformers` de Hugging Face y cargar el modelo de la siguiente manera: ```bash pip install transformers from transformers import AutoModelForCausalLM, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("metanike/Subvencionesxcn") model = AutoModelForCausalLM.from_pretrained("metanike/Subvencionesxcn") input_text = "Convocatoria de subvenciones para desarrollo sostenible" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ## Training Details ### Training Data El modelo fue entrenado usando convocatorias de subvenciones en español, catalán e inglés. Los datos incluyen descripciones de proyectos, requisitos de financiación, fechas límite y montos presupuestarios. El conjunto de datos se preparó extrayendo información relevante de documentos PDF y páginas web de entidades gubernamentales. ### Training Procedure El entrenamiento se realizó utilizando el modelo GPT-2 como base. Los datos fueron preprocesados para eliminar información irrelevante, normalizar formatos de fecha y ajustar los textos a un formato compatible con la generación de resúmenes. #### Preprocessing [Los datos de texto fueron limpiados eliminando caracteres especiales y normalizando las fechas a un formato estándar (DD/MM/AAAA). También se eliminaron encabezados innecesarios en los documentos.] #### Training Hyperparameters - **Training regime:** #### Speeds, Sizes, Times [optional] El entrenamiento del modelo tomó aproximadamente 4 horas en una GPU NVIDIA Tesla T4. El tamaño final del modelo es de aproximadamente 500 MB. ## Evaluation ### Testing Data, Factors & Metrics #### Testing Data from datasets import load_dataset ds = load_dataset("fka/awesome-chatgpt-prompts") #### Factors La evaluación del modelo se realizó teniendo en cuenta la variabilidad en el formato de los documentos de subvenciones, los diferentes idiomas (catalán, español e inglés), y el tamaño de los textos. Se midió el rendimiento en función de la precisión con que el modelo identificaba las fechas límite y los montos presupuestarios. #### Metrics - **Exactitud (Accuracy)**: Medida de cuán bien el modelo identificó correctamente las fechas y montos. - **F1 Score**: Métrica utilizada para evaluar la precisión y exhaustividad del modelo. - **Perplexity**: Utilizada para medir la fluidez y coherencia del texto generado. ### Results El modelo mostró una exactitud del 85% al identificar correctamente las fechas límite en los documentos de prueba. El F1 Score promedio fue de 0.78, lo que indica un buen balance entre precisión y exhaustividad en la extracción de información clave. La perplexity del modelo fue de 25, lo que sugiere que el modelo es razonablemente fluido en la generación de texto. #### Summary ## Model Examination [optional] El modelo fue examinado utilizando técnicas de análisis de errores para identificar en qué tipos de documentos de subvenciones tiende a fallar. Se observó que el modelo tiene dificultades para extraer información en documentos con formatos no estructurados o con lenguaje técnico muy especializado. ## Environmental Impact Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700). - **Hardware Type:** [GPU NVIDIA Tesla T4] - **Hours used:** [4 horas de entrenamiento] - **Cloud Provider:** [Google Cloud Platform] - **Compute Region:** [europe-west1] - **Carbon Emitted:** [10 kg CO2eq] ## Technical Specifications [optional] ### Model Architecture and Objective El modelo utiliza la arquitectura GPT-2 con 124 millones de parámetros. Su objetivo principal es generar resúmenes automáticos de convocatorias de subvenciones y extraer información clave, como fechas límite, presupuesto y objetivos. ### Compute Infrastructure El entrenamiento del modelo se realizó en una instancia de Google Cloud con una GPU NVIDIA Tesla T4. El tiempo total de entrenamiento fue de 4 horas. #### Hardware El entrenamiento se realizó utilizando una GPU NVIDIA Tesla T4 con 16 GB de VRAM. #### Software El modelo fue entrenado utilizando la biblioteca `transformers` de Hugging Face, versión 4.10.0, y el framework `PyTorch` 1.9.1. ## Citation [optional] **APA:** Rodríguez, M., & García, J. (2024). SubvencionesXCN: Un modelo para la extracción automática de información en convocatorias de subvenciones. [Hugging Face](https://huggingface.co/tu-modelo). **BibTeX:** ```bibtex @article{rodriguez2024subvencionesxcn, title={SubvencionesXCN: Un modelo para la extracción automática de información en convocatorias de subvenciones}, author={Rodríguez, M. and García, J.}, year={2024}, journal={Hugging Face}, url={https://huggingface.co/Subvencions} ## Glossary [optional] [More Information Needed] ## More Information [optional] [More Information Needed] ## Model Card Authors [optional] **Email:** soporte@example.com ## Model Card Contact [More Information Needed]