tarekziade
/

checkpoints

Image-Text-to-Text

vision-encoder-decoder

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

Edit model card

checkpoints

This model is a fine-tuned version of mozilla/distilvit on an unknown dataset. It achieves the following results on the evaluation set:

Gen Len: 10.6487
Loss: 0.1739
Meteor: 0.4120
Rouge1: 50.0916
Rouge2: 24.7223
Rougel: 46.9416
Rougelsum: 46.9372

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 5e-05
train_batch_size: 100
eval_batch_size: 100
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 1

Training results

Training Loss	Epoch	Step	Gen Len	Validation Loss	Meteor	Rouge1	Rouge2	Rougel	Rougelsum
No log	0.3891	100	10.4163	0.1764	0.4117	50.0198	24.6331	46.9071	46.8907
No log	0.7782	200	10.6487	0.1739	0.4120	50.0916	24.7223	46.9416	46.9372

Framework versions

Transformers 4.40.2
Pytorch 2.3.0+cu121
Datasets 2.19.1
Tokenizers 0.19.1

Downloads last month: 3

Safetensors

Model size

182M params

Tensor type

F32

·

Inference API

Image-Text-to-Text

Inference API (serverless) does not yet support transformers models for this pipeline type.

Evaluation results

Metadata error: specify a dataset to view leaderboard