SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-mpnet-base-v2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'أطفال | مندالان',
    'Kids | أطفال | مندالان',
    'Kids Footwear | أحذية الأطفال | أحذية الأطفال | Clothes, Shoes & Bags > Shoes > Kids Footwear | ملابس، أحذية وحقائب > أحذية > أحذية الأطفال',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.9686, 0.3404],
#         [0.9686, 1.0000, 0.4502],
#         [0.3404, 0.4502, 1.0000]])

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.7724
cosine_accuracy@5 0.869
cosine_accuracy@10 0.8858
cosine_precision@1 0.7724
cosine_precision@3 0.2833
cosine_precision@5 0.1738
cosine_precision@10 0.0886
cosine_recall@1 0.7724
cosine_recall@3 0.8499
cosine_recall@5 0.869
cosine_recall@10 0.8858
cosine_ndcg@1 0.7724
cosine_ndcg@5 0.8263
cosine_ndcg@10 0.8318
cosine_mrr@1 0.7724
cosine_mrr@5 0.8118
cosine_mrr@10 0.8141
cosine_map@100 0.8152

Training Details

Training Dataset

Unnamed Dataset

  • Size: 41,454 training samples
  • Columns: sentence_0, sentence_1, sentence_2, sentence_3, sentence_4, sentence_5, and sentence_6
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 sentence_2 sentence_3 sentence_4 sentence_5 sentence_6
    type string string string string string string string
    details
    • min: 5 tokens
    • mean: 21.23 tokens
    • max: 75 tokens
    • min: 2 tokens
    • mean: 56.88 tokens
    • max: 99 tokens
    • min: 2 tokens
    • mean: 57.2 tokens
    • max: 95 tokens
    • min: 2 tokens
    • mean: 56.71 tokens
    • max: 94 tokens
    • min: 2 tokens
    • mean: 55.42 tokens
    • max: 111 tokens
    • min: 2 tokens
    • mean: 56.14 tokens
    • max: 92 tokens
    • min: 2 tokens
    • mean: 56.79 tokens
    • max: 111 tokens
  • Samples:
    sentence_0 sentence_1 sentence_2 sentence_3 sentence_4 sentence_5 sentence_6
    فرش تنظيف اللسان | فرش تنظيف اللسان Tongue Cleaning Brushes | فرش تنظيف اللسان | فرش تنظيف اللسان | Health & Personal Care > Oral Hygiene > Teeth Cleaning & Care > Tongue Cleaning Brushes | الصحة والعناية الشخصية > العناية بالفم > مستلزمات التنظيف والعناية بالأسنان > فرش تنظيف اللسان Lip Care | العناية بالشفاه | العناية بالشفاه | Beauty > Skincare > Lip Care | الجمال والعناية > عناية بالبشرة > العناية بالشفاه Oral Hygiene | العناية بالفم | العناية بالفم | Health & Personal Care > Oral Hygiene | الصحة والعناية الشخصية > العناية بالفم Lip Liners | تحديد الشفاه | تحديد الشفاه | Beauty > Makeup > Lips Makeup > Lip Liners | الجمال والعناية > مكياج > مكياج الشفاه > تحديد الشفاه General Oral Care Products | منتجات متنوعة | منتجات متنوعة | Health & Personal Care > Oral Hygiene > Teeth Cleaning & Care > General Oral Care Products | الصحة والعناية الشخصية > العناية بالفم > مستلزمات التنظيف والعناية بالأسنان > منتجات متنوعة Electric Tooth Brushes | فرش الأسنان الكهربائية | فرش الأسنان الكهربائية | Health & Personal Care > Oral Hygiene > Tooth Brushes > Electric Tooth Brushes | الصحة والعناية الشخصية > العناية بالفم > فرش الأسنان > فرش الأسنان الكهربائية
    بنطلون منسوج بأرجل واسعة وكسرات أمامية Pleated Wide Leg Woven Trousers Pants | بناطيل | Women Fashion > Pants | ملابس نسائية > بناطيل Women Jeans | جينز نسائي | Women Fashion > Women Jeans | ملابس نسائية > جينز نسائي Pants & Skirts | تنورة وبنطلون نسائي | تنورة وبنطلون نسائي | Clothes, Shoes & Bags > Women Clothing > Pants & Skirts | ملابس، أحذية وحقائب > ملابس نسائية > تنورة وبنطلون نسائي Panties | لباس داخلي | لباس داخلي | Clothes, Shoes & Bags > Women Clothing > Women Underwear > Panties | ملابس، أحذية وحقائب > ملابس نسائية > ملابس داخلية نسائية > لباس داخلي Casual Pants & Sweatpants | بنطلون قماش | بنطلون قماش | Women Fashion > Pants > Casual Pants & Sweatpants | ملابس نسائية > بناطيل > بنطلون قماش Night Gown | دشداشة | دشداشة | Women Fashion > Women Home Wear > Night Gown | ملابس نسائية > ملابس بيت نسائية > دشداشة
    صابون جليسرين الاصلي سيت Original Glycerin Soap Set Facial Cleansers | غسولات وصابون الوجه | غسولات وصابون الوجه | Beauty > Skincare > Facial Skincare > Facial Cleansers | الجمال والعناية > عناية بالبشرة > العناية ببشرة الوجه > غسولات وصابون الوجه Shower Gel | غسولات الجسم | غسولات الجسم | Beauty > Bathing > Bathing & Showering > Shower Gel | الجمال والعناية > الحمام والإستحمام > الإستحمام > غسولات الجسم Soap | صابون | صابون | Beauty > Bathing > Bathing & Showering > Soap | الجمال والعناية > الحمام والإستحمام > الإستحمام > صابون Skincare Tools | أدوات العناية ببشرة الوجه | أدوات العناية ببشرة الوجه | Beauty > Skincare > Facial Skincare > Skincare Tools | الجمال والعناية > عناية بالبشرة > العناية ببشرة الوجه > أدوات العناية ببشرة الوجه Lip Balm | مرطب | مرطب | Beauty > Skincare > Lip Care > Lip Balm | الجمال والعناية > عناية بالبشرة > العناية بالشفاه > مرطب Eye Care | العناية بالعين | العناية بالعين | Beauty > Skincare > Eye Care | الجمال والعناية > عناية بالبشرة > العناية بالعين
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 32
  • num_train_epochs: 5
  • per_device_eval_batch_size: 32
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • per_device_train_batch_size: 32
  • num_train_epochs: 5
  • max_steps: -1
  • learning_rate: 5e-05
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_steps: 0
  • optim: adamw_torch_fused
  • optim_args: None
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • optim_target_modules: None
  • gradient_accumulation_steps: 1
  • average_tokens_across_devices: True
  • max_grad_norm: 1
  • label_smoothing_factor: 0.0
  • bf16: False
  • fp16: False
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • use_liger_kernel: False
  • liger_kernel_config: None
  • use_cache: False
  • neftune_noise_alpha: None
  • torch_empty_cache_steps: None
  • auto_find_batch_size: False
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • include_num_input_tokens_seen: no
  • log_level: passive
  • log_level_replica: warning
  • disable_tqdm: False
  • project: huggingface
  • trackio_space_id: trackio
  • eval_strategy: no
  • per_device_eval_batch_size: 32
  • prediction_loss_only: True
  • eval_on_start: False
  • eval_do_concat_batches: True
  • eval_use_gather_object: False
  • eval_accumulation_steps: None
  • include_for_metrics: []
  • batch_eval_metrics: False
  • save_only_model: False
  • save_on_each_node: False
  • enable_jit_checkpoint: False
  • push_to_hub: False
  • hub_private_repo: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_always_push: False
  • hub_revision: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • restore_callback_states_from_checkpoint: False
  • full_determinism: False
  • seed: 42
  • data_seed: None
  • use_cpu: False
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • dataloader_prefetch_factor: None
  • remove_unused_columns: True
  • label_names: None
  • train_sampling_strategy: random
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • ddp_backend: None
  • ddp_timeout: 1800
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • deepspeed: None
  • debug: []
  • skip_memory_metrics: True
  • do_predict: False
  • resume_from_checkpoint: None
  • warmup_ratio: None
  • local_rank: -1
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss val_cosine_ndcg@10
0.3858 500 1.7692 -
0.7716 1000 1.1953 -
1.0 1296 - 0.7897
1.1574 1500 0.9931 -
1.5432 2000 0.8773 -
1.9290 2500 0.8350 -
2.0 2592 - 0.8176
2.3148 3000 0.6935 -
2.7006 3500 0.6690 -
3.0 3888 - 0.8264
3.0864 4000 0.6284 -
3.4722 4500 0.5482 -
3.8580 5000 0.5434 -
4.0 5184 - 0.8315
4.2438 5500 0.5002 -
4.6296 6000 0.4821 -
5.0 6480 - 0.8318

Framework Versions

  • Python: 3.14.3
  • Sentence Transformers: 5.3.0
  • Transformers: 5.5.0
  • PyTorch: 2.11.0+cu130
  • Accelerate: 1.13.0
  • Datasets: 4.8.4
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}
Downloads last month
5
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for soof/miswag-category-mapper

Papers for soof/miswag-category-mapper

Evaluation results