soof's picture
Upload folder using huggingface_hub
3cae5c3 verified
metadata
base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@1
  - cosine_ndcg@5
  - cosine_ndcg@10
  - cosine_mrr@1
  - cosine_mrr@5
  - cosine_mrr@10
  - cosine_map@100
model-index:
  - name: >-
      SentenceTransformer based on
      sentence-transformers/paraphrase-multilingual-mpnet-base-v2
    results:
      - dataset:
          name: val
          type: val
        metrics:
          - name: Cosine Accuracy@1
            type: cosine_accuracy@1
            value: 0.7723577235772358
          - name: Cosine Accuracy@5
            type: cosine_accuracy@5
            value: 0.868970189701897
          - name: Cosine Accuracy@10
            type: cosine_accuracy@10
            value: 0.8857723577235772
          - name: Cosine Precision@1
            type: cosine_precision@1
            value: 0.7723577235772358
          - name: Cosine Precision@3
            type: cosine_precision@3
            value: 0.2832881662149955
          - name: Cosine Precision@5
            type: cosine_precision@5
            value: 0.17379403794037943
          - name: Cosine Precision@10
            type: cosine_precision@10
            value: 0.08857723577235771
          - name: Cosine Recall@1
            type: cosine_recall@1
            value: 0.7723577235772358
          - name: Cosine Recall@3
            type: cosine_recall@3
            value: 0.8498644986449865
          - name: Cosine Recall@5
            type: cosine_recall@5
            value: 0.868970189701897
          - name: Cosine Recall@10
            type: cosine_recall@10
            value: 0.8857723577235772
          - name: Cosine Ndcg@1
            type: cosine_ndcg@1
            value: 0.7723577235772358
          - name: Cosine Ndcg@5
            type: cosine_ndcg@5
            value: 0.8262686517761806
          - name: Cosine Ndcg@10
            type: cosine_ndcg@10
            value: 0.8317607353450287
          - name: Cosine Mrr@1
            type: cosine_mrr@1
            value: 0.7723577235772358
          - name: Cosine Mrr@5
            type: cosine_mrr@5
            value: 0.8118450767841
          - name: Cosine Mrr@10
            type: cosine_mrr@10
            value: 0.8141458575300033
          - name: Cosine Map@100
            type: cosine_map@100
            value: 0.8152488326748775
        task:
          name: Information Retrieval
          type: information-retrieval
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - dense
  - generated_from_trainer
  - dataset_size:41454
  - loss:MultipleNegativesRankingLoss
widget:
  - sentences:
      - >-
        Niche Perfumes | عطور النيش | عطور النيش | Beauty > Fragrance > Niche
        Perfumes | الجمال والعناية > عطور > عطور النيش
      - >-
        Men Blouses | بلوز رجالي | بلوز رجالي | Clothes, Shoes & Bags > Men
        Clothes > Men Blouses > Men Blouses | ملابس، أحذية وحقائب > ملابس رجالية
        > بلوز وتيشرت رجالي > بلوز رجالي
      - >-
        Men Shoes | حذاء رجالي | حذاء رجالي | Men Fashion > Men Shoes | ملابس
        رجالية > حذاء رجالي
      - >-
        Men Niche Perfumes | عطور رجالية | عطور رجالية | Beauty > Fragrance >
        Niche Perfumes > Men Niche Perfumes | الجمال والعناية > عطور > عطور
        النيش > عطور رجالية
      - >-
        Arabian, Oud & Makhmaria | عطور عربية ومخمرية | عطور عربية ومخمرية |
        Beauty > Fragrance > Arabian, Oud & Makhmaria | الجمال والعناية > عطور >
        عطور عربية ومخمرية
      - >-
        Men Fragrance | عطور رجالية | بۆنی پیاوانی | Beauty > Fragrance >
        Fragrance > Men Fragrance | الجمال والعناية > عطور > العطور > عطور
        رجالية
    source_sentence: Bleu Eau De Parfum Men's Perfume عطر بلو للرجال
  - sentences:
      - >-
        stand fans | مراوح عمودية | مراوح عمودية | Home Appliances > Heating &
        Air-Conditioning > Air recycling devices > stand fans | اجهزة منزلية >
        التدفئة والتبريد > أجهزة تدوير الهواء > مراوح عمودية
      - >-
        table fans | مراوح منضدية | مراوح منضدية | Home Appliances > Heating &
        Air-Conditioning > Air recycling devices > table fans | اجهزة منزلية >
        التدفئة والتبريد > أجهزة تدوير الهواء > مراوح منضدية
      - >-
        Heating & Air-Conditioning | التدفئة والتبريد | التدفئة والتبريد | Home
        Appliances > Heating & Air-Conditioning | اجهزة منزلية > التدفئة
        والتبريد
      - >-
        Vertical ACs | أجهزة تبريد عمودية | أجهزة تبريد عمودية | Home Appliances
        > Heating & Air-Conditioning > Air Conditioners > Vertical ACs | اجهزة
        منزلية > التدفئة والتبريد > أجهزة التبريد > أجهزة تبريد عمودية
      - >-
        ceiling fan | مروحة سقفية | مروحة سقفية | Home Appliances > Heating &
        Air-Conditioning > Air recycling devices > ceiling fan | اجهزة منزلية >
        التدفئة والتبريد > أجهزة تدوير الهواء > مروحة سقفية
      - >-
        wall fans | مراوح جدارية | مراوح جدراية | Home Appliances > Heating &
        Air-Conditioning > Air recycling devices > wall fans | اجهزة منزلية >
        التدفئة والتبريد > أجهزة تدوير الهواء > مراوح جدارية
    source_sentence: مروحة جدارية Wall Fan
  - sentences:
      - placeholder
    source_sentence: >-
      مجموعة تخزين وحماية 10 في 1 من DOBE لجهاز نينتندو سويتش DOBE 10-in-1
      Storage & Protection Kit for Nintendo Switch
  - sentences:
      - >-
        Energy Drinks | مشروبات الطاقة | مشروبات الطاقة | Food And Groceries >
        Drinks > Energy Drinks | مواد غذائية > المشروبات > مشروبات الطاقة
      - >-
        Coffee Drinks | مشروبات القهوة | مشروبات القهوة | Food And Groceries >
        Drinks > Coffee > Coffee Drinks | مواد غذائية > المشروبات > القهوة >
        مشروبات القهوة
      - >-
        Juices | عصائر | شەربەت | Food And Groceries > Drinks > Juices | مواد
        غذائية > المشروبات > عصائر
      - >-
        Drinks | المشروبات | المشروبات | Food And Groceries > Drinks | مواد
        غذائية > المشروبات
      - >-
        Tea Drinks | مشروبات الشاي | مشروبات الشاي | Food And Groceries > Drinks
        > Tea > Tea Drinks | مواد غذائية > المشروبات > الشاي > مشروبات الشاي
      - >-
        Chocolate Drinks | مشروبات الشوكولاتة | مشروبات الشوكولاتة | Food And
        Groceries > Drinks > Chocolate Drinks | مواد غذائية > المشروبات >
        مشروبات الشوكولاتة
    source_sentence: المشروبات - المشروبات
  - sentences:
      - Kids | أطفال | مندالان
      - >-
        Kids Clothes | ملابس اطفال | جلی منداڵانی | Clothes, Shoes & Bags > Kids
        Clothes | ملابس، أحذية وحقائب > ملابس اطفال
      - >-
        Nursing Bottles Sanitizers | أجهزة تعقيم وتحضير قناني الرضاعة | أجهزة
        تعقيم وتحضير قناني الرضاعة | Kids > Baby Feeding > Nursing &
        Breastfeeding > Nursing Bottles Sanitizers | أطفال > الرضاعة والتغذية >
        الرضاعة والرضاعة الطبيعية > أجهزة تعقيم وتحضير قناني الرضاعة
      - >-
        Walking Support | المساعدة على المشي | المساعدة على المشي | Kids >
        Strollers & High Chairs > Walking Support | أطفال > العربات وكراسي
        الطعام > المساعدة على المشي
      - >-
        Kids Footwear | أحذية الأطفال | أحذية الأطفال | Clothes, Shoes & Bags >
        Shoes > Kids Footwear | ملابس، أحذية وحقائب > أحذية > أحذية الأطفال
      - >-
        Baby Skincare | العناية ببشرة الأطفال | العناية ببشرة الأطفال | Kids >
        Baby Hygiene & Care > Baby Skincare | أطفال > العناية والنظافة > العناية
        ببشرة الأطفال
    source_sentence: أطفال | مندالان

SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-mpnet-base-v2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'أطفال | مندالان',
    'Kids | أطفال | مندالان',
    'Kids Footwear | أحذية الأطفال | أحذية الأطفال | Clothes, Shoes & Bags > Shoes > Kids Footwear | ملابس، أحذية وحقائب > أحذية > أحذية الأطفال',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.9686, 0.3404],
#         [0.9686, 1.0000, 0.4502],
#         [0.3404, 0.4502, 1.0000]])

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.7724
cosine_accuracy@5 0.869
cosine_accuracy@10 0.8858
cosine_precision@1 0.7724
cosine_precision@3 0.2833
cosine_precision@5 0.1738
cosine_precision@10 0.0886
cosine_recall@1 0.7724
cosine_recall@3 0.8499
cosine_recall@5 0.869
cosine_recall@10 0.8858
cosine_ndcg@1 0.7724
cosine_ndcg@5 0.8263
cosine_ndcg@10 0.8318
cosine_mrr@1 0.7724
cosine_mrr@5 0.8118
cosine_mrr@10 0.8141
cosine_map@100 0.8152

Training Details

Training Dataset

Unnamed Dataset

  • Size: 41,454 training samples
  • Columns: sentence_0, sentence_1, sentence_2, sentence_3, sentence_4, sentence_5, and sentence_6
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 sentence_2 sentence_3 sentence_4 sentence_5 sentence_6
    type string string string string string string string
    details
    • min: 5 tokens
    • mean: 21.23 tokens
    • max: 75 tokens
    • min: 2 tokens
    • mean: 56.88 tokens
    • max: 99 tokens
    • min: 2 tokens
    • mean: 57.2 tokens
    • max: 95 tokens
    • min: 2 tokens
    • mean: 56.71 tokens
    • max: 94 tokens
    • min: 2 tokens
    • mean: 55.42 tokens
    • max: 111 tokens
    • min: 2 tokens
    • mean: 56.14 tokens
    • max: 92 tokens
    • min: 2 tokens
    • mean: 56.79 tokens
    • max: 111 tokens
  • Samples:
    sentence_0 sentence_1 sentence_2 sentence_3 sentence_4 sentence_5 sentence_6
    فرش تنظيف اللسان | فرش تنظيف اللسان Tongue Cleaning Brushes | فرش تنظيف اللسان | فرش تنظيف اللسان | Health & Personal Care > Oral Hygiene > Teeth Cleaning & Care > Tongue Cleaning Brushes | الصحة والعناية الشخصية > العناية بالفم > مستلزمات التنظيف والعناية بالأسنان > فرش تنظيف اللسان Lip Care | العناية بالشفاه | العناية بالشفاه | Beauty > Skincare > Lip Care | الجمال والعناية > عناية بالبشرة > العناية بالشفاه Oral Hygiene | العناية بالفم | العناية بالفم | Health & Personal Care > Oral Hygiene | الصحة والعناية الشخصية > العناية بالفم Lip Liners | تحديد الشفاه | تحديد الشفاه | Beauty > Makeup > Lips Makeup > Lip Liners | الجمال والعناية > مكياج > مكياج الشفاه > تحديد الشفاه General Oral Care Products | منتجات متنوعة | منتجات متنوعة | Health & Personal Care > Oral Hygiene > Teeth Cleaning & Care > General Oral Care Products | الصحة والعناية الشخصية > العناية بالفم > مستلزمات التنظيف والعناية بالأسنان > منتجات متنوعة Electric Tooth Brushes | فرش الأسنان الكهربائية | فرش الأسنان الكهربائية | Health & Personal Care > Oral Hygiene > Tooth Brushes > Electric Tooth Brushes | الصحة والعناية الشخصية > العناية بالفم > فرش الأسنان > فرش الأسنان الكهربائية
    بنطلون منسوج بأرجل واسعة وكسرات أمامية Pleated Wide Leg Woven Trousers Pants | بناطيل | Women Fashion > Pants | ملابس نسائية > بناطيل Women Jeans | جينز نسائي | Women Fashion > Women Jeans | ملابس نسائية > جينز نسائي Pants & Skirts | تنورة وبنطلون نسائي | تنورة وبنطلون نسائي | Clothes, Shoes & Bags > Women Clothing > Pants & Skirts | ملابس، أحذية وحقائب > ملابس نسائية > تنورة وبنطلون نسائي Panties | لباس داخلي | لباس داخلي | Clothes, Shoes & Bags > Women Clothing > Women Underwear > Panties | ملابس، أحذية وحقائب > ملابس نسائية > ملابس داخلية نسائية > لباس داخلي Casual Pants & Sweatpants | بنطلون قماش | بنطلون قماش | Women Fashion > Pants > Casual Pants & Sweatpants | ملابس نسائية > بناطيل > بنطلون قماش Night Gown | دشداشة | دشداشة | Women Fashion > Women Home Wear > Night Gown | ملابس نسائية > ملابس بيت نسائية > دشداشة
    صابون جليسرين الاصلي سيت Original Glycerin Soap Set Facial Cleansers | غسولات وصابون الوجه | غسولات وصابون الوجه | Beauty > Skincare > Facial Skincare > Facial Cleansers | الجمال والعناية > عناية بالبشرة > العناية ببشرة الوجه > غسولات وصابون الوجه Shower Gel | غسولات الجسم | غسولات الجسم | Beauty > Bathing > Bathing & Showering > Shower Gel | الجمال والعناية > الحمام والإستحمام > الإستحمام > غسولات الجسم Soap | صابون | صابون | Beauty > Bathing > Bathing & Showering > Soap | الجمال والعناية > الحمام والإستحمام > الإستحمام > صابون Skincare Tools | أدوات العناية ببشرة الوجه | أدوات العناية ببشرة الوجه | Beauty > Skincare > Facial Skincare > Skincare Tools | الجمال والعناية > عناية بالبشرة > العناية ببشرة الوجه > أدوات العناية ببشرة الوجه Lip Balm | مرطب | مرطب | Beauty > Skincare > Lip Care > Lip Balm | الجمال والعناية > عناية بالبشرة > العناية بالشفاه > مرطب Eye Care | العناية بالعين | العناية بالعين | Beauty > Skincare > Eye Care | الجمال والعناية > عناية بالبشرة > العناية بالعين
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 32
  • num_train_epochs: 5
  • per_device_eval_batch_size: 32
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • per_device_train_batch_size: 32
  • num_train_epochs: 5
  • max_steps: -1
  • learning_rate: 5e-05
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_steps: 0
  • optim: adamw_torch_fused
  • optim_args: None
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • optim_target_modules: None
  • gradient_accumulation_steps: 1
  • average_tokens_across_devices: True
  • max_grad_norm: 1
  • label_smoothing_factor: 0.0
  • bf16: False
  • fp16: False
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • use_liger_kernel: False
  • liger_kernel_config: None
  • use_cache: False
  • neftune_noise_alpha: None
  • torch_empty_cache_steps: None
  • auto_find_batch_size: False
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • include_num_input_tokens_seen: no
  • log_level: passive
  • log_level_replica: warning
  • disable_tqdm: False
  • project: huggingface
  • trackio_space_id: trackio
  • eval_strategy: no
  • per_device_eval_batch_size: 32
  • prediction_loss_only: True
  • eval_on_start: False
  • eval_do_concat_batches: True
  • eval_use_gather_object: False
  • eval_accumulation_steps: None
  • include_for_metrics: []
  • batch_eval_metrics: False
  • save_only_model: False
  • save_on_each_node: False
  • enable_jit_checkpoint: False
  • push_to_hub: False
  • hub_private_repo: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_always_push: False
  • hub_revision: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • restore_callback_states_from_checkpoint: False
  • full_determinism: False
  • seed: 42
  • data_seed: None
  • use_cpu: False
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • dataloader_prefetch_factor: None
  • remove_unused_columns: True
  • label_names: None
  • train_sampling_strategy: random
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • ddp_backend: None
  • ddp_timeout: 1800
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • deepspeed: None
  • debug: []
  • skip_memory_metrics: True
  • do_predict: False
  • resume_from_checkpoint: None
  • warmup_ratio: None
  • local_rank: -1
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss val_cosine_ndcg@10
0.3858 500 1.7692 -
0.7716 1000 1.1953 -
1.0 1296 - 0.7897
1.1574 1500 0.9931 -
1.5432 2000 0.8773 -
1.9290 2500 0.8350 -
2.0 2592 - 0.8176
2.3148 3000 0.6935 -
2.7006 3500 0.6690 -
3.0 3888 - 0.8264
3.0864 4000 0.6284 -
3.4722 4500 0.5482 -
3.8580 5000 0.5434 -
4.0 5184 - 0.8315
4.2438 5500 0.5002 -
4.6296 6000 0.4821 -
5.0 6480 - 0.8318

Framework Versions

  • Python: 3.14.3
  • Sentence Transformers: 5.3.0
  • Transformers: 5.5.0
  • PyTorch: 2.11.0+cu130
  • Accelerate: 1.13.0
  • Datasets: 4.8.4
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}