Sentence Similarity
sentence-transformers
Safetensors
xlm-roberta
feature-extraction
dense
Generated from Trainer
dataset_size:41454
loss:MultipleNegativesRankingLoss
Eval Results (legacy)
text-embeddings-inference
Instructions to use soof/miswag-category-mapper with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use soof/miswag-category-mapper with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("soof/miswag-category-mapper") sentences = [ "Bleu Eau De Parfum Men's Perfume عطر بلو للرجال", "Niche Perfumes | عطور النيش | عطور النيش | Beauty > Fragrance > Niche Perfumes | الجمال والعناية > عطور > عطور النيش", "Men Blouses | بلوز رجالي | بلوز رجالي | Clothes, Shoes & Bags > Men Clothes > Men Blouses > Men Blouses | ملابس، أحذية وحقائب > ملابس رجالية > بلوز وتيشرت رجالي > بلوز رجالي", "Men Shoes | حذاء رجالي | حذاء رجالي | Men Fashion > Men Shoes | ملابس رجالية > حذاء رجالي", "Men Niche Perfumes | عطور رجالية | عطور رجالية | Beauty > Fragrance > Niche Perfumes > Men Niche Perfumes | الجمال والعناية > عطور > عطور النيش > عطور رجالية", "Arabian, Oud & Makhmaria | عطور عربية ومخمرية | عطور عربية ومخمرية | Beauty > Fragrance > Arabian, Oud & Makhmaria | الجمال والعناية > عطور > عطور عربية ومخمرية", "Men Fragrance | عطور رجالية | بۆنی پیاوانی | Beauty > Fragrance > Fragrance > Men Fragrance | الجمال والعناية > عطور > العطور > عطور رجالية" ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [7, 7] - Notebooks
- Google Colab
- Kaggle
metadata
base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
library_name: sentence-transformers
metrics:
- cosine_accuracy@1
- cosine_accuracy@5
- cosine_accuracy@10
- cosine_precision@1
- cosine_precision@3
- cosine_precision@5
- cosine_precision@10
- cosine_recall@1
- cosine_recall@3
- cosine_recall@5
- cosine_recall@10
- cosine_ndcg@1
- cosine_ndcg@5
- cosine_ndcg@10
- cosine_mrr@1
- cosine_mrr@5
- cosine_mrr@10
- cosine_map@100
model-index:
- name: >-
SentenceTransformer based on
sentence-transformers/paraphrase-multilingual-mpnet-base-v2
results:
- dataset:
name: val
type: val
metrics:
- name: Cosine Accuracy@1
type: cosine_accuracy@1
value: 0.7723577235772358
- name: Cosine Accuracy@5
type: cosine_accuracy@5
value: 0.868970189701897
- name: Cosine Accuracy@10
type: cosine_accuracy@10
value: 0.8857723577235772
- name: Cosine Precision@1
type: cosine_precision@1
value: 0.7723577235772358
- name: Cosine Precision@3
type: cosine_precision@3
value: 0.2832881662149955
- name: Cosine Precision@5
type: cosine_precision@5
value: 0.17379403794037943
- name: Cosine Precision@10
type: cosine_precision@10
value: 0.08857723577235771
- name: Cosine Recall@1
type: cosine_recall@1
value: 0.7723577235772358
- name: Cosine Recall@3
type: cosine_recall@3
value: 0.8498644986449865
- name: Cosine Recall@5
type: cosine_recall@5
value: 0.868970189701897
- name: Cosine Recall@10
type: cosine_recall@10
value: 0.8857723577235772
- name: Cosine Ndcg@1
type: cosine_ndcg@1
value: 0.7723577235772358
- name: Cosine Ndcg@5
type: cosine_ndcg@5
value: 0.8262686517761806
- name: Cosine Ndcg@10
type: cosine_ndcg@10
value: 0.8317607353450287
- name: Cosine Mrr@1
type: cosine_mrr@1
value: 0.7723577235772358
- name: Cosine Mrr@5
type: cosine_mrr@5
value: 0.8118450767841
- name: Cosine Mrr@10
type: cosine_mrr@10
value: 0.8141458575300033
- name: Cosine Map@100
type: cosine_map@100
value: 0.8152488326748775
task:
name: Information Retrieval
type: information-retrieval
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- dense
- generated_from_trainer
- dataset_size:41454
- loss:MultipleNegativesRankingLoss
widget:
- sentences:
- >-
Niche Perfumes | عطور النيش | عطور النيش | Beauty > Fragrance > Niche
Perfumes | الجمال والعناية > عطور > عطور النيش
- >-
Men Blouses | بلوز رجالي | بلوز رجالي | Clothes, Shoes & Bags > Men
Clothes > Men Blouses > Men Blouses | ملابس، أحذية وحقائب > ملابس رجالية
> بلوز وتيشرت رجالي > بلوز رجالي
- >-
Men Shoes | حذاء رجالي | حذاء رجالي | Men Fashion > Men Shoes | ملابس
رجالية > حذاء رجالي
- >-
Men Niche Perfumes | عطور رجالية | عطور رجالية | Beauty > Fragrance >
Niche Perfumes > Men Niche Perfumes | الجمال والعناية > عطور > عطور
النيش > عطور رجالية
- >-
Arabian, Oud & Makhmaria | عطور عربية ومخمرية | عطور عربية ومخمرية |
Beauty > Fragrance > Arabian, Oud & Makhmaria | الجمال والعناية > عطور >
عطور عربية ومخمرية
- >-
Men Fragrance | عطور رجالية | بۆنی پیاوانی | Beauty > Fragrance >
Fragrance > Men Fragrance | الجمال والعناية > عطور > العطور > عطور
رجالية
source_sentence: Bleu Eau De Parfum Men's Perfume عطر بلو للرجال
- sentences:
- >-
stand fans | مراوح عمودية | مراوح عمودية | Home Appliances > Heating &
Air-Conditioning > Air recycling devices > stand fans | اجهزة منزلية >
التدفئة والتبريد > أجهزة تدوير الهواء > مراوح عمودية
- >-
table fans | مراوح منضدية | مراوح منضدية | Home Appliances > Heating &
Air-Conditioning > Air recycling devices > table fans | اجهزة منزلية >
التدفئة والتبريد > أجهزة تدوير الهواء > مراوح منضدية
- >-
Heating & Air-Conditioning | التدفئة والتبريد | التدفئة والتبريد | Home
Appliances > Heating & Air-Conditioning | اجهزة منزلية > التدفئة
والتبريد
- >-
Vertical ACs | أجهزة تبريد عمودية | أجهزة تبريد عمودية | Home Appliances
> Heating & Air-Conditioning > Air Conditioners > Vertical ACs | اجهزة
منزلية > التدفئة والتبريد > أجهزة التبريد > أجهزة تبريد عمودية
- >-
ceiling fan | مروحة سقفية | مروحة سقفية | Home Appliances > Heating &
Air-Conditioning > Air recycling devices > ceiling fan | اجهزة منزلية >
التدفئة والتبريد > أجهزة تدوير الهواء > مروحة سقفية
- >-
wall fans | مراوح جدارية | مراوح جدراية | Home Appliances > Heating &
Air-Conditioning > Air recycling devices > wall fans | اجهزة منزلية >
التدفئة والتبريد > أجهزة تدوير الهواء > مراوح جدارية
source_sentence: مروحة جدارية Wall Fan
- sentences:
- placeholder
source_sentence: >-
مجموعة تخزين وحماية 10 في 1 من DOBE لجهاز نينتندو سويتش DOBE 10-in-1
Storage & Protection Kit for Nintendo Switch
- sentences:
- >-
Energy Drinks | مشروبات الطاقة | مشروبات الطاقة | Food And Groceries >
Drinks > Energy Drinks | مواد غذائية > المشروبات > مشروبات الطاقة
- >-
Coffee Drinks | مشروبات القهوة | مشروبات القهوة | Food And Groceries >
Drinks > Coffee > Coffee Drinks | مواد غذائية > المشروبات > القهوة >
مشروبات القهوة
- >-
Juices | عصائر | شەربەت | Food And Groceries > Drinks > Juices | مواد
غذائية > المشروبات > عصائر
- >-
Drinks | المشروبات | المشروبات | Food And Groceries > Drinks | مواد
غذائية > المشروبات
- >-
Tea Drinks | مشروبات الشاي | مشروبات الشاي | Food And Groceries > Drinks
> Tea > Tea Drinks | مواد غذائية > المشروبات > الشاي > مشروبات الشاي
- >-
Chocolate Drinks | مشروبات الشوكولاتة | مشروبات الشوكولاتة | Food And
Groceries > Drinks > Chocolate Drinks | مواد غذائية > المشروبات >
مشروبات الشوكولاتة
source_sentence: المشروبات - المشروبات
- sentences:
- Kids | أطفال | مندالان
- >-
Kids Clothes | ملابس اطفال | جلی منداڵانی | Clothes, Shoes & Bags > Kids
Clothes | ملابس، أحذية وحقائب > ملابس اطفال
- >-
Nursing Bottles Sanitizers | أجهزة تعقيم وتحضير قناني الرضاعة | أجهزة
تعقيم وتحضير قناني الرضاعة | Kids > Baby Feeding > Nursing &
Breastfeeding > Nursing Bottles Sanitizers | أطفال > الرضاعة والتغذية >
الرضاعة والرضاعة الطبيعية > أجهزة تعقيم وتحضير قناني الرضاعة
- >-
Walking Support | المساعدة على المشي | المساعدة على المشي | Kids >
Strollers & High Chairs > Walking Support | أطفال > العربات وكراسي
الطعام > المساعدة على المشي
- >-
Kids Footwear | أحذية الأطفال | أحذية الأطفال | Clothes, Shoes & Bags >
Shoes > Kids Footwear | ملابس، أحذية وحقائب > أحذية > أحذية الأطفال
- >-
Baby Skincare | العناية ببشرة الأطفال | العناية ببشرة الأطفال | Kids >
Baby Hygiene & Care > Baby Skincare | أطفال > العناية والنظافة > العناية
ببشرة الأطفال
source_sentence: أطفال | مندالان
SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2
This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-mpnet-base-v2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
- Maximum Sequence Length: 128 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'أطفال | مندالان',
'Kids | أطفال | مندالان',
'Kids Footwear | أحذية الأطفال | أحذية الأطفال | Clothes, Shoes & Bags > Shoes > Kids Footwear | ملابس، أحذية وحقائب > أحذية > أحذية الأطفال',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.9686, 0.3404],
# [0.9686, 1.0000, 0.4502],
# [0.3404, 0.4502, 1.0000]])
Evaluation
Metrics
Information Retrieval
- Dataset:
val - Evaluated with
InformationRetrievalEvaluator
| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.7724 |
| cosine_accuracy@5 | 0.869 |
| cosine_accuracy@10 | 0.8858 |
| cosine_precision@1 | 0.7724 |
| cosine_precision@3 | 0.2833 |
| cosine_precision@5 | 0.1738 |
| cosine_precision@10 | 0.0886 |
| cosine_recall@1 | 0.7724 |
| cosine_recall@3 | 0.8499 |
| cosine_recall@5 | 0.869 |
| cosine_recall@10 | 0.8858 |
| cosine_ndcg@1 | 0.7724 |
| cosine_ndcg@5 | 0.8263 |
| cosine_ndcg@10 | 0.8318 |
| cosine_mrr@1 | 0.7724 |
| cosine_mrr@5 | 0.8118 |
| cosine_mrr@10 | 0.8141 |
| cosine_map@100 | 0.8152 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 41,454 training samples
- Columns:
sentence_0,sentence_1,sentence_2,sentence_3,sentence_4,sentence_5, andsentence_6 - Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 sentence_2 sentence_3 sentence_4 sentence_5 sentence_6 type string string string string string string string details - min: 5 tokens
- mean: 21.23 tokens
- max: 75 tokens
- min: 2 tokens
- mean: 56.88 tokens
- max: 99 tokens
- min: 2 tokens
- mean: 57.2 tokens
- max: 95 tokens
- min: 2 tokens
- mean: 56.71 tokens
- max: 94 tokens
- min: 2 tokens
- mean: 55.42 tokens
- max: 111 tokens
- min: 2 tokens
- mean: 56.14 tokens
- max: 92 tokens
- min: 2 tokens
- mean: 56.79 tokens
- max: 111 tokens
- Samples:
sentence_0 sentence_1 sentence_2 sentence_3 sentence_4 sentence_5 sentence_6 فرش تنظيف اللسان | فرش تنظيف اللسانTongue Cleaning Brushes | فرش تنظيف اللسان | فرش تنظيف اللسان | Health & Personal Care > Oral Hygiene > Teeth Cleaning & Care > Tongue Cleaning Brushes | الصحة والعناية الشخصية > العناية بالفم > مستلزمات التنظيف والعناية بالأسنان > فرش تنظيف اللسانLip Care | العناية بالشفاه | العناية بالشفاه | Beauty > Skincare > Lip Care | الجمال والعناية > عناية بالبشرة > العناية بالشفاهOral Hygiene | العناية بالفم | العناية بالفم | Health & Personal Care > Oral Hygiene | الصحة والعناية الشخصية > العناية بالفمLip Liners | تحديد الشفاه | تحديد الشفاه | Beauty > Makeup > Lips Makeup > Lip Liners | الجمال والعناية > مكياج > مكياج الشفاه > تحديد الشفاهGeneral Oral Care Products | منتجات متنوعة | منتجات متنوعة | Health & Personal Care > Oral Hygiene > Teeth Cleaning & Care > General Oral Care Products | الصحة والعناية الشخصية > العناية بالفم > مستلزمات التنظيف والعناية بالأسنان > منتجات متنوعةElectric Tooth Brushes | فرش الأسنان الكهربائية | فرش الأسنان الكهربائية | Health & Personal Care > Oral Hygiene > Tooth Brushes > Electric Tooth Brushes | الصحة والعناية الشخصية > العناية بالفم > فرش الأسنان > فرش الأسنان الكهربائيةبنطلون منسوج بأرجل واسعة وكسرات أمامية Pleated Wide Leg Woven TrousersPants | بناطيل | Women Fashion > Pants | ملابس نسائية > بناطيلWomen Jeans | جينز نسائي | Women Fashion > Women Jeans | ملابس نسائية > جينز نسائيPants & Skirts | تنورة وبنطلون نسائي | تنورة وبنطلون نسائي | Clothes, Shoes & Bags > Women Clothing > Pants & Skirts | ملابس، أحذية وحقائب > ملابس نسائية > تنورة وبنطلون نسائيPanties | لباس داخلي | لباس داخلي | Clothes, Shoes & Bags > Women Clothing > Women Underwear > Panties | ملابس، أحذية وحقائب > ملابس نسائية > ملابس داخلية نسائية > لباس داخليCasual Pants & Sweatpants | بنطلون قماش | بنطلون قماش | Women Fashion > Pants > Casual Pants & Sweatpants | ملابس نسائية > بناطيل > بنطلون قماشNight Gown | دشداشة | دشداشة | Women Fashion > Women Home Wear > Night Gown | ملابس نسائية > ملابس بيت نسائية > دشداشةصابون جليسرين الاصلي سيت Original Glycerin Soap SetFacial Cleansers | غسولات وصابون الوجه | غسولات وصابون الوجه | Beauty > Skincare > Facial Skincare > Facial Cleansers | الجمال والعناية > عناية بالبشرة > العناية ببشرة الوجه > غسولات وصابون الوجهShower Gel | غسولات الجسم | غسولات الجسم | Beauty > Bathing > Bathing & Showering > Shower Gel | الجمال والعناية > الحمام والإستحمام > الإستحمام > غسولات الجسمSoap | صابون | صابون | Beauty > Bathing > Bathing & Showering > Soap | الجمال والعناية > الحمام والإستحمام > الإستحمام > صابونSkincare Tools | أدوات العناية ببشرة الوجه | أدوات العناية ببشرة الوجه | Beauty > Skincare > Facial Skincare > Skincare Tools | الجمال والعناية > عناية بالبشرة > العناية ببشرة الوجه > أدوات العناية ببشرة الوجهLip Balm | مرطب | مرطب | Beauty > Skincare > Lip Care > Lip Balm | الجمال والعناية > عناية بالبشرة > العناية بالشفاه > مرطبEye Care | العناية بالعين | العناية بالعين | Beauty > Skincare > Eye Care | الجمال والعناية > عناية بالبشرة > العناية بالعين - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "gather_across_devices": false, "directions": [ "query_to_doc" ], "partition_mode": "joint", "hardness_mode": null, "hardness_strength": 0.0 }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size: 32num_train_epochs: 5per_device_eval_batch_size: 32multi_dataset_batch_sampler: round_robin
All Hyperparameters
Click to expand
per_device_train_batch_size: 32num_train_epochs: 5max_steps: -1learning_rate: 5e-05lr_scheduler_type: linearlr_scheduler_kwargs: Nonewarmup_steps: 0optim: adamw_torch_fusedoptim_args: Noneweight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08optim_target_modules: Nonegradient_accumulation_steps: 1average_tokens_across_devices: Truemax_grad_norm: 1label_smoothing_factor: 0.0bf16: Falsefp16: Falsebf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Nonetorch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneuse_liger_kernel: Falseliger_kernel_config: Noneuse_cache: Falseneftune_noise_alpha: Nonetorch_empty_cache_steps: Noneauto_find_batch_size: Falselog_on_each_node: Truelogging_nan_inf_filter: Trueinclude_num_input_tokens_seen: nolog_level: passivelog_level_replica: warningdisable_tqdm: Falseproject: huggingfacetrackio_space_id: trackioeval_strategy: noper_device_eval_batch_size: 32prediction_loss_only: Trueeval_on_start: Falseeval_do_concat_batches: Trueeval_use_gather_object: Falseeval_accumulation_steps: Noneinclude_for_metrics: []batch_eval_metrics: Falsesave_only_model: Falsesave_on_each_node: Falseenable_jit_checkpoint: Falsepush_to_hub: Falsehub_private_repo: Nonehub_model_id: Nonehub_strategy: every_savehub_always_push: Falsehub_revision: Noneload_best_model_at_end: Falseignore_data_skip: Falserestore_callback_states_from_checkpoint: Falsefull_determinism: Falseseed: 42data_seed: Noneuse_cpu: Falseaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedataloader_drop_last: Falsedataloader_num_workers: 0dataloader_pin_memory: Truedataloader_persistent_workers: Falsedataloader_prefetch_factor: Noneremove_unused_columns: Truelabel_names: Nonetrain_sampling_strategy: randomlength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falseddp_backend: Noneddp_timeout: 1800fsdp: []fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}deepspeed: Nonedebug: []skip_memory_metrics: Truedo_predict: Falseresume_from_checkpoint: Nonewarmup_ratio: Nonelocal_rank: -1prompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robinrouter_mapping: {}learning_rate_mapping: {}
Training Logs
| Epoch | Step | Training Loss | val_cosine_ndcg@10 |
|---|---|---|---|
| 0.3858 | 500 | 1.7692 | - |
| 0.7716 | 1000 | 1.1953 | - |
| 1.0 | 1296 | - | 0.7897 |
| 1.1574 | 1500 | 0.9931 | - |
| 1.5432 | 2000 | 0.8773 | - |
| 1.9290 | 2500 | 0.8350 | - |
| 2.0 | 2592 | - | 0.8176 |
| 2.3148 | 3000 | 0.6935 | - |
| 2.7006 | 3500 | 0.6690 | - |
| 3.0 | 3888 | - | 0.8264 |
| 3.0864 | 4000 | 0.6284 | - |
| 3.4722 | 4500 | 0.5482 | - |
| 3.8580 | 5000 | 0.5434 | - |
| 4.0 | 5184 | - | 0.8315 |
| 4.2438 | 5500 | 0.5002 | - |
| 4.6296 | 6000 | 0.4821 | - |
| 5.0 | 6480 | - | 0.8318 |
Framework Versions
- Python: 3.14.3
- Sentence Transformers: 5.3.0
- Transformers: 5.5.0
- PyTorch: 2.11.0+cu130
- Accelerate: 1.13.0
- Datasets: 4.8.4
- Tokenizers: 0.22.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{oord2019representationlearningcontrastivepredictive,
title={Representation Learning with Contrastive Predictive Coding},
author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
year={2019},
eprint={1807.03748},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/1807.03748},
}