--- base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2 library_name: sentence-transformers metrics: - cosine_accuracy@1 - cosine_accuracy@5 - cosine_accuracy@10 - cosine_precision@1 - cosine_precision@3 - cosine_precision@5 - cosine_precision@10 - cosine_recall@1 - cosine_recall@3 - cosine_recall@5 - cosine_recall@10 - cosine_ndcg@1 - cosine_ndcg@5 - cosine_ndcg@10 - cosine_mrr@1 - cosine_mrr@5 - cosine_mrr@10 - cosine_map@100 model-index: - name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2 results: - dataset: name: val type: val metrics: - name: Cosine Accuracy@1 type: cosine_accuracy@1 value: 0.7723577235772358 - name: Cosine Accuracy@5 type: cosine_accuracy@5 value: 0.868970189701897 - name: Cosine Accuracy@10 type: cosine_accuracy@10 value: 0.8857723577235772 - name: Cosine Precision@1 type: cosine_precision@1 value: 0.7723577235772358 - name: Cosine Precision@3 type: cosine_precision@3 value: 0.2832881662149955 - name: Cosine Precision@5 type: cosine_precision@5 value: 0.17379403794037943 - name: Cosine Precision@10 type: cosine_precision@10 value: 0.08857723577235771 - name: Cosine Recall@1 type: cosine_recall@1 value: 0.7723577235772358 - name: Cosine Recall@3 type: cosine_recall@3 value: 0.8498644986449865 - name: Cosine Recall@5 type: cosine_recall@5 value: 0.868970189701897 - name: Cosine Recall@10 type: cosine_recall@10 value: 0.8857723577235772 - name: Cosine Ndcg@1 type: cosine_ndcg@1 value: 0.7723577235772358 - name: Cosine Ndcg@5 type: cosine_ndcg@5 value: 0.8262686517761806 - name: Cosine Ndcg@10 type: cosine_ndcg@10 value: 0.8317607353450287 - name: Cosine Mrr@1 type: cosine_mrr@1 value: 0.7723577235772358 - name: Cosine Mrr@5 type: cosine_mrr@5 value: 0.8118450767841 - name: Cosine Mrr@10 type: cosine_mrr@10 value: 0.8141458575300033 - name: Cosine Map@100 type: cosine_map@100 value: 0.8152488326748775 task: name: Information Retrieval type: information-retrieval pipeline_tag: sentence-similarity tags: - sentence-transformers - sentence-similarity - feature-extraction - dense - generated_from_trainer - dataset_size:41454 - loss:MultipleNegativesRankingLoss widget: - sentences: - Niche Perfumes | عطور النيش | عطور النيش | Beauty > Fragrance > Niche Perfumes | الجمال والعناية > عطور > عطور النيش - Men Blouses | بلوز رجالي | بلوز رجالي | Clothes, Shoes & Bags > Men Clothes > Men Blouses > Men Blouses | ملابس، أحذية وحقائب > ملابس رجالية > بلوز وتيشرت رجالي > بلوز رجالي - Men Shoes | حذاء رجالي | حذاء رجالي | Men Fashion > Men Shoes | ملابس رجالية > حذاء رجالي - Men Niche Perfumes | عطور رجالية | عطور رجالية | Beauty > Fragrance > Niche Perfumes > Men Niche Perfumes | الجمال والعناية > عطور > عطور النيش > عطور رجالية - Arabian, Oud & Makhmaria | عطور عربية ومخمرية | عطور عربية ومخمرية | Beauty > Fragrance > Arabian, Oud & Makhmaria | الجمال والعناية > عطور > عطور عربية ومخمرية - Men Fragrance | عطور رجالية | بۆنی پیاوانی | Beauty > Fragrance > Fragrance > Men Fragrance | الجمال والعناية > عطور > العطور > عطور رجالية source_sentence: Bleu Eau De Parfum Men's Perfume عطر بلو للرجال - sentences: - stand fans | مراوح عمودية | مراوح عمودية | Home Appliances > Heating & Air-Conditioning > Air recycling devices > stand fans | اجهزة منزلية > التدفئة والتبريد > أجهزة تدوير الهواء > مراوح عمودية - table fans | مراوح منضدية | مراوح منضدية | Home Appliances > Heating & Air-Conditioning > Air recycling devices > table fans | اجهزة منزلية > التدفئة والتبريد > أجهزة تدوير الهواء > مراوح منضدية - Heating & Air-Conditioning | التدفئة والتبريد | التدفئة والتبريد | Home Appliances > Heating & Air-Conditioning | اجهزة منزلية > التدفئة والتبريد - Vertical ACs | أجهزة تبريد عمودية | أجهزة تبريد عمودية | Home Appliances > Heating & Air-Conditioning > Air Conditioners > Vertical ACs | اجهزة منزلية > التدفئة والتبريد > أجهزة التبريد > أجهزة تبريد عمودية - ceiling fan | مروحة سقفية | مروحة سقفية | Home Appliances > Heating & Air-Conditioning > Air recycling devices > ceiling fan | اجهزة منزلية > التدفئة والتبريد > أجهزة تدوير الهواء > مروحة سقفية - wall fans | مراوح جدارية | مراوح جدراية | Home Appliances > Heating & Air-Conditioning > Air recycling devices > wall fans | اجهزة منزلية > التدفئة والتبريد > أجهزة تدوير الهواء > مراوح جدارية source_sentence: مروحة جدارية Wall Fan - sentences: - placeholder source_sentence: مجموعة تخزين وحماية 10 في 1 من DOBE لجهاز نينتندو سويتش DOBE 10-in-1 Storage & Protection Kit for Nintendo Switch - sentences: - Energy Drinks | مشروبات الطاقة | مشروبات الطاقة | Food And Groceries > Drinks > Energy Drinks | مواد غذائية > المشروبات > مشروبات الطاقة - Coffee Drinks | مشروبات القهوة | مشروبات القهوة | Food And Groceries > Drinks > Coffee > Coffee Drinks | مواد غذائية > المشروبات > القهوة > مشروبات القهوة - Juices | عصائر | شەربەت | Food And Groceries > Drinks > Juices | مواد غذائية > المشروبات > عصائر - Drinks | المشروبات | المشروبات | Food And Groceries > Drinks | مواد غذائية > المشروبات - Tea Drinks | مشروبات الشاي | مشروبات الشاي | Food And Groceries > Drinks > Tea > Tea Drinks | مواد غذائية > المشروبات > الشاي > مشروبات الشاي - Chocolate Drinks | مشروبات الشوكولاتة | مشروبات الشوكولاتة | Food And Groceries > Drinks > Chocolate Drinks | مواد غذائية > المشروبات > مشروبات الشوكولاتة source_sentence: المشروبات - المشروبات - sentences: - Kids | أطفال | مندالان - Kids Clothes | ملابس اطفال | جلی منداڵانی | Clothes, Shoes & Bags > Kids Clothes | ملابس، أحذية وحقائب > ملابس اطفال - Nursing Bottles Sanitizers | أجهزة تعقيم وتحضير قناني الرضاعة | أجهزة تعقيم وتحضير قناني الرضاعة | Kids > Baby Feeding > Nursing & Breastfeeding > Nursing Bottles Sanitizers | أطفال > الرضاعة والتغذية > الرضاعة والرضاعة الطبيعية > أجهزة تعقيم وتحضير قناني الرضاعة - Walking Support | المساعدة على المشي | المساعدة على المشي | Kids > Strollers & High Chairs > Walking Support | أطفال > العربات وكراسي الطعام > المساعدة على المشي - Kids Footwear | أحذية الأطفال | أحذية الأطفال | Clothes, Shoes & Bags > Shoes > Kids Footwear | ملابس، أحذية وحقائب > أحذية > أحذية الأطفال - Baby Skincare | العناية ببشرة الأطفال | العناية ببشرة الأطفال | Kids > Baby Hygiene & Care > Baby Skincare | أطفال > العناية والنظافة > العناية ببشرة الأطفال source_sentence: أطفال | مندالان --- # SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2 This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. ## Model Details ### Model Description - **Model Type:** Sentence Transformer - **Base model:** [sentence-transformers/paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2) - **Maximum Sequence Length:** 128 tokens - **Output Dimensionality:** 768 dimensions - **Similarity Function:** Cosine Similarity ### Model Sources - **Documentation:** [Sentence Transformers Documentation](https://sbert.net) - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers) - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) ### Full Model Architecture ``` SentenceTransformer( (0): Transformer({'max_seq_length': 128, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'}) (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) ) ``` ## Usage ### Direct Usage (Sentence Transformers) First install the Sentence Transformers library: ```bash pip install -U sentence-transformers ``` Then you can load this model and run inference. ```python from sentence_transformers import SentenceTransformer # Download from the 🤗 Hub model = SentenceTransformer("sentence_transformers_model_id") # Run inference sentences = [ 'أطفال | مندالان', 'Kids | أطفال | مندالان', 'Kids Footwear | أحذية الأطفال | أحذية الأطفال | Clothes, Shoes & Bags > Shoes > Kids Footwear | ملابس، أحذية وحقائب > أحذية > أحذية الأطفال', ] embeddings = model.encode(sentences) print(embeddings.shape) # [3, 768] # Get the similarity scores for the embeddings similarities = model.similarity(embeddings, embeddings) print(similarities) # tensor([[1.0000, 0.9686, 0.3404], # [0.9686, 1.0000, 0.4502], # [0.3404, 0.4502, 1.0000]]) ``` ## Evaluation ### Metrics #### Information Retrieval * Dataset: `val` * Evaluated with [InformationRetrievalEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) | Metric | Value | |:--------------------|:-----------| | cosine_accuracy@1 | 0.7724 | | cosine_accuracy@5 | 0.869 | | cosine_accuracy@10 | 0.8858 | | cosine_precision@1 | 0.7724 | | cosine_precision@3 | 0.2833 | | cosine_precision@5 | 0.1738 | | cosine_precision@10 | 0.0886 | | cosine_recall@1 | 0.7724 | | cosine_recall@3 | 0.8499 | | cosine_recall@5 | 0.869 | | cosine_recall@10 | 0.8858 | | cosine_ndcg@1 | 0.7724 | | cosine_ndcg@5 | 0.8263 | | **cosine_ndcg@10** | **0.8318** | | cosine_mrr@1 | 0.7724 | | cosine_mrr@5 | 0.8118 | | cosine_mrr@10 | 0.8141 | | cosine_map@100 | 0.8152 | ## Training Details ### Training Dataset #### Unnamed Dataset * Size: 41,454 training samples * Columns: sentence_0, sentence_1, sentence_2, sentence_3, sentence_4, sentence_5, and sentence_6 * Approximate statistics based on the first 1000 samples: | | sentence_0 | sentence_1 | sentence_2 | sentence_3 | sentence_4 | sentence_5 | sentence_6 | |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------| | type | string | string | string | string | string | string | string | | details | | | | | | | | * Samples: | sentence_0 | sentence_1 | sentence_2 | sentence_3 | sentence_4 | sentence_5 | sentence_6 | |:------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | فرش تنظيف اللسان \| فرش تنظيف اللسان | Tongue Cleaning Brushes \| فرش تنظيف اللسان \| فرش تنظيف اللسان \| Health & Personal Care > Oral Hygiene > Teeth Cleaning & Care > Tongue Cleaning Brushes \| الصحة والعناية الشخصية > العناية بالفم > مستلزمات التنظيف والعناية بالأسنان > فرش تنظيف اللسان | Lip Care \| العناية بالشفاه \| العناية بالشفاه \| Beauty > Skincare > Lip Care \| الجمال والعناية > عناية بالبشرة > العناية بالشفاه | Oral Hygiene \| العناية بالفم \| العناية بالفم \| Health & Personal Care > Oral Hygiene \| الصحة والعناية الشخصية > العناية بالفم | Lip Liners \| تحديد الشفاه \| تحديد الشفاه \| Beauty > Makeup > Lips Makeup > Lip Liners \| الجمال والعناية > مكياج > مكياج الشفاه > تحديد الشفاه | General Oral Care Products \| منتجات متنوعة \| منتجات متنوعة \| Health & Personal Care > Oral Hygiene > Teeth Cleaning & Care > General Oral Care Products \| الصحة والعناية الشخصية > العناية بالفم > مستلزمات التنظيف والعناية بالأسنان > منتجات متنوعة | Electric Tooth Brushes \| فرش الأسنان الكهربائية \| فرش الأسنان الكهربائية \| Health & Personal Care > Oral Hygiene > Tooth Brushes > Electric Tooth Brushes \| الصحة والعناية الشخصية > العناية بالفم > فرش الأسنان > فرش الأسنان الكهربائية | | بنطلون منسوج بأرجل واسعة وكسرات أمامية Pleated Wide Leg Woven Trousers | Pants \| بناطيل \| Women Fashion > Pants \| ملابس نسائية > بناطيل | Women Jeans \| جينز نسائي \| Women Fashion > Women Jeans \| ملابس نسائية > جينز نسائي | Pants & Skirts \| تنورة وبنطلون نسائي \| تنورة وبنطلون نسائي \| Clothes, Shoes & Bags > Women Clothing > Pants & Skirts \| ملابس، أحذية وحقائب > ملابس نسائية > تنورة وبنطلون نسائي | Panties \| لباس داخلي \| لباس داخلي \| Clothes, Shoes & Bags > Women Clothing > Women Underwear > Panties \| ملابس، أحذية وحقائب > ملابس نسائية > ملابس داخلية نسائية > لباس داخلي | Casual Pants & Sweatpants \| بنطلون قماش \| بنطلون قماش \| Women Fashion > Pants > Casual Pants & Sweatpants \| ملابس نسائية > بناطيل > بنطلون قماش | Night Gown \| دشداشة \| دشداشة \| Women Fashion > Women Home Wear > Night Gown \| ملابس نسائية > ملابس بيت نسائية > دشداشة | | صابون جليسرين الاصلي سيت Original Glycerin Soap Set | Facial Cleansers \| غسولات وصابون الوجه \| غسولات وصابون الوجه \| Beauty > Skincare > Facial Skincare > Facial Cleansers \| الجمال والعناية > عناية بالبشرة > العناية ببشرة الوجه > غسولات وصابون الوجه | Shower Gel \| غسولات الجسم \| غسولات الجسم \| Beauty > Bathing > Bathing & Showering > Shower Gel \| الجمال والعناية > الحمام والإستحمام > الإستحمام > غسولات الجسم | Soap \| صابون \| صابون \| Beauty > Bathing > Bathing & Showering > Soap \| الجمال والعناية > الحمام والإستحمام > الإستحمام > صابون | Skincare Tools \| أدوات العناية ببشرة الوجه \| أدوات العناية ببشرة الوجه \| Beauty > Skincare > Facial Skincare > Skincare Tools \| الجمال والعناية > عناية بالبشرة > العناية ببشرة الوجه > أدوات العناية ببشرة الوجه | Lip Balm \| مرطب \| مرطب \| Beauty > Skincare > Lip Care > Lip Balm \| الجمال والعناية > عناية بالبشرة > العناية بالشفاه > مرطب | Eye Care \| العناية بالعين \| العناية بالعين \| Beauty > Skincare > Eye Care \| الجمال والعناية > عناية بالبشرة > العناية بالعين | * Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "cos_sim", "gather_across_devices": false, "directions": [ "query_to_doc" ], "partition_mode": "joint", "hardness_mode": null, "hardness_strength": 0.0 } ``` ### Training Hyperparameters #### Non-Default Hyperparameters - `per_device_train_batch_size`: 32 - `num_train_epochs`: 5 - `per_device_eval_batch_size`: 32 - `multi_dataset_batch_sampler`: round_robin #### All Hyperparameters
Click to expand - `per_device_train_batch_size`: 32 - `num_train_epochs`: 5 - `max_steps`: -1 - `learning_rate`: 5e-05 - `lr_scheduler_type`: linear - `lr_scheduler_kwargs`: None - `warmup_steps`: 0 - `optim`: adamw_torch_fused - `optim_args`: None - `weight_decay`: 0.0 - `adam_beta1`: 0.9 - `adam_beta2`: 0.999 - `adam_epsilon`: 1e-08 - `optim_target_modules`: None - `gradient_accumulation_steps`: 1 - `average_tokens_across_devices`: True - `max_grad_norm`: 1 - `label_smoothing_factor`: 0.0 - `bf16`: False - `fp16`: False - `bf16_full_eval`: False - `fp16_full_eval`: False - `tf32`: None - `gradient_checkpointing`: False - `gradient_checkpointing_kwargs`: None - `torch_compile`: False - `torch_compile_backend`: None - `torch_compile_mode`: None - `use_liger_kernel`: False - `liger_kernel_config`: None - `use_cache`: False - `neftune_noise_alpha`: None - `torch_empty_cache_steps`: None - `auto_find_batch_size`: False - `log_on_each_node`: True - `logging_nan_inf_filter`: True - `include_num_input_tokens_seen`: no - `log_level`: passive - `log_level_replica`: warning - `disable_tqdm`: False - `project`: huggingface - `trackio_space_id`: trackio - `eval_strategy`: no - `per_device_eval_batch_size`: 32 - `prediction_loss_only`: True - `eval_on_start`: False - `eval_do_concat_batches`: True - `eval_use_gather_object`: False - `eval_accumulation_steps`: None - `include_for_metrics`: [] - `batch_eval_metrics`: False - `save_only_model`: False - `save_on_each_node`: False - `enable_jit_checkpoint`: False - `push_to_hub`: False - `hub_private_repo`: None - `hub_model_id`: None - `hub_strategy`: every_save - `hub_always_push`: False - `hub_revision`: None - `load_best_model_at_end`: False - `ignore_data_skip`: False - `restore_callback_states_from_checkpoint`: False - `full_determinism`: False - `seed`: 42 - `data_seed`: None - `use_cpu`: False - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} - `parallelism_config`: None - `dataloader_drop_last`: False - `dataloader_num_workers`: 0 - `dataloader_pin_memory`: True - `dataloader_persistent_workers`: False - `dataloader_prefetch_factor`: None - `remove_unused_columns`: True - `label_names`: None - `train_sampling_strategy`: random - `length_column_name`: length - `ddp_find_unused_parameters`: None - `ddp_bucket_cap_mb`: None - `ddp_broadcast_buffers`: False - `ddp_backend`: None - `ddp_timeout`: 1800 - `fsdp`: [] - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} - `deepspeed`: None - `debug`: [] - `skip_memory_metrics`: True - `do_predict`: False - `resume_from_checkpoint`: None - `warmup_ratio`: None - `local_rank`: -1 - `prompts`: None - `batch_sampler`: batch_sampler - `multi_dataset_batch_sampler`: round_robin - `router_mapping`: {} - `learning_rate_mapping`: {}
### Training Logs | Epoch | Step | Training Loss | val_cosine_ndcg@10 | |:------:|:----:|:-------------:|:------------------:| | 0.3858 | 500 | 1.7692 | - | | 0.7716 | 1000 | 1.1953 | - | | 1.0 | 1296 | - | 0.7897 | | 1.1574 | 1500 | 0.9931 | - | | 1.5432 | 2000 | 0.8773 | - | | 1.9290 | 2500 | 0.8350 | - | | 2.0 | 2592 | - | 0.8176 | | 2.3148 | 3000 | 0.6935 | - | | 2.7006 | 3500 | 0.6690 | - | | 3.0 | 3888 | - | 0.8264 | | 3.0864 | 4000 | 0.6284 | - | | 3.4722 | 4500 | 0.5482 | - | | 3.8580 | 5000 | 0.5434 | - | | 4.0 | 5184 | - | 0.8315 | | 4.2438 | 5500 | 0.5002 | - | | 4.6296 | 6000 | 0.4821 | - | | 5.0 | 6480 | - | 0.8318 | ### Framework Versions - Python: 3.14.3 - Sentence Transformers: 5.3.0 - Transformers: 5.5.0 - PyTorch: 2.11.0+cu130 - Accelerate: 1.13.0 - Datasets: 4.8.4 - Tokenizers: 0.22.2 ## Citation ### BibTeX #### Sentence Transformers ```bibtex @inproceedings{reimers-2019-sentence-bert, title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", author = "Reimers, Nils and Gurevych, Iryna", booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", month = "11", year = "2019", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/1908.10084", } ``` #### MultipleNegativesRankingLoss ```bibtex @misc{oord2019representationlearningcontrastivepredictive, title={Representation Learning with Contrastive Predictive Coding}, author={Aaron van den Oord and Yazhe Li and Oriol Vinyals}, year={2019}, eprint={1807.03748}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/1807.03748}, } ```