SentenceTransformer based on langtech-innovation/mRoBERTA_retrieval

This is a sentence-transformers model finetuned from langtech-innovation/mRoBERTA_retrieval. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: langtech-innovation/mRoBERTA_retrieval
Maximum Sequence Length: 512 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'RobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("nicolauduran45/mRoBERTA_retrieval-scientific_domain")
# Run inference
queries = [
    "Llegums",
]
documents = [
    "La salinitat , un factor d'estrès abiòtic , té efectes negatius en els cigrons . El CO 2 , els àcids orgànics i els minerals derivats del Ca s'utilitzen per reduir els efectes de la salinitat . D'aquesta manera s'inicia el mecanisme d'acceptació de la sal . Per eliminar aquests efectes negatius , en aquest estudi , es van aplicar reguladors del creixement de les plantes ( àcid salicílic [ SA ] i àcid giberèl·lic [ GA 3 ] ) i CaCl 2 en dosis baixes a genotips de cigrons exposats a diferents dosis d'estrès salí de NaCl . La investigació es va establir en hivernacles de la Universitat de Ciències Aplicades d'Isparta , Facultat d'Agricultura , Cultius de Camp , l'any 2021 , segons parcel·les completament aleatòries dividides en un disseny d'assaig dividit amb tres rèpliques . Les aplicacions inhibidores aplicades a genotips sota estrès salí van tenir un efecte positiu en els trets examinats en comparació amb els controls . Entre aquestes aplicacions d'inhibidors , es va determinar GA 3 com la més eficaç , seguida de SA i CaCl 2 . En general , amb un augment de la dosi de sal , totes les propietats van disminuir excepte el temps mitjà de germinació i el contingut de prolina . Entre els genotips , es va trobar que Isık-05 era superior pel que fa a les característiques de plàntula i germinació sota estrès salí , mentre que İspanyol era més sensible . Com a resultat , es va predir que les plantes de cigrons sota estrès de sal podrien alleujar-se donant nivells baixos de GA 3 a l'aigua de reg per millorar l'emergència i el desenvolupament .",
    "L'anàlisi d'enriquiment de l'ontologia gènica en dues mostres familiars independents posa de manifest els processos biològicament plausibles per als trastorns de l'espectre autista Estudis recents d'associació a tot el genoma ( GWAS ) han implicat una sèrie de gens de vies biològiques discretes en l'etiologia de l'autisme . Tanmateix , malgrat la forta influència dels factors genètics , els estudis d'associació encara han d'identificar gens o SNP d'efectes principals replicats estadísticament robusts . Apliquem el principi de la metodologia de prova de la relació SNP descrita per O'Dushlaine et al. , ( 2009 ) a més de 2100 famílies del Projecte del genoma de l'autisme ( AGP ) . Mitjançant un disseny en dues etapes , examinem l'enriquiment de l'associació en 5955 classificacions úniques d'ontologia genètica en quatre agrupacions basades en dues classificacions fenotípiques i dues ancestrals . A partir de les estimacions de la simulació , identifiquem l'excés d'enriquiment de l'associació en totes les anàlisis . Observem l'enriquiment en associació de conjunts de gens implicats en diversos processos biològics , com ara el metabolisme del piruvat , l'activació del factor de transcripció , la senyalització cel·lular i la regulació del cicle cel·lular . Tant els gens com els processos que mostren enriquiment s'han examinat prèviament en trastorns autistes i ofereixen plausibilitat biològica a aquestes troballes .",
    'La baixada de microRNA-9 redueix la resposta inflamatòria i la proliferació de fibroblasts en ratolins amb fibrosi pulmonar idiopàtica a través de la via TGF-β-Smad3 mediada per ANO1.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 768] [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.0798, 0.0008, 0.0187]])

Evaluation

Metrics

Triplet

Dataset: mRoBERTA_retrieval-eval
Evaluated with TripletEvaluator

Metric	Value
cosine_accuracy	0.9517

Training Details

Training Dataset

Unnamed Dataset

Size: 61,083 training samples
Columns: query and text
Approximate statistics based on the first 1000 samples:
query text
type string string
details
min: 1 tokens
mean: 6.99 tokens
max: 57 tokens

min: 2 tokens
mean: 218.94 tokens
max: 512 tokens

	query	text
type	string	string
details	min: 1 tokens mean: 6.99 tokens max: 57 tokens	min: 2 tokens mean: 218.94 tokens max: 512 tokens

Samples:

query	text
`Base de dades espacial`	MEDIS —Una base de datos espacial completa sobre las islas mediterráneas para la investigación biogeográfica y evolutiva Motivación Las características intrínsecas de las islas las convierten en un sistema de estudio único para la investigación de la dinámica ecológica y evolutiva . La cuenca mediterránea , un punto caliente de biodiversidad rico en islas , aún carece de una base de datos espacial completa para estas características geográficas . Este estudio presenta la primera base de datos espacial completa de todas las islas mediterráneas mayores de 0,01 km 2 , ayudando a las investigaciones ecológicas y la investigación interdisciplinaria . Principales tipos de variable contenida La base de datos espacial MEDIS ofrece información detallada sobre 39 variables geográficas , climáticas , ecológicas y de uso del suelo , incluyendo el área de la isla , el perímetro , las métricas de aislamiento , el espacio climático , los datos del terreno , la cobertura del suelo , la paleogeografía ...
`treatment`	Les persones amb trastorn de l'espectre autista ( TEA ) tenen un major risc de patir una o més condicions psiquiàtriques concomitants . Quan estan presents , aquestes condicions s'associen a deteriorament i angoixa addicionals . Per tant , és crucial que els metges i els investigadors comprenguin i abordin adequadament aquests reptes . Tanmateix , a causa de la superposició de símptomes , l'eclipsi diagnòstic i la presentació ambigua dels símptomes en el TEA , l'avaluació de les condicions concomitants en el TEA és complexa i desafiant . De la mateixa manera , els factors de diferència individual , com l'edat , el funcionament intel·lectual i el gènere , poden influir en la presentació de símptomes concomitants . En relació , un marc transdiagnòstic pot oferir utilitat per avaluar i tractar les condicions concomitants . Tanmateix , amb l'excepció dels trastorns d'ansietat , la investigació sobre el tractament de les condicions psiquiàtriques concomitants en el TEA és relativament limit...
`CSI`	Ergodic Secrecy Capacity Analysis Over Composite Weibull/Inverse Gamma Fading Channel In this work , the secrecy performance of traditional Wyner ’ s model over more realistic composite wireless fading channel , i.e. , Weibull/Inverse Gamma , is investigated . The closed-form expression of average ergodic secrecy capacity is developed in terms of Fox ’ s H-function . The efficacy of the proposed solution is validated through Monte–Carlo simulation . Moreover , the importance of channel state information of eavesdropper and the multipath parameter in compensating the secrecy concern at the physical layer is comprehensively discussed .

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false
}

Evaluation Dataset

Unnamed Dataset

Size: 7,665 evaluation samples
Columns: query, text, and neg_text

Approximate statistics based on the first 1000 samples:

	query	text	neg_text
type	string	string	string
details	min: 1 tokens mean: 7.26 tokens max: 65 tokens	min: 2 tokens mean: 220.71 tokens max: 512 tokens	min: 4 tokens mean: 229.24 tokens max: 512 tokens

Samples:

query	text	neg_text
`Commemoració`	`Simon Perego, Pleurons-les. Les Juifs de Paris et la commémoration de la Shoah (1944-1967) (Ceyzérieu, Champ Vallon, 2020)`	`Problemes d'equilibri de poblacions inverses: heurístiques per a l'agregació/ruptura de cúmuls sòlids en metalls líquids`
`Tumor cartilaginós`	( La condrometaplàsia de la laringe és una malaltia poc freqüent . Informem d'un cas presentat al servei d'otorinolaringologia del nostre institut l'any 2015 . ) PRESENTACIÓ DEL CAS : Home de 62 anys sense antecedents de trauma presentat amb disfonia progressiva , dispnea , sense cap disfàgia . Un examen laringoscòpic de fibra òptica va revelar una massa nodular sorgida a la unió de 1/3 anterior i 2/3 posterior de la corda vocal esquerra . Una tomografia computeritzada de la regió del coll va mostrar una massa arrodonida i circumscrita sense infiltració dels teixits circumdants . La investigació histològica de la lesió va revelar la presència de teixit cartilaginós fibroelàstic , envoltat per una vora fina de teixit fibrós , amb àrees hipercel·lulars rares , cèl·lules binucleades ocasionals , hipercromàsia lleu i un perfil nuclear irregular . No hi havia activitat mitòtica . El pacient no tenia antecedents de traumatisme laringi . L'aparició subaguda i progressiva dels símptomes clínic...	`The release of sexual conflict after sex loss is associated with evolutionary changes in gene expression`
`Mutation`	Importance of host cell arginine uptake in Francisella phagosomal escape and ribosomal protein amounts Upon entry into mammalian host cells , the pathogenic bacterium Francisella must import host cell arginine to multiply actively in the host cytoplasm . We identified and functionally characterized an arginine transporter ( hereafter designated ArgP ) whose inactivation considerably delayed bacterial phagosomal escape and intracellular multiplication . Intramacrophagic growth of the ΔargP mutant was fully restored upon supplementation of the growth medium with excess arginine , in both F. tularensis subsp . novicida and F. tularensis subsp . holarctica LVS , demonstrating the importance of arginine acquisition in these two subspecies . High-resolution mass spectrometry revealed that arginine limitation reduced the amount of most of the ribosomal proteins in the ΔargP mutant . In response to stresses such as nutritional limitation , repression of ribosomal protein synthesis has been obs...	La decoració esculpida de les lloses del presbiteri de l'església de Santa Maria Assunta d'Aquileia representa un univers harmoniós que canalitza la matèria en procés de transformació , com l'espiritualització del caro a través dels sagraments . Els diferents elements que formen aquest univers s'uneixen entre si per emfatitzar la coherència de la Creació . En aquest espai construït , els límits entre planta , mineral , animal i ornamental es dissolen i es fonen , igual que la distinció entre animals coneguts i imaginaris . En una de les lloses del presbiteri s'hi representen dues criatures amb característiques d'espècies animals terrestres , celestes i aquàtiques . Beuen de la Font-Arbre de la Vida , fent un enllaç entre l'aquí sota i el més enllà i aportant esperança de salvació . Enfrontades , s'oposen per entorpir el pas dels fidels , reforçant la funció separadora del presbiteri , marcant la frontera entre la nau i el cor , entre els laics i els clergues . Presentats sobre un supor...

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 32
per_device_eval_batch_size: 32
learning_rate: 2e-05
warmup_ratio: 0.1
fp16: True
load_best_model_at_end: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 32
per_device_eval_batch_size: 32
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 3
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
hub_revision: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}

Training Logs

Epoch	Step	Training Loss	Validation Loss	mRoBERTA_retrieval-eval_cosine_accuracy
0.0524	100	2.4337	-	-
0.1048	200	2.0811	-	-
0.1572	300	1.7428	-	-
0.2095	400	1.6934	-	-
0.2619	500	1.6396	-	0.9237
-1	-1	-	-	0.9237
0.2619	500	-	1.9230	-
0.3143	600	1.5936	-	-
0.3667	700	1.5836	-	-
0.4191	800	1.5668	-	-
0.4715	900	1.4878	-	-
0.5238	1000	1.4752	-	0.9327
-1	-1	-	-	0.9327
0.5238	1000	-	1.7688	-
0.5762	1100	1.4235	-	-
0.6286	1200	1.4699	-	-
0.6810	1300	1.4307	-	-
0.7334	1400	1.4336	-	-
0.7858	1500	1.3656	-	0.9395
-1	-1	-	-	0.9395
0.7858	1500	-	1.6827	-
0.8381	1600	1.3756	-	-
0.8905	1700	1.3727	-	-
0.9429	1800	1.3891	-	-
0.9953	1900	1.3692	-	-
1.0477	2000	1.1712	-	0.9387
-1	-1	-	-	0.9387
1.0477	2000	-	1.6457	-
1.1001	2100	1.1501	-	-
1.1524	2200	1.1047	-	-
1.2048	2300	1.1881	-	-
1.2572	2400	1.1363	-	-
1.3096	2500	1.1312	-	0.9442
-1	-1	-	-	0.9442
1.3096	2500	-	1.6169	-
1.3620	2600	1.1604	-	-
1.4144	2700	1.1235	-	-
1.4667	2800	1.1338	-	-
1.5191	2900	1.1085	-	-
1.5715	3000	1.0904	-	0.9464
-1	-1	-	-	0.9464
1.5715	3000	-	1.5949	-
1.6239	3100	1.1186	-	-
1.6763	3200	1.1282	-	-
1.7287	3300	1.0999	-	-
1.7810	3400	1.0953	-	-
1.8334	3500	1.0732	-	0.9470
-1	-1	-	-	0.9470
1.8334	3500	-	1.5622	-
1.8858	3600	1.0556	-	-
1.9382	3700	1.0829	-	-
1.9906	3800	1.0777	-	-
2.0430	3900	0.9616	-	-
2.0953	4000	0.9176	-	0.9507
-1	-1	-	-	0.9507
2.0953	4000	-	1.5553	-
2.1477	4100	0.8813	-	-
2.2001	4200	0.9	-	-
2.2525	4300	0.9044	-	-
2.3049	4400	0.9249	-	-
2.3573	4500	0.8944	-	0.9503
-1	-1	-	-	0.9503
2.3573	4500	-	1.5397	-
2.4096	4600	0.8909	-	-
2.4620	4700	0.9085	-	-
2.5144	4800	0.873	-	-
2.5668	4900	0.8816	-	-
2.6192	5000	0.8927	-	0.9512
-1	-1	-	-	0.9512
2.6192	5000	-	1.5292	-
2.6716	5100	0.9222	-	-
2.7239	5200	0.9022	-	-
2.7763	5300	0.9096	-	-
2.8287	5400	0.8729	-	-
2.8811	5500	0.8641	-	0.9517
-1	-1	-	-	0.9517
2.8811	5500	-	1.5246	-

Framework Versions

Python: 3.12.11
Sentence Transformers: 5.1.1
Transformers: 4.56.2
PyTorch: 2.8.0+cu126
Accelerate: 1.10.1
Datasets: 4.0.0
Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}