SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder

This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: bkai-foundation-models/vietnamese-bi-encoder
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("tanbinh2210/vietnamese-bi-encoder-synthetic")
# Run inference
sentences = [
    'Khi tham_gia tố_tụng , đương_sự có nghĩa_vụ cung_cấp chứng_cứ như_thế_nào để bảo_vệ quyền_lợi của mình ?',
    'ra thì bên đương_sự đó không phải chứng_minh . 3 . Đương_sự có người đại_diện tham_gia tố_tụng thì sự thừa_nhận của người đại_diện được coi là sự thừa_nhận của đương_sự nếu không vượt quá phạm_vi đại_diện . Điều 93 . Chứng_cứ Chứng_cứ trong vụ_việc dân_sự là những gì có thật được đương_sự và cơ_quan , tổ_chức , cá_nhân khác giao_nộp , xuất_trình cho Tòa_án trong quá_trình tố_tụng hoặc do Tòa_án thu_thập được theo trình_tự , thủ_tục do Bộ_luật này quy_định và được Tòa_án sử_dụng làm căn_cứ để xác_định các tình_tiết khách_quan của vụ án cũng như xác_định yêu_cầu hay sự phản_đối của đương_sự là có căn_cứ và hợp_pháp . Điều 94 . Nguồn chứng_cứ Chứng_cứ được thu_thập từ các nguồn sau đây : 1 . Tài_liệu đọc được , nghe được , nhìn được , dữ_liệu điện_tử ; 2 . Vật_chứng ; 3 . Lời khai của đương_sự ; 4 . Lời khai của người làm_chứng ; 5 . Kết_luận giám_định ; 6 . Biên_bản ghi kết_quả thẩm_định tại_chỗ ; 7 . Kết_quả định_giá tài_sản , thẩm_định giá tài_sản ; 8 . Văn_bản ghi_nhận sự_kiện , hành_vi pháp_lý_do người có chức_năng lập ; 9 . Văn_bản công_chứng , chứng_thực ;',
    'giải_quyết khiếu_nại về quyết_định xử_lý vụ_việc cạnh_tranh , bản_sao quyết_định giải_quyết khiếu_nại ( nếu có ) , cung_cấp chứng_cứ khác để bảo_vệ quyền , lợi_ích hợp_pháp của mình ; trường_hợp không cung_cấp được thì phải nêu rõ lý_do . 2 . Người bị kiện có nghĩa_vụ cung_cấp cho Tòa_án hồ_sơ giải_quyết khiếu_nại ( nếu có ) và bản_sao các văn_bản , tài_liệu mà căn_cứ vào đó để ra quyết_định hành_chính , quyết_định kỷ_luật buộc thôi_việc , quyết_định giải_quyết khiếu_nại về quyết_định xử_lý vụ_việc cạnh_tranh hoặc có hành_vi hành_chính . 3 . Người có quyền_lợi , nghĩa_vụ liên_quan có nghĩa_vụ cung_cấp chứng_cứ để bảo_vệ quyền , lợi_ích hợp_pháp của mình . Điều 79 . Những tình_tiết , sự_kiện không phải chứng_minh 1 . Những tình_tiết , sự_kiện sau đây không phải chứng_minh : a ) Những tình_tiết , sự_kiện rõ_ràng mà mọi người đều biết và được Tòa_án thừa_nhận ; b ) Những tình_tiết , sự_kiện đã được xác_định trong bản_án , quyết_định của Tòa_án đã có hiệu_lực pháp_luật ;',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 198,037 training samples
  • Columns: query, pos, and neg
  • Approximate statistics based on the first 1000 samples:
    query pos neg
    type string string string
    details
    • min: 8 tokens
    • mean: 19.59 tokens
    • max: 50 tokens
    • min: 58 tokens
    • mean: 179.82 tokens
    • max: 256 tokens
    • min: 46 tokens
    • mean: 178.89 tokens
    • max: 256 tokens
  • Samples:
    query pos neg
    Quy_định pháp_luật về lập kế_hoạch sử_dụng đất có những nguyên_tắc nào ? d ) Khai_thác hợp_lý tài_nguyên thiên_nhiên ; thích_ứng với biến_đổi khí_hậu ; đ ) Nội_dung phân_bổ và sử_dụng đất trong quy_hoạch ngành quốc_gia , quy_hoạch_vùng , quy_hoạch tỉnh phải bảo_đảm phù_hợp với quy_hoạch sử_dụng đất quốc_gia . 2 . Việc lập kế_hoạch sử_dụng đất phải tuân_thủ các nguyên_tắc sau đây : a ) Phù_hợp với chiến_lược , kế_hoạch phát_triển kinh_tế-xã hội , quốc_phòng , an_ninh ; b ) Kế_hoạch sử_dụng đất phải phù_hợp với quy_hoạch sử_dụng đất cùng cấp đã được cơ_quan nhà_nước có thẩm_quyền phê_duyệt ; đối_với kế_hoạch sử_dụng đất cấp tỉnh phải phù_hợp với phương_án phân_bổ , khoanh vùng_đất_đai trong quy_hoạch tỉnh ; c ) Sử_dụng đất tiết_kiệm và có hiệu_quả ; d ) Khai_thác hợp_lý tài_nguyên thiên_nhiên và bảo_vệ môi_trường ; thích_ứng với biến_đổi khí_hậu ; đ ) Bảo_vệ , tôn_tạo di_tích lịch_sử - văn_hóa , danh_lam_thắng_cảnh ; e ) Kế_hoạch của ngành , lĩnh_vực , địa_phương có sử_dụng đất phải bảo_đảm phù_hợp với quy_hoạch , kế_hoạch sử_dụng đất đã được cơ_quan nhà_nước có thẩm_quyền quyết_định , phê_duyệt . Điều 36 . Hệ_thống quy_hoạch , kế_hoạch sử_dụng đất phê_duyệt và điều_chỉnh quy_hoạch có tính_chất kỹ_thuật , chuyên_ngành để triển_khai các nội_dung quy_định tại khoản 2 Điều này được thực_hiện theo quy_định của pháp_luật có liên_quan . Điều 24 . Nội_dung quy_hoạch sử_dụng đất quốc_gia 1 . Nội_dung quy_hoạch sử_dụng đất quốc_gia xác_định việc phân_bổ và tổ_chức không_gian sử_dụng đất cho các mục_tiêu phát_triển kinh_tế - xã_hội , quốc_phòng , an_ninh , bảo_vệ môi_trường , phòng , chống thiên_tai và ứng_phó biến_đổi khí_hậu trên cơ_sở tiềm_năng đất_đai và nhu_cầu sử_dụng đất của các ngành , lĩnh_vực mang tính liên_vùng , liên tỉnh . 2 . Quy_hoạch sử_dụng đất quốc_gia bao_gồm những nội_dung chủ_yếu sau đây : a ) Phân_tích , đánh_giá về các yếu_tố , điều_kiện tự_nhiên , nguồn_lực , bối_cảnh trực_tiếp tác_động và thực_trạng sử_dụng đất của các ngành , lĩnh_vực ; b ) Dự_báo xu_thế biến_động của việc sử_dụng đất ; c ) Xác_định các quan_điểm và mục_tiêu sử_dụng đất trong thời_kỳ mới ; d ) Định_hướng phân_bổ không_gian và chỉ_tiêu sử_dụng đất nông_nghiệp , đất rừng ; đ ) Định_hướng phân_bổ không_gian và chỉ_tiêu sử_dụng đất phi_nông_nghiệp ;
    Giấy chứng_nhận hành_nghề xử_lý vật_thể thuộc diện kiểm_dịch thực_vật có giá_trị trong bao_lâu ? Giấy chứng_nhận sức_khỏe của người_quản_lý , điều_hành và những người trực_tiếp thực_hiện xử_lý vật_thể thuộc diện kiểm_dịch thực_vật ; đ ) Tài_liệu về quy_trình kỹ_thuật ; danh_mục phương_tiện , trang_thiết_bị hành_nghề tại thời_điểm đề_nghị ; e ) Giấy_tờ chứng_minh đủ điều_kiện phòng cháy và chữa_cháy , bảo_vệ môi_trường theo quy_định của pháp_luật . 3 . Trình_tự , thủ_tục cấp lại Giấy chứng_nhận hành_nghề xử_lý vật_thể thuộc diện kiểm_dịch thực_vật thực_hiện theo quy_định tại khoản 2 Điều 38 của Luật này . Điều 40 . Hiệu_lực của Giấy chứng_nhận hành_nghề xử_lý vật_thể thuộc diện kiểm_dịch thực_vật 1 . Giấy chứng_nhận hành_nghề xử_lý vật_thể thuộc diện kiểm_dịch thực_vật có giá_trị trong thời_hạn 05 năm . 2 . Trước 03 tháng tính đến ngày Giấy chứng_nhận hành_nghề xử_lý vật_thể thuộc diện kiểm_dịch thực_vật hết hạn , tổ_chức hành_nghề phải nộp hồ_sơ cho cơ_quan có thẩm_quyền cấp giấy chứng_nhận trong trường_hợp có nhu_cầu tiếp_tục hành_nghề . Điều 41 . Thu_hồi Giấy chứng_nhận hành_nghề xử_lý vật_thể thuộc diện kiểm_dịch thực_vật định tại Điều 6 Thông_tư này cho Cục Bảo_vệ thực_vật trong trường_hợp có nhu_cầu tiếp_tục hành_nghề xử_lý vật_thể . Điều 13 . Điều_khoản thi_hành 1 . Thông_tư này có hiệu_lực thi_hành kể từ ngày 30 tháng 03 năm 2015 . 2 . Thay_thế Quyết_định số 89/2007 / QĐ-BNN ngày 01 tháng 11 năm 2007 của Bộ_trưởng Bộ Nông_nghiệp và_Phát_triển_nông_thôn ban_hành Quy_định quản_lý_nhà_nước về hoạt_động xông_hơi khử_trùng vật_thể thuộc diện kiểm_dịch thực_vật ; bãi_bỏ Điều 1 của Thông_tư số 85/2011 / TT-BNNPTNT ngày 14 tháng 12 năm 2011 của Bộ_trưởng Bộ Nông_nghiệp và_Phát_triển_nông_thôn về việc Sửa_đổi , bổ_sung một_số điều của Quyết_định số 89/2007 / QĐ-BNN ngày 01 tháng 11 năm 2007 Quy_định quản_lý_nhà_nước về hoạt_động xông_hơi khử_trùng vật_thể thuộc diện kiểm_dịch thực_vật và Quyết_định số 97/2008 / QĐ-BNN ngày 6/10/2008 Quy_định về việc cấp chứng_chỉ hành_nghề sản_xuất , gia_công , sang chai , đóng_gói , buôn_bán thuốc bảo_vệ thực_vật của Bộ_Nông_nghiệp và_Phát_triển_nông_thôn .
    Thanh_niên xung_phong được hưởng chế_độ , chính_sách gì khi tham_gia và sau khi hoàn_thành nhiệm_vụ ? quyết việc_làm , giáo_dục , đào_tạo , rèn_luyện thanh_niên và các nhiệm_vụ đột_xuất , cấp_bách , khó_khăn , gian_khổ trong xây_dựng và bảo_vệ Tổ_quốc . 2 . Nhà_nước ban_hành chính_sách để thanh_niên xung_phong thực_hiện các nhiệm_vụ sau đây : a ) Tham_gia dự_án phát_triển kinh_tế - xã_hội được Nhà_nước giao ; b ) Tham_gia khắc_phục hậu_quả thiên_tai , dịch_bệnh ; bảo_vệ môi_trường ; giữ_gìn trật_tự , an_toàn xã_hội , quốc_phòng , an_ninh quốc_gia ; c ) Tham_gia_sản_xuất hàng hóa , cung_ứng dịch_vụ , chuyển_giao tiến_bộ kỹ_thuật hỗ_trợ sản_xuất , đào_tạo nghề gắn với tạo việc_làm cho thanh_niên ; d ) Các nhiệm_vụ đột_xuất , cấp_bách , khó_khăn , gian_khổ theo quy_định của pháp_luật . 3 . Nhà_nước bảo_đảm điều_kiện về kinh_phí , cơ_sở_vật_chất và trang_thiết_bị cần_thiết cho tổ_chức thanh_niên xung_phong khi thực_hiện nhiệm_vụ được Nhà_nước giao . 4 . Thanh_niên xung_phong được hưởng chế_độ , chính_sách trong và sau khi hoàn_thành nhiệm_vụ . 5 . Chính_phủ quy_định chi_tiết Điều này . Điều 23 . Chính_sách đối_với thanh_niên tình_nguyện sách_xã_hội cho đội_viên thanh_niên xung_phong thuộc tổng_đội để sản_xuất , cung_ứng dịch_vụ theo quy_định của pháp_luật . 2 . Trung_tâm , Trường Giáo_dục lao_động xã_hội của tổ_chức thanh_niên xung_phong được hưởng các chính_sách sau đây : a ) Được_hưởng chính_sách ưu_đãi đối_với hoạt_động cai_nghiện ma_túy và giải_quyết việc_làm cho người sau cai_nghiện ; hoạt_động dạy nghề và dịch_vụ việc_làm theo quy_định của pháp_luật ; b ) Nhà_nước đảm_bảo cho các hoạt_động thường_xuyên của bộ_máy quản_lý quy_định tại khoản 2 Điều 13 Nghị_định này theo quy_định của pháp_luật . 3 . Doanh_nghiệp thuộc tổ_chức thanh_niên xung_phong sản_xuất , cung_ứng các sản_phẩm , dịch_vụ công_ích do Nhà_nước giao được cấp kinh_phí tương_ứng và được hưởng các cơ_chế , chính_sách , ưu_đãi khác theo quy_định của pháp_luật . Doanh_nghiệp thuộc tổ_chức thanh_niên xung_phong tiếp_nhận đội_viên thanh_niên xung_phong sau khi hoàn_thành nhiệm_vụ hoặc thanh_niên sau cai_nghiện ma túy được hưởng các chính_sách quy_định tại điểm b , điểm c khoản 1 Điều 15 Nghị_định này . Điều 16 . Chính_sách đối_với đội_viên thanh_niên xung_phong
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

json

  • Dataset: json
  • Size: 198,037 evaluation samples
  • Columns: query, pos, and neg
  • Approximate statistics based on the first 1000 samples:
    query pos neg
    type string string string
    details
    • min: 8 tokens
    • mean: 19.87 tokens
    • max: 49 tokens
    • min: 43 tokens
    • mean: 179.64 tokens
    • max: 256 tokens
    • min: 23 tokens
    • mean: 179.49 tokens
    • max: 256 tokens
  • Samples:
    query pos neg
    Bộ Y_tế quy_định thế_nào về bảo_vệ , chăm_sóc sức khỏe sinh_sản , sức khỏe tình_dục cho thanh_niên ? thức , kỹ_năng khởi_nghiệp cho thanh_niên . 2 . Cung_cấp thông_tin về thị_trường ; hỗ_trợ pháp_lý , khoa_học và công_nghệ , xúc_tiến đầu_tư , phát_triển nguồn nhân_lực ; ưu_đãi vay vốn từ các tổ_chức tín_dụng theo quy_định của pháp_luật . 3 . Khuyến_khích , tạo môi_trường thuận_lợi để thanh_niên khởi_nghiệp sáng_tạo ứng_dụng khoa_học và công_nghệ . 4 . Ưu_đãi , hỗ_trợ tổ_chức , cá_nhân tham_gia cung_ứng dịch_vụ hỗ_trợ thanh_niên khởi_nghiệp ; khuyến_khích thành_lập quỹ khởi_nghiệp cho thanh_niên theo quy_định của pháp_luật Điều 19 . Chính_sách về bảo_vệ , chăm_sóc và nâng cao sức khỏe 1 . Tư_vấn , hỗ_trợ nâng cao sức_khỏe cho thanh_niên ; phòng , chống bạo_lực gia_đình , bạo_lực học_đường , xâm_hại tình_dục ; phòng , chống ma_túy , HIV / AIDS ; phòng_ngừa bệnh lây_truyền qua đường tình_dục , bệnh_xã_hội khác và các nguy_cơ ảnh_hưởng đến sức khỏe thể_chất , tinh_thần của thanh_niên . 2 . Bảo_đảm cho thanh_niên được cung_cấp thông_tin , tiếp_cận dịch_vụ thân_thiện về bảo_vệ , chăm_sóc sức khỏe sinh_sản , sức khỏe tình_dục ; được tư_vấn , khám sức khỏe trước khi kết_hôn thao cho thanh_niên ; d ) Hướng_dẫn thực_hiện các quy_định của pháp_luật về chính_sách tạo điều_kiện , hỗ_trợ các cơ_quan , tổ_chức , cá_nhân phát_triển các hoạt_động tư_vấn về tình_yêu , hôn_nhân và hạnh_phúc gia_đình cho thanh_niên . 9 . Bộ Y_tế Ban_hành hoặc trình cấp có thẩm_quyền ban_hành chương_trình , dự_án chăm_sóc sức_khỏe ; cung_cấp dịch_vụ chăm_sóc sức khỏe sinh_sản , sức khỏe tình_dục ; phòng_chống tác_hại thuốc_lá ; phòng_chống tác_hại rượu_bia , phòng_chống các bệnh truyền_nhiễm và các bệnh_xã_hội khác ; thực_hiện kế_hoạch hóa gia_đình cho thanh_niên . 10 . Bộ Quốc_phòng a ) Xây_dựng chương_trình giáo_dục , bồi_dưỡng kiến_thức quốc_phòng đối_với thanh_niên trong tình_hình mới ; b ) Hướng_dẫn thực_hiện chế_độ , chính_sách ưu_tiên đào_tạo nghề và giải_quyết việc_làm cho thanh_niên tham_gia nghĩa_vụ_quân_sự xuất_ngũ theo quy_định và thanh_niên tình_nguyện đã hoàn_thành nhiệm_vụ tham_gia phát_triển kinh_tế - xã_hội trong các khu kinh_tế quốc_phòng . 11 . Bộ Công_an a ) Xây_dựng chương_trình giáo_dục , bồi_dưỡng kiến_thức bảo_vệ an_ninh Tổ_quốc đối_với thanh_niên trong tình_hình mới ;
    Thời_hạn để niêm_yết , công_bố , gửi bản_án và thông_báo là bao_lâu kể từ ngày bản_án có hiệu_lực pháp_luật ? chức , cá_nhân khởi_kiện được Tòa_án cấp trích_lục bản_án . 2 . Trong thời_hạn 10 ngày , kể từ ngày tuyên_án , Tòa_án phải giao hoặc gửi bản_án cho các đương_sự , cơ_quan , tổ_chức , cá_nhân khởi_kiện và Viện_kiểm_sát cùng cấp . 3 . Bản_án sơ_thẩm có hiệu_lực pháp_luật của Tòa_án giải_quyết vụ án dân_sự bảo_vệ quyền_lợi người tiêu_dùng do tổ_chức xã_hội tham_gia bảo_vệ người tiêu_dùng khởi_kiện phải được niêm_yết công_khai tại trụ_sở Tòa_án và công_bố công_khai trên một trong các báo hàng ngày của trung_ương hoặc địa_phương trong ba số liên_tiếp . Bản_án sơ_thẩm có hiệu_lực pháp_luật của Tòa_án có liên_quan đến trách_nhiệm bồi_thường của Nhà_nước phải được Tòa_án cấp sơ_thẩm gửi cho cơ_quan quản_lý_nhà_nước có thẩm_quyền về bồi_thường nhà_nước . Bản_án sơ_thẩm có hiệu_lực pháp_luật của Tòa_án có liên_quan đến việc thay_đổi hộ_tịch của cá_nhân phải được Tòa_án cấp sơ_thẩm thông_báo bằng văn_bản kèm theo trích_lục bản_án cho Ủy_ban_nhân_dân nơi đã đăng_ký hộ_tịch của cá_nhân đó theo quy_định của Luật hộ_tịch . Thời_hạn niêm_yết , công_bố , gửi bản_án , thông_báo quy_định tại khoản này là 05 ngày làm_việc , kể từ ngày bản_án có hiệu_lực pháp_luật . cùng của cơ_quan , tổ_chức được cấp , tống_đạt , thông_báo ; b ) Niêm_yết bản_sao tại nơi cư_trú hoặc nơi cư_trú cuối_cùng của cá_nhân , nơi có trụ_sở hoặc trụ_sở cuối_cùng của cơ_quan , tổ_chức được cấp , tống_đạt , thông_báo ; c ) Lập biên_bản về việc thực_hiện thủ_tục niêm_yết công_khai , trong đó ghi rõ ngày , tháng , năm niêm_yết . 3 . Thời_hạn niêm_yết công_khai văn_bản tố_tụng là 15 ngày , kể từ ngày niêm_yết . Điều 180 . Thủ_tục thông_báo trên phương_tiện_thông_tin_đại_chúng 1 . Việc thông_báo trên phương_tiện_thông_tin_đại_chúng được thực_hiện khi pháp_luật có quy_định hoặc có căn_cứ xác_định là việc niêm_yết công_khai không bảo_đảm cho người được cấp , tống_đạt , thông_báo nhận được thông_tin về văn_bản cần được cấp , tống_đạt , thông_báo . 2 . Việc thông_báo trên phương_tiện_thông_tin_đại_chúng có_thể được thực_hiện nếu có yêu_cầu của các đương_sự khác . Trong trường_hợp này , lệ_phí thông_báo trên phương_tiện_thông_tin_đại_chúng do đương_sự có yêu_cầu thông_báo chịu .
    Quy_định pháp_luật quy_định như_thế_nào về quyền giám_sát của Thường_trực Hội_đồng_nhân_dân ? định của Ủy_ban_nhân_dân cùng cấp và nghị_quyết của Hội_đồng_nhân_dân cấp dưới trực_tiếp có dấu_hiệu trái với Hiến_pháp , luật , văn_bản quy_phạm_pháp_luật của cơ_quan nhà_nước cấp trên , nghị_quyết của Hội_đồng_nhân_dân cùng cấp . 2 . Xem_xét việc trả_lời chất_vấn của những người bị chất_vấn quy_định tại điểm đ khoản 1 Điều 5 của Luật này trong thời_gian giữa hai kỳ họp Hội_đồng_nhân_dân . 3 . Giám_sát chuyên_đề . 4 . Tổ_chức hoạt_động giải_trình tại phiên họp Thường_trực Hội_đồng_nhân_dân . 5 . Giám_sát việc giải_quyết khiếu_nại , tố_cáo của công_dân . 6 . Giám_sát việc giải_quyết kiến_nghị của cử_tri . Điều 67 . Chương_trình giám_sát của Thường_trực Hội_đồng_nhân_dân Tòa_án nhân_dân , Viện_kiểm_sát nhân_dân , cơ_quan thi_hành án dân_sự cùng cấp và Ban của Hội_đồng_nhân_dân cấp mình ; giám_sát quyết_định của Ủy_ban_nhân_dân cùng cấp và nghị_quyết của Hội_đồng_nhân_dân cấp dưới trực_tiếp ; b ) Thường_trực Hội_đồng_nhân_dân giám_sát việc tuân theo Hiến_pháp , pháp_luật ở địa_phương và việc thực_hiện nghị_quyết của Hội_đồng_nhân_dân cùng cấp ; giám_sát hoạt_động của Ủy_ban_nhân_dân , các cơ_quan thuộc Ủy_ban_nhân_dân , Tòa_án nhân_dân , Viện_kiểm_sát nhân_dân , cơ_quan thi_hành án dân_sự cùng cấp và Hội_đồng_nhân_dân cấp dưới ; giám_sát quyết_định của Ủy_ban_nhân_dân cùng cấp , nghị_quyết của Hội_đồng_nhân_dân cấp dưới trực_tiếp ; giúp Hội_đồng_nhân_dân thực_hiện quyền giám_sát theo sự phân_công của Hội_đồng_nhân_dân ; c ) Ban của Hội_đồng_nhân_dân giúp Hội_đồng_nhân_dân giám_sát hoạt_động của Tòa_án nhân_dân , Viện_kiểm_sát nhân_dân , cơ_quan thi_hành án dân_sự cùng cấp ; giám_sát hoạt_động của Ủy_ban_nhân_dân , các cơ_quan thuộc Ủy_ban_nhân_dân cùng cấp thuộc lĩnh_vực Ban phụ_trách ; giám_sát văn_bản quy_phạm_pháp_luật thuộc lĩnh_vực Ban phụ_trách ;
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • overwrite_output_dir: True
  • per_device_train_batch_size: 12
  • per_device_eval_batch_size: 12
  • learning_rate: 1e-06
  • num_train_epochs: 4
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: True
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 12
  • per_device_eval_batch_size: 12
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 1e-06
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss
0.0379 500 0.6014
0.0757 1000 0.5533
0.1136 1500 0.5199
0.1515 2000 0.4743
0.1894 2500 0.4334
0.2272 3000 0.4158
0.2651 3500 0.401
0.3030 4000 0.3592
0.3408 4500 0.3334
0.3787 5000 0.3045
0.4166 5500 0.2926
0.4544 6000 0.2879
0.4923 6500 0.2603
0.5302 7000 0.2616
0.5681 7500 0.2466
0.6059 8000 0.2486
0.6438 8500 0.238
0.6817 9000 0.2364
0.7195 9500 0.2403
0.7574 10000 0.2194
0.7953 10500 0.2153
0.8331 11000 0.2266
0.8710 11500 0.2166
0.9089 12000 0.2175
0.9468 12500 0.1989
0.9846 13000 0.2101
1.0225 13500 0.2016
1.0604 14000 0.193
1.0982 14500 0.1907
1.1361 15000 0.1922
1.1740 15500 0.1873
1.2118 16000 0.1888
1.2497 16500 0.1891
1.2876 17000 0.1828
1.3255 17500 0.1768
1.3633 18000 0.1588
1.4012 18500 0.1681
1.4391 19000 0.1722
1.4769 19500 0.1624
1.5148 20000 0.1601
1.5527 20500 0.1631
1.5905 21000 0.1541
1.6284 21500 0.1544
1.6663 22000 0.1623
1.7042 22500 0.1533
1.7420 23000 0.1602
1.7799 23500 0.1494
1.8178 24000 0.16
1.8556 24500 0.1547
1.8935 25000 0.1601
1.9314 25500 0.1485
1.9692 26000 0.1488
2.0071 26500 0.1488
2.0450 27000 0.146
2.0829 27500 0.1426
2.1207 28000 0.148
2.1586 28500 0.1414
2.1965 29000 0.1434
2.2343 29500 0.145
2.2722 30000 0.1509
2.3101 30500 0.1347
2.3480 31000 0.1348
2.3858 31500 0.1271
2.4237 32000 0.1329
2.4616 32500 0.1372
2.4994 33000 0.1215
2.5373 33500 0.1353
2.5752 34000 0.1285
2.6130 34500 0.1275
2.6509 35000 0.1307
2.6888 35500 0.1285
2.7267 36000 0.1336
2.7645 36500 0.1294
2.8024 37000 0.1252
2.8403 37500 0.1331
2.8781 38000 0.1324
2.9160 38500 0.1311
2.9539 39000 0.1254
2.9917 39500 0.1319
3.0296 40000 0.1248
3.0675 40500 0.1228
3.1054 41000 0.1247
3.1432 41500 0.1264
3.1811 42000 0.1278
3.2190 42500 0.1265
3.2568 43000 0.1282
3.2947 43500 0.1267
3.3326 44000 0.1211
3.3704 44500 0.1158
3.4083 45000 0.1154
3.4462 45500 0.1206
3.4841 46000 0.115
3.5219 46500 0.1187
3.5598 47000 0.1228
3.5977 47500 0.112
3.6355 48000 0.113
3.6734 48500 0.1233
3.7113 49000 0.121
3.7491 49500 0.1176
3.7870 50000 0.1172
3.8249 50500 0.1196
3.8628 51000 0.1273
3.9006 51500 0.1303
3.9385 52000 0.114
3.9764 52500 0.121

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 3.2.0
  • Transformers: 4.44.0
  • PyTorch: 2.4.0
  • Accelerate: 0.33.0
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
15
Safetensors
Model size
135M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for tanbinh2210/vietnamese-bi-encoder-synthetic

Finetuned
(25)
this model