Cloyne commited on
Commit
6ef25a5
1 Parent(s): 8ee819e

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,753 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: VoVanPhuc/sup-SimCSE-VietNamese-phobert-base
3
+ library_name: sentence-transformers
4
+ pipeline_tag: sentence-similarity
5
+ tags:
6
+ - sentence-transformers
7
+ - sentence-similarity
8
+ - feature-extraction
9
+ - generated_from_trainer
10
+ - dataset_size:120210
11
+ - loss:MultipleNegativesRankingLoss
12
+ widget:
13
+ - source_sentence: Chủ tịch Ủy ban nhân dân xã có quyền ra quyết định cưỡng chế tháo
14
+ dỡ công trình xây dựng trên đất nông nghiệp khi chưa chuyển mục đích sử dụng đất
15
+ hay không?
16
+ sentences:
17
+ - 'Đối tượng, điều kiện kéo dài tuổi phục vụ tại ngũ
18
+
19
+ 1. Đối tượng:
20
+
21
+ a) Quân nhân chuyên nghiệp có trình độ cao đẳng trở lên đang đảm nhiệm các chức
22
+ danh: Kỹ thuật viên, Nhân viên Kỹ thuật, Huấn luyện viên, Nghệ sĩ, Nhạc sĩ, Diễn
23
+ viên làm việc đúng chuyên ngành đào tạo ở các cơ sở nghiên cứu, nhà trường, bệnh
24
+ viện, trung tâm thể dục thể thao, đoàn nghệ thuật, nhà máy, doanh nghiệp quốc
25
+ phòng; đơn vị đóng quân ở địa bàn vùng sâu, vùng xa, biên giới, hải đảo.
26
+
27
+ b) Quân nhân chuyên nghiệp đang làm việc thuộc các chuyên ngành hẹp được đào tạo
28
+ công phu hoặc chuyên ngành Quân đội chưa đào tạo được; thợ bậc cao.
29
+
30
+ c) Quân nhân chuyên nghiệp đang đảm nhiệm chức vụ chỉ huy, quản lý ở các nhà máy,
31
+ doanh nghiệp quốc phòng.
32
+
33
+ d) Quân nhân chuyên nghiệp không thuộc đối tượng quy định tại điểm a, điểm b,
34
+ điểm c khoản này do Bộ trưởng Bộ Quốc phòng quyết định.
35
+
36
+ 2. Điều kiện:
37
+
38
+ Quân nhân chuyên nghiệp thuộc đối tượng quy định tại khoản 1 Điều này được kéo
39
+ dài tuổi phục vụ tại ngũ khi có đủ các điều kiện sau:
40
+
41
+ a) Đơn vị có biên chế và nhu cầu sử dụng;
42
+
43
+ b) Hết hạn tuổi phục vụ tại ngũ cao nhất theo cấp bậc quân hàm quy định tại khoản
44
+ 2 Điều 17 Luật Quân nhân chuyên nghiệp, công nhân và viên chức quốc phòng; chưa
45
+ có người thay thế; tự nguyện tiếp tục phục vụ tại ngũ;
46
+
47
+ c) Có đủ phẩm chất chính trị, đạo đức, sức khỏe để hoàn thành nhiệm vụ được giao;
48
+
49
+ d) Có trình độ chuyên môn kỹ thuật, nghiệp vụ giỏi; tay nghề cao; chất lượng,
50
+ hiệu quả công tác tốt.'
51
+ - 'Thi hành quyết định cưỡng chế
52
+
53
+ 1. Người ra quyết định cưỡng chế có trách nhiệm gửi ngay quyết định cưỡng chế
54
+ cho các cá nhân, tổ chức liên quan và tổ chức thực hiện việc cưỡng chế thi hành
55
+ quyết định xử phạt của mình và của cấp dưới.
56
+
57
+ ..."'
58
+ - 'Trình tự, thủ tục đăng ký tài khoản định danh điện tử đối với công dân Việt Nam
59
+
60
+ 1. Đăng ký tài khoản định danh điện tử mức độ 1 qua ứng dụng VNelD đối với công
61
+ dân đã có thẻ Căn cước công dân gắn chíp điện tử
62
+
63
+ a) Công dân sử dụng thiết bị di động tải và cài đặt ứng dụng VNelD.
64
+
65
+ b) Công dân sử dụng ứng dụng VNelD để nhập thông tin về số định danh cá nhân và
66
+ số điện thoại hoặc địa chỉ thư điện tử; cung cấp các thông tin theo hướng dẫn
67
+ trên ứng dụng VNelD; thu nhận ảnh chân dung bằng thiết bị di động và gửi yêu cầu
68
+ đề nghị cấp tài khoản định danh điện tử tới cơ quan quản lý định danh và xác thực
69
+ điện tử qua ứng dụng VNelD.
70
+
71
+ c) Cơ quan quản lý định danh điện tử thông báo kết quả đăng ký tài khoản qua ứng
72
+ dụng VNelD hoặc tin nhắn SMS hoặc địa chỉ thư điện tử.
73
+
74
+ 2. Đăng ký tài khoản định danh điện tử mức độ 2
75
+
76
+ a) Đối với công dân đã được cấp thẻ Căn cước công dân gắn chíp điện tử:
77
+
78
+ Công dân đến Công an xã, phường, thị trấn hoặc nơi làm thủ tục cấp thẻ Căn cước
79
+ công dân để làm thủ tục cấp tài khoản định danh điện tử. Công dân xuất trình thẻ
80
+ Căn cước công dân gắn chíp điện tử, cung cấp thông tin về số điện thoại hoặc địa
81
+ chỉ thư điện tử và đề nghị bổ sung thông tin được tích hợp vào tài khoản định
82
+ danh điện tử.
83
+
84
+ Cán bộ tiếp nhận nhập thông tin công dân cung cấp vào hệ thống định danh và xác
85
+ thực điện tử; chụp ảnh chân dung, thu nhận vân tay của công dân đến làm thủ tục
86
+ để xác thực với Cơ sở dữ liệu căn cước công dân và khẳng định sự đồng ý đăng ký
87
+ tạo lập tài kho���n định danh điện tử.
88
+
89
+ Cơ quan quản lý định danh điện tử thông báo kết quả đăng ký tài khoản qua ứng
90
+ dụng VNelD hoặc tin nhắn SMS hoặc địa chỉ thư điện tử.
91
+
92
+ b) Cơ quan Công an tiến hành cấp tài khoản định danh điện tử mức độ 2 cùng với
93
+ cấp thẻ Căn cước công dân với trường hợp công dân chưa được cấp Căn cước công
94
+ dân gắn chíp điện tử.'
95
+ - source_sentence: Mức hưởng chế độ thai sản đối với lao động nam là người nước ngoài
96
+ được pháp luật quy định như thế nào?
97
+ sentences:
98
+ - '"Điều 21. Thông báo kết quả và xác nhận nhập học
99
+
100
+ 1. Cơ sở đào tạo gửi giấy báo trúng tuyển cho những thí sinh trúng tuyển, trong
101
+ đó ghi rõ những thủ tục cần thiết đối với thí sinh khi nhập học và phương thức
102
+ nhập học của thí sinh.
103
+
104
+ 2. Thí sinh xác nhận nhập học bằng hình thức trực tuyến trên hệ thống, trước khi
105
+ nhập học tại cơ sở đào tạo.
106
+
107
+ 3. Đối với những thí sinh không xác nhận nhập học trong thời hạn quy định:
108
+
109
+ a) Nếu không có lý do chính đáng thì coi như thí sinh từ chối nhập học và cơ sở
110
+ đào tạo có quyền không tiếp nhận;
111
+
112
+ b) Nếu do ốm đau, tai nạn, có giấy xác nhận của bệnh viện quận, huyện trở lên
113
+ hoặc do thiên tai có xác nhận của UBND quận, huyện trở lên, cơ sở đào tạo xem
114
+ xét quyết định tiếp nhận thí sinh vào học hoặc bảo lưu kết quả tuyển sinh để thí
115
+ sinh vào học sau;
116
+
117
+ c) Nếu do sai sót, nhầm lẫn của cán bộ thực hiện công tác tuyển sinh hoặc cá nhân
118
+ thí sinh gây ra, cơ sở đào tạo chủ động phối hợp với các cá nhân, tổ chức liên
119
+ quan xem xét các minh chứng và quyết định việc tiếp nhận thí sinh vào học hoặc
120
+ bảo lưu kết quả tuyển sinh để thí sinh vào học sau.
121
+
122
+ 4. Thí sinh đã xác nhận nhập học tại một cơ sở đào tạo không được tham gia xét
123
+ tuyển ở nơi khác hoặc ở các đợt xét tuyển bổ sung, trừ trường hợp được cơ sở đào
124
+ tạo cho phép."'
125
+ - 'Tổ chức, nhiệm vụ, quyền hạn của Ban Chỉ huy
126
+
127
+ ...
128
+
129
+ 2. Nhiệm vụ, quyền hạn của Ban Chỉ huy:
130
+
131
+ a) Chỉ đạo xây dựng, ban hành quy định về công tác bảo đảm an toàn PCCC và CNCH
132
+ tại Trụ sở cơ quan Bộ Tư pháp.
133
+
134
+ b) Hướng dẫn, phối hợp với các đơn vị thuộc Bộ và chỉ đạo Đội PCCC và CNCH cơ
135
+ sở tổ chức tuyên truyền, bồi dưỡng nghiệp vụ PCCC và CNCH.
136
+
137
+ c) Chỉ đạo Đội PCCC và CNCH cơ sở tại Trụ sở cơ quan Bộ Tư pháp xây dựng, trình
138
+ cấp có thẩm quyền phê duyệt và tổ chức thực tập phương án PCCC, phương án CNCH.
139
+
140
+ d) Chỉ đạo Đội PCCC và CNCH cơ sở tại Trụ sở cơ quan Bộ Tư pháp quản lý các trang
141
+ thiết bị PCCC và CNCH.
142
+
143
+ đ) Chỉ đạo chữa cháy, CNCH khi xảy ra cháy, sự cố, tai nạn tại Trụ sở cơ quan
144
+ Bộ Tư pháp.
145
+
146
+ e) Chỉ đạo việc tổ chức lập và lưu giữ hồ sơ quản lý, theo dõi hoạt động PCCC,
147
+ CNCH tại Trụ sở cơ quan Bộ Tư pháp.
148
+
149
+ g) Chỉ đạo việc sơ kết, tổng kết các hoạt động về PCCC và CNCH của cơ quan; kiểm
150
+ tra, đôn đốc việc chấp hành các quy định về PCCC và CNCH.
151
+
152
+ h) Đề xuất việc khen thưởng, kỷ luật các tập thể, cá nhân trong việc thực hiện
153
+ công tác PCCC, CNCH.
154
+
155
+ i) Chỉ đạo Đội PCCC và CNCH cơ sở dự trù kinh phí cho các hoạt động PCCC và CNCH
156
+ tại Trụ sở cơ quan Bộ Tư pháp.
157
+
158
+ k) Thực hiện các nhiệm vụ khác do Bộ trưởng giao và theo quy định của pháp luật.'
159
+ - 'Mức hưởng chế độ thai sản
160
+
161
+ ...
162
+
163
+ b) Mức hưởng một ngày đối với trường hợp quy định tại Điều 32 và khoản 2 Điều
164
+ 34 của Luật này được tính bằng mức hưởng chế độ thai sản theo tháng chia cho 24
165
+ ngày.'
166
+ - source_sentence: Doanh nghiệp được áp dụng chế độ ưu tiên không cung cấp báo cáo
167
+ kiểm toán đúng thời hạn bị phạt bao nhiêu tiền?
168
+ sentences:
169
+ - 'Thay đổi Thẩm phán, Hội thẩm
170
+
171
+ 1. Thẩm phán, Hội thẩm phải từ chối tham gia xét xử hoặc bị thay đổi khi thuộc
172
+ một trong các trường hợp:
173
+
174
+ a) Trường hợp quy định tại Điều 49 của Bộ luật này;
175
+
176
+ b) Họ cùng trong một Hội đồng xét xử và là người thân thích với nhau;
177
+
178
+ c) Đã tham gia xét xử sơ thẩm hoặc phúc thẩm hoặc tiến hành tố tụng vụ án đó với
179
+ tư cách là Điều tra viên, Cán bộ điều tra, Kiểm sát viên, Kiểm tra viên, Thẩm
180
+ tra viên, Thư ký Tòa án.
181
+
182
+ 2. Việc thay đổi Thẩm phán, Hội thẩm trước khi mở phiên tòa do Chánh án hoặc Phó
183
+ Chánh án Tòa án được phân công giải quyết vụ án quyết định.
184
+
185
+ Thẩm phán bị thay đổi là Chánh án Tòa án thì do Chánh án Tòa án trên một cấp quyết
186
+ định.
187
+
188
+ Việc thay đổi Thẩm phán, Hội thẩm tại phiên tòa do Hội đồng xét xử quyết định
189
+ trước khi bắt đầu xét hỏi bằng cách biểu quyết tại phòng nghị án. Khi xem xét
190
+ thay đổi thành viên nào thì thành viên đó được trình bày ý kiến của mình, Hội
191
+ đồng quyết định theo đa số.
192
+
193
+ Trường hợp phải thay đổi Thẩm phán, Hội thẩm tại phiên tòa thì Hội đồng xét xử
194
+ ra quyết định hoãn phiên tòa.'
195
+ - '“Điều 21. Chấm dứt hưởng trợ cấp thất nghiệp
196
+
197
+ 1. Các trường hợp người lao động đang hưởng trợ cấp thất nghiệp bị chấm dứt hưởng
198
+ trợ cấp thất nghiệp được quy định như sau:
199
+
200
+ e) Trong thời gian hưởng trợ cấp thất nghiệp, 03 tháng liên tục không thực hiện
201
+ thông báo hằng tháng về việc tìm kiếm việc làm với trung tâm dịch vụ việc làm
202
+ theo quy định
203
+
204
+ Ngày mà người lao động được xác định bị chấm dứt hưởng trợ cấp thất nghiệp là
205
+ ngày kết thúc của thời hạn thông báo tìm kiếm việc làm của tháng thứ 3 liên tục
206
+ mà người lao động không thực hiện thông báo hằng tháng về việc tìm kiếm việc làm."'
207
+ - 'Vi phạm quy định về thời hạn làm thủ tục hải quan, nộp hồ sơ thuế
208
+
209
+ ...
210
+
211
+ 2. Phạt tiền từ 1.000.000 đồng đến 2.000.000 đồng đối với hành vi không thực hiện
212
+ đúng thời hạn quy định thuộc một trong các trường hợp sau:
213
+
214
+ a) Cung cấp báo cáo kiểm toán, báo cáo tài chính của doanh nghiệp được áp dụng
215
+ chế độ ưu tiên;
216
+
217
+ b) Thông báo cho cơ quan hải quan quyết định xử lý vi phạm pháp luật về quản lý
218
+ thuế, kế toán đối với doanh nghiệp được áp dụng chế độ ưu tiên;
219
+
220
+ c) Báo cáo về lượng hàng hóa nhập khẩu phục vụ xây dựng nhà xưởng, hàng hóa gửi
221
+ kho bên ngoài của doanh nghiệp chế xuất;
222
+
223
+ d) Báo cáo về lượng hàng hóa trung chuyển đưa vào, đưa ra, còn lưu tại cảng;
224
+
225
+ đ) Báo cáo thống kê thông quan hàng bưu chính đưa vào Việt Nam để chuyển tiếp
226
+ đi quốc tế.
227
+
228
+ ...'
229
+ - source_sentence: Tài chính của Hội Kiểm toán viên hành nghề Việt Nam được chi cho
230
+ những khoản nào?
231
+ sentences:
232
+ - 'Giải thể và xử lý tài chính khi giải thể
233
+
234
+ 1. Khi xét thấy hoạt động của Hội không có hiệu quả, không mang lại lợi ích cho
235
+ Hội viên hoặc gây phiền hà, cản trở cho Hội viên thì BCH Hội quyết định triệu
236
+ tập Đại hội để bàn biện pháp củng cố tổ chức hoặc giải thể Hội. Nếu giải thể Hội
237
+ thì do Đại hội đại biểu hoặc Đại hội toàn quốc của Hội thông qua và đề nghị cơ
238
+ quan Nhà nước có thẩm quyền xem xét, quyết định.
239
+
240
+ 2. Khi Hội bị giải thể, Ban Thường trực và Ban Kiểm tra của Hội phải tiến hành
241
+ kiểm kê tài sản, kiểm quỹ và báo cáo BCH Hội quyết định việc xử lý tài sản, tiền
242
+ tồn quỹ và tiến hành thủ tục giải thể theo quy định của pháp luật.'
243
+ - '"Điều 14. Miễn trừ đối với thỏa thuận hạn chế cạnh tranh bị cấm
244
+
245
+ 1. Thỏa thuận hạn chế cạnh tranh quy định tại các khoản 1, 2, 3, 7, 8, 9, 10 và
246
+ 11 Điều 11 bị cấm theo quy định tại Điều 12 của Luật này được miễn trừ có thời
247
+ hạn nếu có lợi cho người tiêu dùng và đáp ứng một trong các điều kiện sau đây:
248
+
249
+ a) Tác động thúc đẩy tiến bộ kỹ thuật, công nghệ, nâng cao chất lượng hàng hóa,
250
+ dịch vụ;
251
+
252
+ b) Tăng cường sức cạnh tranh của doanh nghiệp Việt Nam trên thị trường quốc tế;
253
+
254
+ c) Thúc đẩy việc áp dụng thống nhất tiêu chuẩn chất lượng, định mức kỹ thuật của
255
+ chủng loại sản phẩm;
256
+
257
+ d) Thống nhất các điều kiện thực hiện hợp đồng, giao hàng, thanh toán nhưng không
258
+ liên quan đến giá và các yếu tố của giá.
259
+
260
+ 2. Thỏa thuận lao động, thỏa thuận hợp tác trong các ngành, lĩnh vực đặc thù được
261
+ thực hiện theo quy định của luật khác thì thực hiện theo quy định của luật đó".'
262
+ - '"Điều 2. Sửa đổi, bổ sung một số điều của Nghị định số 15/2019/NĐ-CP ngày 01
263
+ tháng 02 năm 2019 của Chính phủ quy định chi tiết một số điều và biện pháp thi
264
+ hành Luật Giáo dục nghề nghiệp
265
+
266
+ ...
267
+
268
+ 12. Sửa đổi, bổ sung Điều 24 như sau:
269
+
270
+ Điều 24. Thẩm quyền cấp giấy chứng nhận đăng ký hoạt động liên kết đào tạo với
271
+ nước ngoài
272
+
273
+ 1. Tổng cục Giáo dục nghề nghiệp cấp giấy chứng nhận đăng ký hoạt động liên kết
274
+ đào tạo với nước ngoài đối với trường cao đẳng.
275
+
276
+ 2. Sở Lao động - Thương binh và Xã hội nơi trường trung cấp, trung tâm giáo dục
277
+ nghề nghiệp, trung tâm giáo dục nghề nghiệp - giáo dục thường xuyên và doanh nghiệp
278
+ tổ chức hoạt động liên kết đào tạo với nước ngoài cấp giấy chứng nhận đăng ký
279
+ hoạt động liên kết đào tạo với nước ngoài đối với trường trung cấp, trung tâm
280
+ giáo dục nghề nghiệp, trung tâm giáo dục nghề nghiệp - giáo dục thường xuyên và
281
+ doanh nghiệp."'
282
+ - source_sentence: NLĐ ký nhiều hợp đồng lao động thì đóng BHYT như thế nào?
283
+ sentences:
284
+ - 'Hồ sơ, thủ tục xác định trường hợp được bồi thường
285
+
286
+ [...]
287
+
288
+ 3. Trong thời hạn 05 ngày làm việc, kể từ ngày nhận được đơn và các giấy tờ hợp
289
+ lệ, nếu xác định yêu cầu thuộc trách nhiệm giải quyết của mình thì Sở Y tế phải
290
+ thụ lý và thông báo bằng văn bản về việc thụ lý đơn cho người bị thiệt hại hoặc
291
+ thân nhân của người bị thiệt hại (sau đây gọi tắt là người bị thiệt hại). Trường
292
+ hợp hồ sơ không đầy đủ thì Sở Y tế có văn bản hướng dẫn người bị thiệt hại bổ
293
+ sung.
294
+
295
+ 4. Trong thời hạn 15 ngày, kể từ ngày nhận được đơn yêu cầu của người bị thiệt
296
+ hại, Sở Y tế phải hoàn thành việc xác định nguyên nhân gây tai biến, mức độ tổn
297
+ thương và thông báo bằng văn bản cho người yêu cầu đồng thời báo cáo Bộ Y tế.'
298
+ - 'Chuyển nhượng quyền thăm dò khoáng sản
299
+
300
+ 1. Tổ chức, cá nhân nhận chuyển nhượng quyền thăm dò khoáng sản phải có đủ điều
301
+ kiện để được cấp Giấy phép thăm dò khoáng sản theo quy định của Luật này.
302
+
303
+ 2. Việc chuyển nhượng quyền thăm dò khoáng sản phải được cơ quan quản lý nhà nước
304
+ có thẩm quyền cấp Giấy phép thăm dò khoáng sản chấp thuận; trường hợp được chấp
305
+ thuận, tổ chức, cá nhân nhận chuyển nhượng quyền thăm dò khoáng sản được cấp Giấy
306
+ phép thăm dò khoáng sản mới.
307
+
308
+ 3. Tổ chức, cá nhân chuyển nhượng quyền thăm dò khoáng sản đã thực hiện được ít
309
+ nhất 50% dự toán của đề án thăm dò khoáng sản.
310
+
311
+ 4. Chính phủ quy định chi tiết việc chuyển nhượng quyền thăm dò khoáng sản.'
312
+ - '"Sửa đổi, bổ sung một số điều của Luật bảo hiểm y tế:
313
+
314
+ ...
315
+
316
+ 6. Sửa đổi, bổ sung Điều 12 như sau:
317
+
318
+ “Điều 12. Đối tượng tham gia bảo hiểm y tế
319
+
320
+ 1. Nhóm do người lao động và người sử dụng lao động đóng, bao gồm:
321
+
322
+ a) Người lao động làm việc theo hợp đồng lao động không xác định thời hạn, hợp
323
+ đồng lao động có thời hạn từ đủ 3 tháng trở lên; người lao động là người quản
324
+ lý doanh nghiệp hưởng tiền lương; cán bộ, công chức, viên chức (sau đây gọi chung
325
+ là người lao động);
326
+
327
+ b) Người hoạt động không chuyên trách ở xã, phường, thị trấn theo quy định của
328
+ pháp luật.=
329
+
330
+ ...
331
+
332
+ 4. Nhóm được ngân sách nhà nước hỗ trợ mức đóng, bao gồm:
333
+
334
+ a) Người thuộc hộ gia đình cận nghèo;
335
+
336
+ b) Học sinh, sinh viên.
337
+
338
+ 5. Nhóm tham gia bảo hiểm y tế theo hộ gia đình gồm những người thuộc hộ gia đình,
339
+ trừ đối tượng quy định tại các khoản 1, 2, 3 và 4 Điều này.
340
+
341
+ 6. Chính phủ quy định các đối tượng khác ngoài các đối tượng quy định tại các
342
+ khoản 3, 4 và 5 Điều này; quy định việc cấp thẻ bảo hiểm y tế đối với đối tượng
343
+ do Bộ Quốc phòng, Bộ Công an quản lý và đối tượng quy định tại điểm 1 khoản 3
344
+ Điều này; quy định lộ trình thực hiện bảo hiểm y tế, phạm vi quyền lợi, mức hưởng
345
+ bảo hiểm y tế, khám bệnh, chữa bệnh bảo hiểm y tế, quản lý, sử dụng phần kinh
346
+ phí dành cho khám bệnh, chữa bệnh bảo hiểm y tế, giám định bảo hiểm y tế, thanh
347
+ toán, quyết toán bảo hiểm y tế đối với các đối tượng quy định tại điểm a khoản
348
+ 3 Điều này.”'
349
+ ---
350
+
351
+ # SentenceTransformer based on VoVanPhuc/sup-SimCSE-VietNamese-phobert-base
352
+
353
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [VoVanPhuc/sup-SimCSE-VietNamese-phobert-base](https://huggingface.co/VoVanPhuc/sup-SimCSE-VietNamese-phobert-base) on the csv dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
354
+
355
+ ## Model Details
356
+
357
+ ### Model Description
358
+ - **Model Type:** Sentence Transformer
359
+ - **Base model:** [VoVanPhuc/sup-SimCSE-VietNamese-phobert-base](https://huggingface.co/VoVanPhuc/sup-SimCSE-VietNamese-phobert-base) <!-- at revision 608779b86741a8acd8c8d38132974ff04086b138 -->
360
+ - **Maximum Sequence Length:** 256 tokens
361
+ - **Output Dimensionality:** 768 tokens
362
+ - **Similarity Function:** Cosine Similarity
363
+ - **Training Dataset:**
364
+ - csv
365
+ <!-- - **Language:** Unknown -->
366
+ <!-- - **License:** Unknown -->
367
+
368
+ ### Model Sources
369
+
370
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
371
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
372
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
373
+
374
+ ### Full Model Architecture
375
+
376
+ ```
377
+ SentenceTransformer(
378
+ (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
379
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
380
+ )
381
+ ```
382
+
383
+ ## Usage
384
+
385
+ ### Direct Usage (Sentence Transformers)
386
+
387
+ First install the Sentence Transformers library:
388
+
389
+ ```bash
390
+ pip install -U sentence-transformers
391
+ ```
392
+
393
+ Then you can load this model and run inference.
394
+ ```python
395
+ from sentence_transformers import SentenceTransformer
396
+
397
+ # Download from the 🤗 Hub
398
+ model = SentenceTransformer("Cloyne/SimCSE-finetuned-vietnamese-legal-documents")
399
+ # Run inference
400
+ sentences = [
401
+ 'NLĐ ký nhiều hợp đồng lao động thì đóng BHYT như thế nào?',
402
+ '"Sửa đổi, bổ sung một số điều của Luật bảo hiểm y tế:\n...\n6. Sửa đổi, bổ sung Điều 12 như sau:\n“Điều 12. Đối tượng tham gia bảo hiểm y tế\n1. Nhóm do người lao động và người sử dụng lao động đóng, bao gồm:\na) Người lao động làm việc theo hợp đồng lao động không xác định thời hạn, hợp đồng lao động có thời hạn từ đủ 3 tháng trở lên; người lao động là người quản lý doanh nghiệp hưởng tiền lương; cán bộ, công chức, viên chức (sau đây gọi chung là người lao động);\nb) Người hoạt động không chuyên trách ở xã, phường, thị trấn theo quy định của pháp luật.=\n...\n4. Nhóm được ngân sách nhà nước hỗ trợ mức đóng, bao gồm:\na) Người thuộc hộ gia đình cận nghèo;\nb) Học sinh, sinh viên.\n5. Nhóm tham gia bảo hiểm y tế theo hộ gia đình gồm những người thuộc hộ gia đình, trừ đối tượng quy định tại các khoản 1, 2, 3 và 4 Điều này.\n6. Chính phủ quy định các đối tượng khác ngoài các đối tượng quy định tại các khoản 3, 4 và 5 Điều này; quy định việc cấp thẻ bảo hiểm y tế đối với đối tượng do Bộ Quốc phòng, Bộ Công an quản lý và đối tượng quy định tại điểm 1 khoản 3 Điều này; quy định lộ trình thực hiện bảo hiểm y tế, phạm vi quyền lợi, mức hưởng bảo hiểm y tế, khám bệnh, chữa bệnh bảo hiểm y tế, quản lý, sử dụng phần kinh phí dành cho khám bệnh, chữa bệnh bảo hiểm y tế, giám định bảo hiểm y tế, thanh toán, quyết toán bảo hiểm y tế đối với các đối tượng quy định tại điểm a khoản 3 Điều này.”',
403
+ 'Hồ sơ, thủ tục xác định trường hợp được bồi thường\n[...]\n3. Trong thời hạn 05 ngày làm việc, kể từ ngày nhận được đơn và các giấy tờ hợp lệ, nếu xác định yêu cầu thuộc trách nhiệm giải quyết của mình thì Sở Y tế phải thụ lý và thông báo bằng văn bản về việc thụ lý đơn cho người bị thiệt hại hoặc thân nhân của người bị thiệt hại (sau đây gọi tắt là người bị thiệt hại). Trường hợp hồ sơ không đầy đủ thì Sở Y tế có văn bản hướng dẫn người bị thiệt hại bổ sung.\n4. Trong thời hạn 15 ngày, kể từ ngày nhận được đơn yêu cầu của người bị thiệt hại, Sở Y tế phải hoàn thành việc xác định nguyên nhân gây tai biến, mức độ tổn thương và thông báo bằng văn bản cho người yêu cầu đồng thời báo cáo Bộ Y tế.',
404
+ ]
405
+ embeddings = model.encode(sentences)
406
+ print(embeddings.shape)
407
+ # [3, 768]
408
+
409
+ # Get the similarity scores for the embeddings
410
+ similarities = model.similarity(embeddings, embeddings)
411
+ print(similarities.shape)
412
+ # [3, 3]
413
+ ```
414
+
415
+ <!--
416
+ ### Direct Usage (Transformers)
417
+
418
+ <details><summary>Click to see the direct usage in Transformers</summary>
419
+
420
+ </details>
421
+ -->
422
+
423
+ <!--
424
+ ### Downstream Usage (Sentence Transformers)
425
+
426
+ You can finetune this model on your own dataset.
427
+
428
+ <details><summary>Click to expand</summary>
429
+
430
+ </details>
431
+ -->
432
+
433
+ <!--
434
+ ### Out-of-Scope Use
435
+
436
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
437
+ -->
438
+
439
+ <!--
440
+ ## Bias, Risks and Limitations
441
+
442
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
443
+ -->
444
+
445
+ <!--
446
+ ### Recommendations
447
+
448
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
449
+ -->
450
+
451
+ ## Training Details
452
+
453
+ ### Training Dataset
454
+
455
+ #### csv
456
+
457
+ * Dataset: csv
458
+ * Size: 120,210 training samples
459
+ * Columns: <code>anchor</code> and <code>positive</code>
460
+ * Approximate statistics based on the first 1000 samples:
461
+ | | anchor | positive |
462
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
463
+ | type | string | string |
464
+ | details | <ul><li>min: 8 tokens</li><li>mean: 25.08 tokens</li><li>max: 49 tokens</li></ul> | <ul><li>min: 21 tokens</li><li>mean: 206.98 tokens</li><li>max: 256 tokens</li></ul> |
465
+ * Samples:
466
+ | anchor | positive |
467
+ |:--------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
468
+ | <code>Nội dung lồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật được quy định thế nào?</code> | <code>Nội dung lồng ghép vấn đề bình đẳng giới trong xây dựng văn bản quy phạm pháp luật<br>Trong phạm vi điều chỉnh của văn bản quy phạm pháp luật:<br>1. Xác định nội dung liên quan đến vấn đề bình đẳng giới hoặc vấn đề bất bình đẳng giới, phân biệt đối xử về giới.<br>2. Quy định các biện pháp cần thiết để thực hiện bình đẳng giới hoặc để giải quyết vấn đề bất bình đẳng giới, phân biệt đối xử về giới; dự báo tác động của các quy định đó đối với nam và nữ sau khi được ban hành.<br>3. Xác định nguồn nhân lực, tài chính cần thiết để triển khai các biện pháp thực hiện bình đẳng giới hoặc để giải quyết vấn đề bất bình đẳng giới, phân biệt đối xử về giới.</code> |
469
+ | <code>Điều kiện để giáo viên trong cơ sở giáo dục mầm non, tiểu học ngoài công lập bị ảnh hưởng bởi Covid-19 được hưởng chính sách hỗ trợ là gì?</code> | <code>Điều kiện được hưởng<br>Cán bộ quản lý, giáo viên, nhân viên được hưởng chính sách khi bảo đảm các điều kiện sau:<br>1. Là người đang làm việc tại cơ sở giáo dục ngoài công lập trước khi cơ sở phải tạm dừng hoạt động theo yêu cầu của cơ quan nhà nước có thẩm quyền để phòng, chống dịch COVID-19 tính từ ngày 01 tháng 5 năm 2021 đến hết ngày 31 tháng 12 năm 2021.<br>2. Nghỉ việc không hưởng lương từ 01 tháng trở lên tính từ ngày 01 tháng 5 năm 2021 đến hết ngày 31 tháng 12 năm 2021.<br>3. Chưa được hưởng chính sách hỗ trợ đối với người lao động tạm hoãn hợp đồng lao động, nghỉ việc không hưởng lương theo quy định tại khoản 4, khoản 5, khoản 6 Mục II Nghị quyết số 68/NQ-CP ngày 01 tháng 7 năm 2021 của Chính phủ về một số chính sách hỗ trợ người lao động và người sử dụng lao động gặp khó khăn do đại dịch COVID-19, Nghị quyết số 126/NQ-CP ngày 08 tháng 10 năm 2021 của Chính phủ sửa đổi, bổ sung Nghị quyết số 68/NQ-CP ngày 01 tháng 7 năm 2021 của Chính phủ về một số chính sách hỗ trợ người lao động và người sử dụng lao động gặp khó khăn do đại dịch COVID-19 (sau đây gọi tắt là Nghị quyết số 68/NQ-CP) do không tham gia Bảo hiểm xã hội bắt buộc.<br>4. Có xác nhận làm việc tại cơ sở giáo dục ngoài công lập ít nhất hết năm học 2021 - 2022 theo kế hoạch năm học của địa phương, bao gồm cơ sở giáo dục ngoài công lập đã làm việc trước đây hoặc cơ sở giáo dục ngoài công lập khác trong trường hợp cơ sở giáo dục ngoài công lập trước đây làm việc không hoạt động trở lại.</code> |
470
+ | <code>Nguyên tắc áp dụng phụ cấp ưu đãi nghề y tế thế nào?</code> | <code>Nguyên tắc áp dụng<br>1. Trường hợp công chức, viên chức chuyên môn y tế thuộc đối tượng được hưởng các mức phụ cấp ưu đãi theo nghề khác nhau th�� được hưởng một mức phụ cấp ưu đãi theo nghề cao nhất.<br>2. Công chức, viên chức đã hưởng phụ cấp ưu đãi theo nghề quy định tại Thông tư liên tịch số 06/2010/TTLT-BYT-BNV-BTC ngày 22/3/2010 của Bộ Y tế, Bộ Nội vụ, Bộ Tài chính hướng dẫn thực hiện Nghị định số 64/2009/NĐ-CP ngày 30/7/2009 của Chính phủ về chính sách đối với cán bộ, viên chức y tế công tác ở vùng có điều kiện kinh tế - xã hội đặc biệt khó khăn thì không hưởng phụ cấp ưu đãi theo nghề quy định tại Thông tư liên tịch này.</code> |
471
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
472
+ ```json
473
+ {
474
+ "scale": 20.0,
475
+ "similarity_fct": "cos_sim"
476
+ }
477
+ ```
478
+
479
+ ### Evaluation Dataset
480
+
481
+ #### train
482
+
483
+ * Dataset: train
484
+ * Size: 13,357 evaluation samples
485
+ * Columns: <code>anchor</code> and <code>positive</code>
486
+ * Approximate statistics based on the first 1000 samples:
487
+ | | anchor | positive |
488
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
489
+ | type | string | string |
490
+ | details | <ul><li>min: 7 tokens</li><li>mean: 24.61 tokens</li><li>max: 51 tokens</li></ul> | <ul><li>min: 17 tokens</li><li>mean: 202.71 tokens</li><li>max: 256 tokens</li></ul> |
491
+ * Samples:
492
+ | anchor | positive |
493
+ |:-------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
494
+ | <code>Toà án cấp nào có thẩm quyền giải quyết việc đòi tài sản đã cho người khác vay theo hợp đồng cho vay?</code> | <code>"Điều 35. Thẩm quyền của Tòa án nhân dân cấp huyện<br>1. Tòa án nhân dân cấp huyện có thẩm quyền giải quyết theo thủ tục sơ thẩm những tranh chấp sau đây:<br>a) Tranh chấp về dân sự, hôn nhân và gia đình quy định tại Điều 26 và Điều 28 của Bộ luật này, trừ tranh chấp quy định tại khoản 7 Điều 26 của Bộ luật này;<br>b) Tranh chấp về kinh doanh, thương mại quy định tại khoản 1 Điều 30 của Bộ luật này;<br>c) Tranh chấp về lao động quy định tại Điều 32 của Bộ luật này.<br>2. Tòa án nhân dân cấp huyện có thẩm quyền giải quyết những yêu cầu sau đây:<br>a) Yêu cầu về dân sự quy định tại các khoản 1, 2, 3, 4, 6, 7, 8, 9 và 10 Điều 27 của Bộ luật này;<br>b) Yêu cầu về hôn nhân và gia đình quy định tại các khoản 1, 2, 3, 4, 5, 6, 7, 8, 10 và 11 Điều 29 của Bộ luật này;<br>c) Yêu cầu về kinh doanh, thương mại quy định tại khoản 1 và khoản 6 Điều 31 của Bộ luật này;<br>d) Yêu cầu về lao động quy định tại khoản 1 và khoản 5 Điều 33 của Bộ luật này.<br>3. Những tranh chấp, yêu cầu quy định tại khoản 1 và khoản 2 Điều này mà có đương sự hoặc tài sản ở nước ngoài hoặc cần phải ủy thác tư pháp cho cơ quan đại diện nước Cộng hòa xã hội chủ nghĩa Việt Nam ở nước ngoài, cho Tòa án, cơ quan có thẩm quyền của nước ngoài không thuộc thẩm quyền giải quyết của Tòa án nhân dân cấp huyện, trừ trường hợp quy định tại khoản 4 Điều này.<br>4. Tòa án nhân dân cấp huyện nơi cư trú của công dân Việt Nam hủy việc kết hôn trái pháp luật, giải quyết việc ly hôn, các tranh chấp về quyền và nghĩa vụ của vợ chồng, cha mẹ và con, về nhận cha, mẹ, con, nuôi con nuôi và giám hộ giữa công dân Việt Nam cư trú ở khu vực biên giới với công dân của nước láng giềng cùng cư trú ở khu vực biên giới với Việt Nam theo quy định của Bộ luật này và các quy định khác của pháp luật Việt Nam."</code> |
495
+ | <code>Những phiếu bầu nào được xem là không hợp lệ?</code> | <code>Phiếu bầu không hợp lệ<br>1. Những phiếu bầu sau đây là phiếu bầu không hợp lệ:<br>a) Phiếu không theo mẫu quy định do Tổ bầu cử phát ra;<br>b) Phiếu không có dấu của Tổ bầu cử;<br>c) Phiếu để số người được bầu nhiều hơn số lượng đại biểu được bầu đã ấn định cho đơn vị bầu cử;<br>d) Phiếu gạch xóa hết tên những người ứng cử;<br>đ) Phiếu ghi thêm tên người ngoài danh sách những người ứng cử hoặc phiếu có ghi thêm nội dung khác.<br>2. Trường hợp có phiếu bầu được cho là không hợp lệ thì Tổ trường Tổ bầu cử đưa ra để toàn Tổ xem xét, quyết định. Tổ bầu cử không được gạch xóa hoặc sửa các tên ghi trên phiếu bầu.</code> |
496
+ | <code>Đề nghị tạm đình chỉ chấp hành quyết định áp dụng biện pháp đưa vào trường giáo dưỡng cho học sinh cần đảm bảo nguyên tắc gì?</code> | <code>Nguyên tắc xét duyệt, đề nghị giảm thời hạn, tạm đình chỉ chấp hành quyết định, miễn chấp hành phần thời gian còn lại cho học sinh trường giáo dưỡng, trại viên cơ sở giáo dục bắt buộc<br>1. Tuân thủ quy định của pháp luật về thi hành biện pháp xử lý hành chính đưa vào trường giáo dưỡng, cơ sở giáo dục bắt buộc, quy định tại Thông tư này và quy định của pháp luật có liên quan.<br>2. Bảo đảm khách quan, công khai, minh bạch, đúng trình tự, thủ tục, thẩm quyền; tôn trọng và bảo vệ quyền, lợi ích hợp pháp của học sinh trường giáo dưỡng, trại viên cơ sở giáo dục bắt buộc.</code> |
497
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
498
+ ```json
499
+ {
500
+ "scale": 20.0,
501
+ "similarity_fct": "cos_sim"
502
+ }
503
+ ```
504
+
505
+ ### Training Hyperparameters
506
+ #### Non-Default Hyperparameters
507
+
508
+ - `eval_strategy`: steps
509
+ - `per_device_train_batch_size`: 16
510
+ - `per_device_eval_batch_size`: 32
511
+ - `num_train_epochs`: 4
512
+ - `warmup_ratio`: 0.1
513
+ - `fp16`: True
514
+ - `batch_sampler`: no_duplicates
515
+
516
+ #### All Hyperparameters
517
+ <details><summary>Click to expand</summary>
518
+
519
+ - `overwrite_output_dir`: False
520
+ - `do_predict`: False
521
+ - `eval_strategy`: steps
522
+ - `prediction_loss_only`: True
523
+ - `per_device_train_batch_size`: 16
524
+ - `per_device_eval_batch_size`: 32
525
+ - `per_gpu_train_batch_size`: None
526
+ - `per_gpu_eval_batch_size`: None
527
+ - `gradient_accumulation_steps`: 1
528
+ - `eval_accumulation_steps`: None
529
+ - `torch_empty_cache_steps`: None
530
+ - `learning_rate`: 5e-05
531
+ - `weight_decay`: 0.0
532
+ - `adam_beta1`: 0.9
533
+ - `adam_beta2`: 0.999
534
+ - `adam_epsilon`: 1e-08
535
+ - `max_grad_norm`: 1.0
536
+ - `num_train_epochs`: 4
537
+ - `max_steps`: -1
538
+ - `lr_scheduler_type`: linear
539
+ - `lr_scheduler_kwargs`: {}
540
+ - `warmup_ratio`: 0.1
541
+ - `warmup_steps`: 0
542
+ - `log_level`: passive
543
+ - `log_level_replica`: warning
544
+ - `log_on_each_node`: True
545
+ - `logging_nan_inf_filter`: True
546
+ - `save_safetensors`: True
547
+ - `save_on_each_node`: False
548
+ - `save_only_model`: False
549
+ - `restore_callback_states_from_checkpoint`: False
550
+ - `no_cuda`: False
551
+ - `use_cpu`: False
552
+ - `use_mps_device`: False
553
+ - `seed`: 42
554
+ - `data_seed`: None
555
+ - `jit_mode_eval`: False
556
+ - `use_ipex`: False
557
+ - `bf16`: False
558
+ - `fp16`: True
559
+ - `fp16_opt_level`: O1
560
+ - `half_precision_backend`: auto
561
+ - `bf16_full_eval`: False
562
+ - `fp16_full_eval`: False
563
+ - `tf32`: None
564
+ - `local_rank`: 0
565
+ - `ddp_backend`: None
566
+ - `tpu_num_cores`: None
567
+ - `tpu_metrics_debug`: False
568
+ - `debug`: []
569
+ - `dataloader_drop_last`: False
570
+ - `dataloader_num_workers`: 0
571
+ - `dataloader_prefetch_factor`: None
572
+ - `past_index`: -1
573
+ - `disable_tqdm`: False
574
+ - `remove_unused_columns`: True
575
+ - `label_names`: None
576
+ - `load_best_model_at_end`: False
577
+ - `ignore_data_skip`: False
578
+ - `fsdp`: []
579
+ - `fsdp_min_num_params`: 0
580
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
581
+ - `fsdp_transformer_layer_cls_to_wrap`: None
582
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
583
+ - `deepspeed`: None
584
+ - `label_smoothing_factor`: 0.0
585
+ - `optim`: adamw_torch
586
+ - `optim_args`: None
587
+ - `adafactor`: False
588
+ - `group_by_length`: False
589
+ - `length_column_name`: length
590
+ - `ddp_find_unused_parameters`: None
591
+ - `ddp_bucket_cap_mb`: None
592
+ - `ddp_broadcast_buffers`: False
593
+ - `dataloader_pin_memory`: True
594
+ - `dataloader_persistent_workers`: False
595
+ - `skip_memory_metrics`: True
596
+ - `use_legacy_prediction_loop`: False
597
+ - `push_to_hub`: False
598
+ - `resume_from_checkpoint`: None
599
+ - `hub_model_id`: None
600
+ - `hub_strategy`: every_save
601
+ - `hub_private_repo`: False
602
+ - `hub_always_push`: False
603
+ - `gradient_checkpointing`: False
604
+ - `gradient_checkpointing_kwargs`: None
605
+ - `include_inputs_for_metrics`: False
606
+ - `eval_do_concat_batches`: True
607
+ - `fp16_backend`: auto
608
+ - `push_to_hub_model_id`: None
609
+ - `push_to_hub_organization`: None
610
+ - `mp_parameters`:
611
+ - `auto_find_batch_size`: False
612
+ - `full_determinism`: False
613
+ - `torchdynamo`: None
614
+ - `ray_scope`: last
615
+ - `ddp_timeout`: 1800
616
+ - `torch_compile`: False
617
+ - `torch_compile_backend`: None
618
+ - `torch_compile_mode`: None
619
+ - `dispatch_batches`: None
620
+ - `split_batches`: None
621
+ - `include_tokens_per_second`: False
622
+ - `include_num_input_tokens_seen`: False
623
+ - `neftune_noise_alpha`: None
624
+ - `optim_target_modules`: None
625
+ - `batch_eval_metrics`: False
626
+ - `eval_on_start`: False
627
+ - `use_liger_kernel`: False
628
+ - `eval_use_gather_object`: False
629
+ - `batch_sampler`: no_duplicates
630
+ - `multi_dataset_batch_sampler`: proportional
631
+
632
+ </details>
633
+
634
+ ### Training Logs
635
+ | Epoch | Step | Training Loss | train loss |
636
+ |:------:|:-----:|:-------------:|:----------:|
637
+ | 0.0665 | 500 | 0.2809 | 0.2215 |
638
+ | 0.1331 | 1000 | 0.1307 | 0.1547 |
639
+ | 0.1996 | 1500 | 0.0978 | 0.1366 |
640
+ | 0.2662 | 2000 | 0.1054 | 0.1221 |
641
+ | 0.3327 | 2500 | 0.0824 | 0.1215 |
642
+ | 0.3993 | 3000 | 0.0776 | 0.1223 |
643
+ | 0.4658 | 3500 | 0.0797 | 0.1161 |
644
+ | 0.5323 | 4000 | 0.0774 | 0.1070 |
645
+ | 0.5989 | 4500 | 0.0661 | 0.1007 |
646
+ | 0.6654 | 5000 | 0.059 | 0.0945 |
647
+ | 0.7320 | 5500 | 0.0674 | 0.0889 |
648
+ | 0.7985 | 6000 | 0.0495 | 0.0783 |
649
+ | 0.8651 | 6500 | 0.0587 | 0.0822 |
650
+ | 0.9316 | 7000 | 0.0585 | 0.0868 |
651
+ | 0.9981 | 7500 | 0.0482 | 0.0733 |
652
+ | 1.0647 | 8000 | 0.0459 | 0.0786 |
653
+ | 1.1312 | 8500 | 0.0487 | 0.0691 |
654
+ | 1.1978 | 9000 | 0.0335 | 0.0719 |
655
+ | 1.2643 | 9500 | 0.0365 | 0.0711 |
656
+ | 1.3308 | 10000 | 0.0279 | 0.0668 |
657
+ | 1.3974 | 10500 | 0.0235 | 0.0675 |
658
+ | 1.4639 | 11000 | 0.0206 | 0.0599 |
659
+ | 1.5305 | 11500 | 0.0175 | 0.0653 |
660
+ | 1.5970 | 12000 | 0.0144 | 0.0664 |
661
+ | 1.6636 | 12500 | 0.0167 | 0.0598 |
662
+ | 1.7301 | 13000 | 0.0173 | 0.0583 |
663
+ | 1.7966 | 13500 | 0.0127 | 0.0540 |
664
+ | 1.8632 | 14000 | 0.0164 | 0.0595 |
665
+ | 1.9297 | 14500 | 0.014 | 0.0552 |
666
+ | 1.9963 | 15000 | 0.0114 | 0.0535 |
667
+ | 2.0628 | 15500 | 0.0097 | 0.0552 |
668
+ | 2.1294 | 16000 | 0.0111 | 0.0549 |
669
+ | 2.1959 | 16500 | 0.0076 | 0.0544 |
670
+ | 2.2624 | 17000 | 0.009 | 0.0589 |
671
+ | 2.3290 | 17500 | 0.0084 | 0.0543 |
672
+ | 2.3955 | 18000 | 0.0049 | 0.0520 |
673
+ | 2.4621 | 18500 | 0.0068 | 0.0505 |
674
+ | 2.5286 | 19000 | 0.0037 | 0.0489 |
675
+ | 2.5952 | 19500 | 0.0031 | 0.0461 |
676
+ | 2.6617 | 20000 | 0.0041 | 0.0496 |
677
+ | 2.7282 | 20500 | 0.0051 | 0.0464 |
678
+ | 2.7948 | 21000 | 0.0029 | 0.0475 |
679
+ | 2.8613 | 21500 | 0.0032 | 0.0458 |
680
+ | 2.9279 | 22000 | 0.003 | 0.0449 |
681
+ | 2.9944 | 22500 | 0.0035 | 0.0458 |
682
+ | 3.0610 | 23000 | 0.0033 | 0.0443 |
683
+ | 3.1275 | 23500 | 0.0032 | 0.0416 |
684
+ | 3.1940 | 24000 | 0.002 | 0.0449 |
685
+ | 3.2606 | 24500 | 0.0022 | 0.0447 |
686
+ | 3.3271 | 25000 | 0.0017 | 0.0430 |
687
+ | 3.3937 | 25500 | 0.002 | 0.0418 |
688
+ | 3.4602 | 26000 | 0.0019 | 0.0415 |
689
+ | 3.5268 | 26500 | 0.0008 | 0.0406 |
690
+ | 3.5933 | 27000 | 0.0007 | 0.0414 |
691
+ | 3.6598 | 27500 | 0.0008 | 0.0416 |
692
+ | 3.7264 | 28000 | 0.0011 | 0.0418 |
693
+ | 3.7929 | 28500 | 0.0006 | 0.0416 |
694
+ | 3.8595 | 29000 | 0.0005 | 0.0417 |
695
+ | 3.9260 | 29500 | 0.0007 | 0.0413 |
696
+ | 3.9925 | 30000 | 0.0008 | 0.0412 |
697
+
698
+
699
+ ### Framework Versions
700
+ - Python: 3.10.14
701
+ - Sentence Transformers: 3.2.1
702
+ - Transformers: 4.45.1
703
+ - PyTorch: 2.4.0
704
+ - Accelerate: 0.34.2
705
+ - Datasets: 3.0.1
706
+ - Tokenizers: 0.20.0
707
+
708
+ ## Citation
709
+
710
+ ### BibTeX
711
+
712
+ #### Sentence Transformers
713
+ ```bibtex
714
+ @inproceedings{reimers-2019-sentence-bert,
715
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
716
+ author = "Reimers, Nils and Gurevych, Iryna",
717
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
718
+ month = "11",
719
+ year = "2019",
720
+ publisher = "Association for Computational Linguistics",
721
+ url = "https://arxiv.org/abs/1908.10084",
722
+ }
723
+ ```
724
+
725
+ #### MultipleNegativesRankingLoss
726
+ ```bibtex
727
+ @misc{henderson2017efficient,
728
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
729
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
730
+ year={2017},
731
+ eprint={1705.00652},
732
+ archivePrefix={arXiv},
733
+ primaryClass={cs.CL}
734
+ }
735
+ ```
736
+
737
+ <!--
738
+ ## Glossary
739
+
740
+ *Clearly define terms in order to be accessible across audiences.*
741
+ -->
742
+
743
+ <!--
744
+ ## Model Card Authors
745
+
746
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
747
+ -->
748
+
749
+ <!--
750
+ ## Model Card Contact
751
+
752
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
753
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "VoVanPhuc/sup-SimCSE-VietNamese-phobert-base",
3
+ "architectures": [
4
+ "RobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "gradient_checkpointing": false,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "layer_norm_eps": 1e-05,
17
+ "max_position_embeddings": 258,
18
+ "model_type": "roberta",
19
+ "num_attention_heads": 12,
20
+ "num_hidden_layers": 12,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "tokenizer_class": "PhobertTokenizer",
24
+ "torch_dtype": "float32",
25
+ "transformers_version": "4.45.1",
26
+ "type_vocab_size": 1,
27
+ "use_cache": true,
28
+ "vocab_size": 64001
29
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.2.1",
4
+ "transformers": "4.45.1",
5
+ "pytorch": "2.4.0"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:911b3f90c7abd06d65884617f412b684a5d4548d4487d45726530f208390a120
3
+ size 540015464
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 256,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<s>",
3
+ "cls_token": "<s>",
4
+ "eos_token": "</s>",
5
+ "mask_token": "<mask>",
6
+ "pad_token": "<pad>",
7
+ "sep_token": "</s>",
8
+ "unk_token": "<unk>"
9
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,54 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": false,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 256,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "tokenizer_class": "PhobertTokenizer",
53
+ "unk_token": "<unk>"
54
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff