quantumaikr commited on
Commit
451f497
Β·
1 Parent(s): 94eb90f

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +41 -0
README.md ADDED
@@ -0,0 +1,41 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - ko
4
+ - en
5
+ pipeline_tag: text-generation
6
+ tags:
7
+ - kroean
8
+ - llama
9
+ ---
10
+
11
+
12
+ <p align="center" width="100%">
13
+ <img src="https://i.imgur.com/snFDU0P.png" alt="KoreanLM icon" style="width: 500px; display: block; margin: auto; border-radius: 10%;">
14
+ </p>
15
+
16
+
17
+ # KoreanLM: ν•œκ΅­μ–΄ μ–Έμ–΄λͺ¨λΈ ν”„λ‘œμ νŠΈ
18
+
19
+ KoreanLM은 ν•œκ΅­μ–΄ μ–Έμ–΄λͺ¨λΈμ„ κ°œλ°œν•˜κΈ° μœ„ν•œ μ˜€ν”ˆμ†ŒμŠ€ ν”„λ‘œμ νŠΈμž…λ‹ˆλ‹€. ν˜„μž¬ λŒ€λΆ€λΆ„μ˜ μ–Έμ–΄λͺ¨λΈλ“€μ€ μ˜μ–΄μ— μ΄ˆμ μ„ λ§žμΆ”κ³  μžˆμ–΄, ν•œκ΅­μ–΄μ— λŒ€ν•œ ν•™μŠ΅μ΄ μƒλŒ€μ μœΌλ‘œ λΆ€μ‘±ν•˜κ³  토큰화 κ³Όμ •μ—μ„œ λΉ„νš¨μœ¨μ μΈ κ²½μš°κ°€ μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κ³  ν•œκ΅­μ–΄μ— μ΅œμ ν™”λœ μ–Έμ–΄λͺ¨λΈμ„ μ œκ³΅ν•˜κΈ° μœ„ν•΄ KoreanLM ν”„λ‘œμ νŠΈλ₯Ό μ‹œμž‘ν•˜κ²Œ λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
20
+
21
+
22
+ ## ν”„λ‘œμ νŠΈ λͺ©ν‘œ
23
+
24
+ 1. ν•œκ΅­μ–΄μ— νŠΉν™”λœ μ–Έμ–΄λͺ¨λΈ 개발: ν•œκ΅­μ–΄μ˜ 문법, μ–΄νœ˜, 문화적 νŠΉμ„±μ„ λ°˜μ˜ν•˜μ—¬ ν•œκ΅­μ–΄λ₯Ό 더 μ •ν™•ν•˜κ²Œ μ΄ν•΄ν•˜κ³  생성할 수 μžˆλŠ” μ–Έμ–΄λͺ¨λΈμ„ κ°œλ°œν•©λ‹ˆλ‹€.
25
+
26
+ 2. 효율적인 토큰화 방식 λ„μž…: ν•œκ΅­μ–΄ ν…μŠ€νŠΈμ˜ 토큰화 κ³Όμ •μ—μ„œ 효율적이고 μ •ν™•ν•œ 뢄석이 κ°€λŠ₯ν•œ μƒˆλ‘œμš΄ 토큰화 방식을 λ„μž…ν•˜μ—¬ μ–Έμ–΄λͺ¨λΈμ˜ μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
27
+
28
+ 3. κ±°λŒ€ μ–Έμ–΄λͺ¨λΈμ˜ μ‚¬μš©μ„± κ°œμ„ : ν˜„μž¬ κ±°λŒ€ν•œ μ‚¬μ΄μ¦ˆμ˜ μ–Έμ–΄λͺ¨λΈλ“€μ€ 기업이 μžμ‚¬μ˜ 데이터λ₯Ό νŒŒμΈνŠœλ‹ν•˜κΈ° μ–΄λ €μš΄ λ¬Έμ œκ°€ μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ ν•œκ΅­μ–΄ μ–Έμ–΄λͺ¨λΈμ˜ 크기λ₯Ό μ‘°μ ˆν•˜μ—¬ μ‚¬μš©μ„±μ„ κ°œμ„ ν•˜κ³ , μžμ—°μ–΄ 처리 μž‘μ—…μ— 더 μ‰½κ²Œ μ μš©ν•  수 μžˆλ„λ‘ ν•©λ‹ˆλ‹€.
29
+
30
+
31
+ ## μ‚¬μš© 방법
32
+
33
+ λ‹€μŒμ€ transformers 라이브러리λ₯Ό 톡해 λͺ¨λΈκ³Ό ν† ν¬λ‚˜μ΄μ €λ₯Ό λ‘œλ”©ν•˜λŠ” μ˜ˆμ œμž…λ‹ˆλ‹€.
34
+
35
+ ```python
36
+
37
+ import transformers
38
+ model = transformers.AutoModelForCausalLM.from_pretrained("quantumaikr/KoreanLM-3B")
39
+ tokenizer = transformers.AutoTokenizer.from_pretrained("quantumaikr/KoreanLM-3B")
40
+
41
+ ```