In [12]:
import bs4
from langchain_community.document_loaders import WebBaseLoader

# Only keep post title, headers, and content from the full HTML.
bs4_strainer = bs4.SoupStrainer(class_=("post-title", "post-header", "post-content")) 
loader = WebBaseLoader(
 web_paths=(
 "https://um.ugm.ac.id/ragam-seleksi-pascasarjana/",
 "https://um.ugm.ac.id/persyaratan-pendaftaran-magister/",
 "https://um.ugm.ac.id/persyaratan-pendaftaran-program-spesialis/",
 "https://um.ugm.ac.id/persyaratan-pendaftaran-subspesialis/",
 "https://um.ugm.ac.id/persyaratan-pendaftaran-doktor/",
 "https://um.ugm.ac.id/prosedur-pendaftaran-magister/",
 "https://um.ugm.ac.id/prosedur-pendaftaran-program-spesialis/",
 "https://um.ugm.ac.id/prosedur-pendaftaran-program-subspesialis/",
 "https://um.ugm.ac.id/prosedur-pendaftaran-doktor-2/",
 "https://um.ugm.ac.id/program-studi-program-magister-2/",
 "https://um.ugm.ac.id/program-studi-dan-daya-tampung-program-spesialis/",
 "https://um.ugm.ac.id/program-studi-program-doktor/",
 "https://um.ugm.ac.id/jadwal-seleksi-magister-dan-doktor/",
 "https://um.ugm.ac.id/jadwal-kegiatan-seleksi-program-spesialis/",
 "https://mkom.ugm.ac.id/alur-pendaftaran-magister/",
 "https://mkom.ugm.ac.id/informasi-pendaftaran-program-pra-s2-ilmu-komputer/",
 "https://mkom.ugm.ac.id/informasi-pendaftaran-program-s2-magister/",
 "https://mkom.ugm.ac.id/program-dual-degree-double-degree-magister-ilmu-komputer/",
 "https://mkom.ugm.ac.id/informasi-pendaftaran-program-s3-doktor/"
 ),
 bs_kwargs={"parse_only": bs4_strainer},
)
docs = loader.load()

len(docs[0].page_content)

2879

In [13]:
print(docs[0].page_content[:500])

Ragam Seleksi Program Pascasarjana
Penerimaan Mahasiswa Baru (PMB) Program Pascasarjana terdiri dari:

Jalur Reguler, dengan skema:


Biaya Sendiri
Diperuntukkan bagi pendaftar dengan biaya sendiri/swadana.
Kerja sama
Diperuntukkan bagi:
1. pendaftar yang telah ditetapkan sebagai penerima beasiswa oleh lembaga/instansi pemberi beasiswa (dibuktikan dengan adanya surat penetapan sebagai penerima beasiswa); atau
2. pendaftar yang pendidikanya dibiayai oleh mitra kerja sama UGM yang dibuktikan denga


In [14]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
 chunk_size=1000, chunk_overlap=200, add_start_index=True
)
all_splits = text_splitter.split_documents(docs)

len(all_splits)

111

In [15]:
len(all_splits[0].page_content)

835

In [16]:
all_splits[10].metadata

{'source': 'https://um.ugm.ac.id/persyaratan-pendaftaran-magister/',
 'start_index': 4748}

In [17]:
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings

vectorstore = FAISS.from_documents(all_splits, HuggingFaceEmbeddings(model_name='firqaaa/indo-sentence-bert-base'))



In [18]:
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 6})

retrieved_docs = retriever.invoke("Apa saja skema Penerimaan Mahasiswa Baru (PMB) Program Pascasarjana jalur reguler?")

len(retrieved_docs)

6

In [19]:
print(retrieved_docs[0].page_content)

Ragam Seleksi Program Pascasarjana
Penerimaan Mahasiswa Baru (PMB) Program Pascasarjana terdiri dari:

Jalur Reguler, dengan skema:


Biaya Sendiri
Diperuntukkan bagi pendaftar dengan biaya sendiri/swadana.
Kerja sama
Diperuntukkan bagi:
1. pendaftar yang telah ditetapkan sebagai penerima beasiswa oleh lembaga/instansi pemberi beasiswa (dibuktikan dengan adanya surat penetapan sebagai penerima beasiswa); atau
2. pendaftar yang pendidikanya dibiayai oleh mitra kerja sama UGM yang dibuktikan dengan adanya Memorandum of Understanding (MoU) atau Perjanian Kerja Sama (PKS) yang berlaku (daftar mitra kerja sama dapat dipilih pada saat mengisi pendaftaran online).
Pelamar Beasiswa
Diperuntukkan bagi pendaftar yang sedang mendaftar beasiswa atau menunggu hasil seleksi beasiswa dari berbagai lembaga/instansi/ pihak pemberi beasiswa.


In [20]:
import os

os.environ["COHERE_API_KEY"] = ''

from langchain_cohere import ChatCohere

llm = ChatCohere(model="command-r")

In [21]:
from langchain import hub

prompt = hub.pull("rlm/rag-prompt")

example_messages = prompt.invoke(
 {"context": "filler context", "question": "filler question"}
).to_messages()

example_messages

[HumanMessage(content="You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.\nQuestion: filler question \nContext: filler context \nAnswer:")]

In [22]:
print(example_messages[0].content)

You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.
Question: filler question 
Context: filler context 
Answer:


In [23]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough


def format_docs(docs):
 return "\n\n".join(doc.page_content for doc in docs)


rag_chain = (
 {"context": retriever | format_docs, "question": RunnablePassthrough()}
 | prompt
 | llm
 | StrOutputParser()
)

for chunk in rag_chain.stream("Apa saja skema Penerimaan Mahasiswa Baru (PMB) Program Pascasarjana jalur reguler?"):
 print(chunk, end="", flush=True)

Penerimaan Mahasiswa Baru (PMB) Program Pascasarjana jalur reguler dilakukan melalui tiga skema: biaya sendiri, kerja sama, dan pelamar beasiswa. Jalur ini terbuka untuk semua pendaftar tanpa batasan institusi atau negara asal ijazah.Penerimaan Mahasiswa Baru (PMB) Program Pascasarjana jalur reguler dilakukan melalui tiga skema: biaya sendiri, kerja sama, dan pelamar beasiswa. Jalur ini terbuka untuk semua pendaftar tanpa batasan institusi atau negara asal ijazah.

In [24]:
from langchain_core.prompts import PromptTemplate

template = """Gunakan konteks berikut untuk menjawab pertanyaan pada bagian akhir.
Jika kamu tidak tahu jawabannya, katakan saja bahwa kamu tidak tahu, jangan mencoba untuk mengarang jawaban.
Selalu katakan "Terima kasih sudah bertanya!" pada setiap akhir jawaban.

{context}

Pertanyaan: {question}

Jawaban:"""

custom_rag_prompt = PromptTemplate.from_template(template)

rag_chain = (
 {"context": retriever | format_docs, "question": RunnablePassthrough()}
 | custom_rag_prompt
 | llm
 | StrOutputParser()
)

rag_chain.invoke("Berapa nomor telepon PROGRAM MAGISTER (S2) SEMESTER GASAL TA 2024/2025 program studi Magister Akuntansi?")

'274-513109, 0274-548516, 085292000355.\n\nTerima kasih sudah bertanya!'