Spaces:

raannakasturi
/

ReXplorePaperDataFetcher

Running

raannakasturi commited on Dec 31, 2024

Commit

485c7d1

1 Parent(s): 42db160

Update fetch_title to improve regex for title extraction and adjust main execution to fetch paper data by ID

Files changed (1) hide show

fetch_paper_data.py CHANGED Viewed

@@ -67,7 +67,9 @@ def fetch_citation(doi):
 def fetch_title(doi):
     title_content = requests.get(doi, headers={ 'User-Agent':HEADERS['User-Agent'], 'Accept': 'text/x-bibliography; style=bibtex'}).content
     bibtex_entry = title_content.decode('utf-8').strip()
-    title = re.search(r'title\s*=\s*{(.*?)}', bibtex_entry)
     if title:
         return title.group(1).strip()
     return None
@@ -96,5 +98,5 @@ def fetch_paper_data(id):
     return json.dumps(data, indent=4, ensure_ascii=False)
 if __name__ == '__main__':
-    data = fetch_pmc_pdf('PMC5334499')
     print(data)

 def fetch_title(doi):
     title_content = requests.get(doi, headers={ 'User-Agent':HEADERS['User-Agent'], 'Accept': 'text/x-bibliography; style=bibtex'}).content
     bibtex_entry = title_content.decode('utf-8').strip()
+    print(bibtex_entry)
+    title = re.search(r'title\s*=\s*{(.*?)},\s+url', bibtex_entry)
+    print(title)
     if title:
         return title.group(1).strip()
     return None
     return json.dumps(data, indent=4, ensure_ascii=False)
 if __name__ == '__main__':
+    data = fetch_paper_data('2412.20276')
     print(data)