Spaces:

niknikita
/

transformerYSDA

Runtime error

App Files Files Community

niknikita commited on Apr 16, 2023

Commit

238ca26

•

1 Parent(s): d02d7c5

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -38

app.py CHANGED Viewed

@@ -10,6 +10,8 @@ from transformers import pipeline
 from torch.utils.data import TensorDataset, random_split, DataLoader, RandomSampler, SequentialSampler
 from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
 import streamlit as st
 import pandas as pd
 import json
@@ -32,22 +34,6 @@ def get_top95(y_predict, convert_target):
         if cumsum > 0.95:
             break
     return lst_labels
-#
-# Creating the customized model, by adding a drop out and a dense layer on top of distil bert to get the final output for the model.
-from transformers import DistilBertModel, DistilBertTokenizer
-# model.load_state_dict(checkpoint['model'])
-# optimizer.load_state_dict(checkpoint['opt'])
-# model.to("cpu")
-# print(model)
-# model = DistilBertForSequenceClassification.from_pretrained("model/distilbert-model1.pt", local_files_only=True)
-# tokenizer = BigBirdTokenizer.from_pretrained('google/bigbird-pegasus-large-arxiv')
-# model = BigBirdPegasusForSequenceClassification.from_pretrained('google/bigbird-pegasus-large-arxiv',
-#     num_labels=8,
-#     return_dict=False)
@@ -82,16 +68,6 @@ model = torch.load("pytorch_distilbert_news (4).bin", map_location=torch.device(
 def get_predict(title, abstract):
     tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-cased')
-    # encoded_dict = tokenizer.encode_plus(
-    #     text,  # document to encode.
-    #     add_special_tokens=True,  # add '[CLS]' and '[SEP]'
-    #     max_length=512,  # set max length
-    #     truncation=True,  # truncate longer messages
-    #     pad_to_max_length=True,  # add padding
-    #     return_attention_mask=True,  # create attn. masks
-    #     return_tensors='pt'  # return pytorch tensors
-    # )
     inputs = tokenizer(title, abstract,  return_tensors="pt")
     outputs = model(
         input_ids=inputs['input_ids'],
@@ -105,21 +81,13 @@ def get_predict(title, abstract):
     with open(file_path, 'r') as json_file:
         decode_target = json.load(json_file)
     return get_top95(y_predict, decode_target)
-#
-#
-#
-#
-#
-# get_predict('''physics physics physics physics physics
-#                physics physics physics physics''')
-#
-st.markdown("### Hello, world!")
-st.markdown("<img width=200px src='https://rozetked.me/images/uploads/dwoilp3BVjlE.jpg'>", unsafe_allow_html=True)
 # ^-- можно показывать пользователю текст, картинки, ограниченное подмножество html - всё как в jupyter
-title = st.text_area("TEXT HERE", key=1)
-abstract = st.text_area("TEXT HERE", key=2)
 # ^-- показать текстовое поле. В поле text лежит строка, которая находится там в данный момент

 from torch.utils.data import TensorDataset, random_split, DataLoader, RandomSampler, SequentialSampler
 from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
 import streamlit as st
+from transformers import DistilBertModel, DistilBertTokenizer
 import pandas as pd
 import json
         if cumsum > 0.95:
             break
     return lst_labels
 def get_predict(title, abstract):
     tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-cased')
     inputs = tokenizer(title, abstract,  return_tensors="pt")
     outputs = model(
         input_ids=inputs['input_ids'],
     with open(file_path, 'r') as json_file:
         decode_target = json.load(json_file)
     return get_top95(y_predict, decode_target)
+st.markdown("Классификатор статей")
 # ^-- можно показывать пользователю текст, картинки, ограниченное подмножество html - всё как в jupyter
+title = st.text_area("Title", key=1)
+abstract = st.text_area("Abstract", key=2)
 # ^-- показать текстовое поле. В поле text лежит строка, которая находится там в данный момент