Spaces:

kernelmachine
/

gpt3-quality-filter

Runtime error

App Files Files Community

kernelmachine commited on Jan 18, 2022

Commit

842e849

•

1 Parent(s): 893dac4

added model

Browse files

Files changed (7) hide show

app.py +69 -4
model/archive/classes.npy +0 -0
model/archive/coef.npy +0 -0
model/archive/intercept.npy +0 -0
model/best_hyperparameters.json +1 -0
model/results.jsonl +1 -0
score.py +23 -0

app.py CHANGED Viewed

@@ -1,7 +1,72 @@
 import gradio as gr
-def greet(name):
-    return "Hello " + name + "!!"
-iface = gr.Interface(fn=greet, inputs="text", outputs="text")
-iface.launch()

 import gradio as gr
+import argparse
+import json
+import logging
+import os
+import sys
+import pathlib
+import random
+import shutil
+import time
+from typing import Any, Dict, List, Union
+import numpy as np
+import pandas as pd
+from sklearn.feature_extraction.text import (CountVectorizer, TfidfTransformer, HashingVectorizer,
+                                             TfidfVectorizer)
+from sklearn.linear_model import LogisticRegression
+from sklearn.metrics import f1_score
+from sklearn.model_selection import train_test_split
+from tqdm import tqdm
+from lr.hyperparameters import SEARCH_SPACE, RandomSearch, HyperparameterSearch
+from shutil import rmtree
+def load_model(serialization_dir):
+    with open(os.path.join(serialization_dir, "best_hyperparameters.json"), 'r') as f:
+        hyperparameters = json.load(f)
+    if hyperparameters.pop('stopwords') == 1:
+        stop_words = 'english'
+    else:
+        stop_words = None
+    weight = hyperparameters.pop('weight')
+    if weight == 'binary':
+        binary = True
+    else:
+        binary = False
+    ngram_range = hyperparameters.pop('ngram_range')
+    ngram_range = sorted([int(x) for x in ngram_range.split()])
+    if weight == 'tf-idf':
+        vect = TfidfVectorizer(stop_words=stop_words,
+                               lowercase=True,
+                               ngram_range=ngram_range)
+    elif weight == 'hash':
+        vect = HashingVectorizer(stop_words=stop_words,lowercase=True,ngram_range=ngram_range)
+    else:
+        vect = CountVectorizer(binary=binary,
+                               stop_words=stop_words,
+                               lowercase=True,
+                               ngram_range=ngram_range)
+    if weight != "hash":
+        with open(os.path.join(serialization_dir, "vocab.json"), 'r') as f:
+            vocab = json.load(f)
+        vect.vocabulary_ = vocab
+    hyperparameters['C'] = float(hyperparameters['C'])
+    hyperparameters['tol'] = float(hyperparameters['tol'])
+    classifier = LogisticRegression(**hyperparameters)
+    if os.path.exists(os.path.join(serialization_dir, "archive", "idf.npy")):
+        vect.idf_ = np.load(os.path.join(serialization_dir,  "archive", "idf.npy"))
+    classifier.coef_ = np.load(os.path.join(serialization_dir,  "archive", "coef.npy"))
+    classifier.intercept_ = np.load(os.path.join(serialization_dir,  "archive", "intercept.npy"))
+    classifier.classes_ = np.load(os.path.join(serialization_dir,  "archive", "classes.npy"))
+    return classifier, vect
+def score(x, clf, vectorizer):
+    # score a single document
+    return clf.predict_proba(vectorizer.transform([x]))
+clf, vectorizer = load_model("model/")
+def start(text):
+    k = round(score(text, clf, vectorizer)[0][1], 2)
+    return {"GPT-3 Filter Quality Score": k }

model/archive/classes.npy ADDED Viewed

Binary file (144 Bytes). View file

model/archive/coef.npy ADDED Viewed

Binary file (8.39 MB). View file

model/archive/intercept.npy ADDED Viewed

Binary file (136 Bytes). View file

model/best_hyperparameters.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"C": 0.977778, "multi_class": "auto", "ngram_range": "1 2", "penalty": "l1", "random_state": 44555, "solver": "liblinear", "stopwords": null, "tol": 0.000816, "weight": "hash"}

model/results.jsonl ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"C":0.977778,"dev_accuracy":0.9332787322,"dev_f1":0.9226169818,"multi_class":"auto","ngram_range":"[1, 2]","penalty":"l1","random_state":44555,"solver":"liblinear","stopwords":null,"tol":0.000816,"training_duration":807.7028501034,"weight":"hash"}

score.py ADDED Viewed

	@@ -0,0 +1,23 @@

+from tqdm.auto import tqdm
+import numpy as np
+def score_text(df, clf, clf_vectorizer, field='text'):
+    ## score text using quality filter
+    df['filter_output']  = clf.predict_proba(clf_vectorizer.transform(tqdm(df[field]))).tolist()
+    df['prob_low_quality'] = df.filter_output.apply(lambda x: x[0])
+    df['prob_high_quality'] = df.filter_output.apply(lambda x: x[1])
+    df = df.drop(['filter_output'], axis=1)
+    df['GPT3_included'] = df.prob_high_quality.apply(lambda x: np.random.pareto(9) > (1 - x))
+    return df
+def get_counts(df, field='text'):
+    # count number of whitespace tokens
+    tqdm.pandas()
+    df['num_tokens'] = df[field].progress_apply(lambda x: len(x.split()))
+    return df
+def score(x, clf, vectorizer):
+    # score a single document
+    return clf.predict_proba(vectorizer.transform([x]))