metadata

language:
  - ru
  - en
tags:
  - summarization
  - dialogue-summarization
  - text2text-generation
  - t5
datasets:
  - d0rj/samsum-ru
  - IlyaGusev/gazeta
  - zjkarina/matreshka
  - rcp-meetings/rudialogsum_v2
  - GEM/wiki_lingua
  - mlsum
metrics:
  - bleu
  - rouge
widget:
  - example_title: Diploma Introduction
    text: >
      Актуальность проблемы. Электронная информация играет все большую  роль во
      всех сферах жизни современного общества. В последние годы объем
      научно-технической текстовой информации в электронном виде возрос
      настолько, что возникает угроза обесценивания этой информации в связи с
      трудностями поиска необходимых сведений среди множества доступных текстов.
      Развитие информационных ресурсов Интернет многократно усугубило проблему
      информационной перегрузки. В этой ситуации особенно актуальными становятся
      методы автоматизации реферирования текстовой информации, то есть методы
      получения сжатого представления текстовых документов–рефератов
      (аннотаций). Постановка  проблемы  автоматического реферирования текста и
      соответственно попытки ее решения с использованием различных подходов
      предпринимались многими исследователями. История применения вычислительной
      техники для реферирования  насчитывает уже более 50 лет и связана с
      именами таких исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф.
      Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы  выработаны 
      многочисленные подходы к решению данной проблемы, которые достаточно четко
      подразделяются на два направления: автоматическое реферирование,
      основанное на экстрагировании из первичных документов с помощью
      определенных формальных признаков «наиболее информативных» фраз
      (фрагментов), совокупность которых образует некоторый экстракт;
      автоматическое реферирование, основанное на выделении из текстов с помощью
      специальных информационных языков наиболее существенной информации и
      порождении новых текстов (рефератов), содержательно обобщающих первичные 
      документы.
  - example_title: Biological Info
    text: >-
      Первую многоножку, у которой более тысячи ног, обнаружили в австралийских
      пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по
      количеству ног была 700-ногая многоножка. Новый вид имеет длинное тонкое
      тело, похожее на нить, и большое количество конечностей, по-видимому, дает
      преимущества для быстрого перемещения и проникновения в труднодоступные
      места — ученые полагают, такая многоножка может спокойно перемещаться по
      трещинам в камнях. Австралия известна своими огромными и жутковатыми
      животными вроде 25-сантиметровых пауков. Теперь список пугающих
      членистоногих пополнился самой «многоногой» в мире многоножкой, у которой
      более тысячи ног. Необычное животное обнаружила группа исследователей из
      Австралии и США в пещерах на западе страны. Подробнее многоножку ученые
      описали в статье в журнале Scientific Reports. Исследователи занимались
      оценкой воздействия подземных вод на окружающую среду в зоне добычи
      полезных ископаемых на западе страны, когда наткнулись на новый вид
      многоножек. В отличие от большинства сородичей, живущих на поверхности,
      эти многоножки обитали в пещерах на глубине до 60 метров. Новый вид
      исследователи назвали Eumillipes persephone, в честь Персефоны —
      древнегреческой богини подземного мира. У многоножки оказалось 1306 ног —
      больше, чем у любого другого известного вида. Предыдущей рекордсменкой
      была калифорнийская Illacme plenipes, у которой насчитывалось до 750 ног.
      «Эти животные были настолько уникальны, — говорит биолог Бруно Бузатто. —
      Как только я понял, какой длины они были... Стало ясно, что это что-то
      совершенно новое». У Е. persephone нитевидное тело длиной около 9,5 см и
      шириной всего миллиметр, состоящее из 330 сегментов, короткие ноги и
      конусообразная голова. Как и другие животные, живущие в постоянной
      темноте, эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее
      с белой нитью, выдернутой из рубашки. Чтобы посчитать количество ног,
      ученым пришлось сначала снять многоножку в высоком разрешении, а затем
      закрашивать на фото каждый десяток ног другим цветом.
      (https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml)
model-index:
  - name: d0rj/rut5-base-summ
    results:
      - task:
          type: summarization
          name: Summarization
        dataset:
          name: samsum
          type: samsum
          config: samsum
          split: test
        metrics:
          - type: rouge
            value: 28.8694
            name: ROUGE-1
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYTdhMjM4YWJiZTBiNmJhNTc0ZjQ4M2E1M2RjMDI4YThmYjEzMmJmZjdlOGRjOWRiZDA2YWEzOTU0MTMwYmJjNCIsInZlcnNpb24iOjF9.6bddYV-Rnp4zhgQjbv4cHKtXHDCLknfxTH2bYsVe6R9wgW45gUSck61EIeJdqj0PS7Vi2zcz8YW4DEXDd-UECQ
          - type: rouge
            value: 8.4686
            name: ROUGE-2
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiN2NiOTdkNTE0NjVmYTcyMDY1ZjYzMjZlZjI1MDViOWFmM2M1MDZjOGZiYThlMTc4MWY5YThlNDJmOGYyNWRmZCIsInZlcnNpb24iOjF9.BLeNnva3EJFMz8xwXZamguKWhLyaGTRFr1C12Yh8xTlimrc_mENHqwshJxdi4RULcGwlQmjGjXNw1DMJ42pDCQ
          - type: rouge
            value: 24.2357
            name: ROUGE-L
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNjM2OGMwMGYzOTgwNjhlZjhjNjU2YzU3MDZkMjljMzExZjYwNTU1MDM0YmM1NmE3OTUyYzBhMzcyOGM5ZmY1MSIsInZlcnNpb24iOjF9.ttNXKqK9rTsMM1aj4XvXUVuJZZAtgG2JE2NI3ZWT4kVcsC7F6mYFXNfUKEk2koKPkq0gwdPiAc-wrpbtmQg5Cg
          - type: rouge
            value: 25.8543
            name: ROUGE-LSUM
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYmMzNTdjMGFkNzhiYzFkYWMwNWRlZTM5ZTMxMjU5MjFiMDVjNDk3MWFlMTM5Yzc4MTFjYzNhODVmNjQ3ZTBmNyIsInZlcnNpb24iOjF9.80eUellPpBKzjW-kKDjr6WlzFh_nyC2Q4-gNtzQekOzUyuPynl913nWh4NcAw5YXbYC24dklshdFD5VheeYlBQ
          - type: loss
            value: 3.2456042766571045
            name: loss
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOWEwZTRlMDEyZDQ0ZTBiMzAyZTkyZWUwOGYyODQ0NzA1MWM4NTE3ZDBjYTYxNmMxODIyNmNiZDM0MmYzMzNjZCIsInZlcnNpb24iOjF9.evm57JUbHamIx2FcFmjRHwvZ3e818BYxT8tuv26KVnq9IHO8xyMHPes9slOMhdTijAT_leexMIKMRT_iFOGHAg
          - type: gen_len
            value: 27.5543
            name: gen_len
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZTIzNWY2NGEyNjQyMzdmYmM4ZDI5MTVkZDQ0ZTk3NmFiOWRjNTdiMjU3MmQwY2NhZTEzNTVhZGU5NTZhN2JiZiIsInZlcnNpb24iOjF9.7C3OQP2bl0EZRhRlRYtxd6cQapif0a2Vq5kRFiSdX6KLxU_QALZAlh_9DFyyYPh39R3e6Hyi438Ox6BGaalmBA
      - task:
          type: summarization
          name: Summarization
        dataset:
          name: xsum
          type: xsum
          config: default
          split: test
        metrics:
          - type: rouge
            value: 16.1279
            name: ROUGE-1
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYTgxZjgzZjAwOGViNTNjZDZhNTBhNzUzOTJiYmRkOWM5NDc0MjAxNzdjZDMyMDhlYzFiN2NlNGI5OTVkNDNiOCIsInZlcnNpb24iOjF9.Ix7CPD9gti8W7OMF4NtbMejt6fPEoZRJw2O-GeV-JRkgrIRXkrifGGE55BHdQyEe2KRcAcNCTav6igtiuEd7Cw
          - type: rouge
            value: 2.1128
            name: ROUGE-2
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYmViN2Y2OTA2YmE4YWYyODUxZDljNzkwMTM0ZWQ0ZTdjYWIzOTY0NzZjZTA1ZWNhNmE3OTU0NDAzNjVkMmE4ZSIsInZlcnNpb24iOjF9.G0EZ_XzRCLNeNL32Hzr7nGQmbX8rOjHfVuZW2zyIgnzenMMHWzAtN5vqq7R9ZVPP3roLFD5XSFyigHchIqu2Cg
          - type: rouge
            value: 12.2033
            name: ROUGE-L
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOTM3YTY2YWY5M2VhM2MyNWZhOGZlNTZlMjk5Y2MzMGViYTAyOGJjODZkZTBhMjZjOWViYTI4Y2RkMmEwZTQxNCIsInZlcnNpb24iOjF9.i3wgF36CvXF3rVGQHiR7bpkQ4zB7huuOn8yNnj-elmOkDmp7Mmw1UfGCX_1x99mBrnMHWdCJ57rCCYr2XbWrAw
          - type: rouge
            value: 12.4127
            name: ROUGE-LSUM
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiODg2MDUxZGU3MThjNzUxY2FiYjE3NTk5ZTdkNTYzMmFmNGVmZGU0NDQwOWQzOWNiZDE5YmViNDZlMzA4OWI2ZCIsInZlcnNpb24iOjF9.VJsGd6PO5iy5p5bE2QS81UXhxocsEnRNswbPcWdMDO9yQ4rU7v0QlucI53bQ7MPGpDThMCfyjpvnu682rQDGDg
          - type: loss
            value: 4.575754165649414
            name: loss
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMmY5NTc1MGY3MmFkNWMyZDlmNTZhOWYyYWRhNGM0MWJkYmVjZGZiODAzYmZmMDk3MjViMDNjYjFlYmJlZDhiYSIsInZlcnNpb24iOjF9.0Tc8MQAwiII5CcQTtb7MO-vZX_KXiBuKy30c4qG5MeRgcLmKMYZcG-zb2MgHr-kthgsHAasDciWOPhzMxMNzDg
          - type: gen_len
            value: 39.2258
            name: gen_len
            verified: true
            verifyToken: >-
              eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMGM1NTgzMjJlYjMxZjhmM2E1NjIwMDI4YTJkNzI5YjNlMWNiOTQxYTMxNzg3Zjk4YjBiOGU3MGMxNWJkNzUwZSIsInZlcnNpb24iOjF9.xFEROlFxxfmkQDBXQOaCOXApaVoarWTQYTVw8pB8CCRuKSRWljDWuPARSLX79Mv0k3VtHhWNRneW4PakeVyPCA

rut5-base-summ

Model

Finetuned ai-forever/ruT5-base for text and dialogue summarization.

Data

All 'train' subsets was concatenated and shuffled with seed 1000 - 7.

Train subset = 155678 rows.

Metrics

Evaluation on 10% of concatenated 'validation' subsets = 1458 rows.

See WandB logs.

See report at REPORT WIP.

Notes

Scheduler, optimizer and trainer states are saved into this repo, so you can use that to continue finetune with your own data with existing gradients.

Usage

Summarization pipeline

from transformers import pipeline


pipe = pipeline('summarization', model='d0rj/rut5-base-summ')
pipe(text)

Text-to-text generation

from transformers import T5Tokenizer, T5ForConditionalGeneration


tokenizer = T5Tokenizer.from_pretrained('d0rj/rut5-base-summ')
model = T5ForConditionalGeneration.from_pretrained('d0rj/rut5-base-summ').eval()

input_ids = tokenizer(text, return_tensors='pt').input_ids
outputs = model.generate(input_ids)
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)