Rezultaty wypracowane
- Publikacja naukowa Efficient Argument Classification with Compact
Language Models and ChatGPT-4 Refinements. Artykuł przedstawia
badania porównawcze nad różnymi modelami głębokiego uczenia
stosowanymi w argument mining. Praca koncentruje się na klasyfikacji
argumentów, a analiza została przeprowadzona na szerokim spektrum
zbiorów danych, takich jak Args.me, UKP i US2016. Główną nowością w
artykule jest hybrydowe połączenie modelu opartego na architekturze BERT
oraz wykorzystujący ChatGPT-4 do fine-tuningu. Wyniki badań pokazują, że
BERT+ChatGPT-4 przewyższa pozostałe modele, w tym inne modele oparte
na architekturze Transformer oraz LSTM. W większości przypadków
zaobserwowana poprawa skuteczności przekracza 10%.
Przedstawiona analiza może dostarczyć cennych wskazówek dotyczących
dalszego doskonalenia modeli klasyfikacji argumentów, a także wspomóc
opracowanie algorytmu opartego na promptowaniu, który pozwoli na
eliminację błędów klasyfikacyjnych.
Cite as: Pietron, M., Olszowski, R., Gomułka, J. (2024). Efficient Argument
Classification with Compact Language Models and ChatGPT-4 Refinements.
In: Nguyen, N.T., et al. Computational Collective Intelligence. ICCCI 2024.
Lecture Notes in Computer Science, vol 14810. Springer, Cham.
https://doi.org/10.1007/978-3-031-70816-9_20.
Rezultaty planowane
- Publikacja naukowa przedstawiająca badania porównawcze nad klasyfikacją
argumentów z użyciem modeli językowych. Analizie poddane zostają
zróżnicowane zbiory danych pochodzące ze znanych projektów badawczych,
takie jak Args.me, UKP i US2016. W analizie uwzględniono m.in. modele GPT-4,
GPT-4o, meta-LLAMA, oraz DeepSeek. Ponadto zostały przeanalizowane
różnego rodzaju prompty. W publikacji zostaną omówione zostają najczęściej
występujące pomyłki pojawiające się we wszystkich testowanych modelach.
Dodatkowo przedstawiono różnice między modelami. W dalszej części artykułu
przeanalizowano popularne algorytmy wykorzystujące techniki promptowania do
wnioskowania, a następnie zaproponowano model hybrydowy, składający się z
wybranych LLM-ów, przekształconych zapytań oraz modułu głosowania. Nowy
model poprawia skuteczność rozpoznawania argumentów, choć nadal nie osiąga
pełnej precyzji. Według autorów jest to pierwsza szeroka analiza wymienionych
zbiorów danych przy użyciu modeli LLM oraz algorytmów promptowania. Praca
wskazuje również słabości znanych algorytmów promptowania w analizie
argumentów, jednocześnie sugerując kierunki ich dalszego doskonalenia.
- Publikacja naukowa dotycząca teorii argumentu i polityki anotacyjnej.
Publikacja przedstawi przegląd definicji argumentu, uwzględniając różnorodne
podejścia teoretyczne oraz praktyczne trudności związane z ich stosowaniem w
analizie dyskusji, w tym w ramach Argument Mining (AM). W pierwszej części
autorzy omawiają istniejące w literaturze naukowej koncepcje argumentu.
Przegląd obejmuje klasyczne podejście w logice i teorii krytycznego myślenia,
ujęcia retoryczne i prawnicze, a także perspektywę filozoficzną inspirowaną myślą
Wittgensteina, w której argument jest traktowany jako opowieść. Ponadto
analizowane są koncepcje argumentu w kontekście debat, w tym teoria
agonistyczna w zestawieniu z deliberatyzmem, oraz zagadnienie argumentacji w
języku. Druga część artykułu koncentruje się na problemach związanych z
automatycznym rozpoznawaniem argumentów w internetowych dyskusjach i
istniejących korpusach anotowanych pod kątem AM. Następnie przedstawiony
zostaje praktyczny zestaw kryteriów identyfikacji argumentów. Ich celem jest
opracowanie operacyjnej definicji argumentu w sensie regulatywnym, a nie
jedynie opisowym. Wychodząc od szerokiego podejścia (np. Argumentative
Discursive Unit; ADU), rozważane jest stopniowe jego zawężenie i uzasadniane
wprowadzenie bardziej rygorystycznych regulacji, które mogą poprawić
skuteczność wykrywania argumentów zarówno w badaniach teoretycznych, jak i
w zastosowaniach empirycznych.
- Baza argumentów. Jednym z kluczowych rezultatów naszego projektu
badawczego jest opracowanie obszernego korpusu tekstów dotyczących
zagadnień publicznych, anotowanego pod kątem relacji między argumentami a
przesłankami oraz wielowątkowej struktury różnych modeli debat. Zgodnie z
założeniami projektu korpus będzie zawierał około 30 000 rekordów w języku
polskim oraz kolejne 30 000 w języku angielskim, co umożliwi efektywne uczenie
maszynowe w zakresie Argument Mining. Zgromadzone dane, przechowywane w
bazie w formacie JSON, będą na bieżąco aktualizowane, aby odzwierciedlać
najnowsze tematy debat publicznych pojawiające się w trakcie realizacji projektu.
Ze względu na dynamiczny charakter dyskursu publicznego, ciągła praca nad
gromadzeniem i anotacją danych stanowi istotny wkład w rozwój badań nad
argumentacją. Dodatkowo, w oparciu o modele ekstrakcji argumentów, zostaną
wygenerowane grafy wiedzy, które pozwolą na analizę powiązań między
argumentami w korpusie oraz identyfikację wzorców argumentacyjnych w różnych
modelach debat. W ramach tych działań zostanie także zorganizowana hierarchia
kategorii i relacji, tworząca formalne ontologie, które wzbogacą strukturalne
przedstawienie argumentacji. Baza argumentów zostanie opracowana z
wykorzystaniem technologii sieci semantycznej (Semantic Web Technology) i
udostępniona poprzez interfejs internetowy, zapewniając łatwy dostęp oraz
użyteczność zarówno dla badaczy, jak i dla systemów opartych na sztucznej
inteligencji.
- Dwie kolejne publikacje naukowe omawiające rezultaty projektu.