ChatGPT: onze studie toont aan dat AI academische papers kan produceren die goed genoeg zijn voor tijdschriften - net nu sommigen het verbieden

shutterstock

Enkele van ’s werelds grootste uitgevers van academische tijdschriften hebben hun auteurs verboden of aan banden gelegd om de geavanceerde chatbot ChatGPT te gebruiken. Omdat de bot informatie van het internet gebruikt om zeer leesbare antwoorden op vragen te produceren, zijn de uitgevers bezorgd dat onnauwkeurig of geplagieerd werk de pagina’s van de academische literatuur zou kunnen binnenkomen.

Verschillende onderzoekers hebben de chatbot al als co-auteur vermeld op academische studies, en sommige uitgevers hebben stappen ondernomen om deze praktijk te verbieden. Maar de hoofdredacteur van Science, een van de beste wetenschappelijke tijdschriften ter wereld, is een stap verder gegaan en heeft elk gebruik van tekst uit het programma in ingezonden artikelen verboden.

Het is niet verrassend dat het gebruik van dergelijke chatbots interessant is voor academische uitgevers. Onze recente studie, gepubliceerd in Finance Research Letters, toonde aan dat ChatGPT kon worden gebruikt om een financieel artikel te schrijven dat zou worden geaccepteerd voor een academisch tijdschrift. Hoewel de bot op sommige gebieden beter presteerde dan op andere, hielp het toevoegen van onze eigen expertise de beperkingen van het programma in de ogen van de beoordelaars van het tijdschrift te overwinnen.

Wij stellen echter dat uitgevers en onderzoekers ChatGPT niet noodzakelijk als een bedreiging moeten zien, maar eerder als een potentieel belangrijk hulpmiddel voor onderzoek – een goedkope of zelfs gratis elektronische assistent.

Onze gedachte was: als het gemakkelijk is om goede resultaten uit ChatGPT te halen door het gewoon te gebruiken, is er misschien iets extra’s dat we kunnen doen om die goede resultaten om te zetten in geweldige resultaten.

We vroegen ChatGPT eerst om de standaard vier onderdelen van een onderzoek te genereren: onderzoeksidee, literatuurstudie (een evaluatie van eerder academisch onderzoek over hetzelfde onderwerp), dataset, en suggesties voor testen en onderzoek. Wij specificeerden alleen het brede onderwerp en dat de output in staat moest zijn te worden gepubliceerd in “een goed financieel tijdschrift”.

Dit was versie één van hoe we ChatGPT wilden gebruiken. Voor versie twee plakten wij in het ChatGPT-venster iets minder dan 200 abstracts (samenvattingen) van relevante, bestaande onderzoeken.

Wij vroegen vervolgens het programma hiermee rekening te houden bij het creëren van de vier onderzoeksfasen. Ten slotte voegden we voor versie drie “domeinkennis” toe – input van academische onderzoekers. Wij lazen de antwoorden van het computerprogramma en deden suggesties voor verbeteringen. Zo integreerden wij onze expertise met die van ChatGPT.

Vervolgens vroegen wij een panel van 32 beoordelaars elk een versie te beoordelen van hoe ChatGPT kan worden gebruikt om een academische studie te genereren. De beoordelaars werd gevraagd te beoordelen of de output voldoende uitgebreid en correct was, en of de bijdrage nieuw genoeg was om te worden gepubliceerd in een “goed” academisch financieel tijdschrift.

De grote les was dat al deze studies door de deskundige beoordelaars in het algemeen aanvaardbaar werden geacht. Dit is nogal verbazingwekkend: een chatbot werd in staat geacht academische onderzoeksideeën van hoge kwaliteit te genereren. Dit roept fundamentele vragen op over de betekenis van creativiteit en het eigendom van creatieve ideeën – vragen waarop nog niemand een solide antwoord heeft.

Collegezaal

ChatGPT zou het onderzoeksproces kunnen helpen democratiseren.
Shutterstock

Sterke en zwakke punten

De resultaten wijzen ook op enkele potentiële sterke en zwakke punten van ChatGPT. We vonden dat verschillende onderzoeksonderdelen verschillend werden beoordeeld. Het onderzoeksidee en de dataset werden over het algemeen hoog gewaardeerd. Er was een lagere, maar nog steeds aanvaardbare, waardering voor de literatuuroverzichten en de testsuggesties.

Ons vermoeden hier is dat ChatGPT bijzonder sterk is in het nemen van een reeks externe teksten en het verbinden daarvan (de essentie van een onderzoeksidee), of het nemen van gemakkelijk herkenbare delen uit één document en het aanpassen daarvan (een voorbeeld is de gegevenssamenvatting – een gemakkelijk herkenbare “tekstbrok” in de meeste onderzoeken).

Een relatieve zwakte van het platform werd duidelijk wanneer de taak complexer was – wanneer het conceptuele proces te veel stadia kent. Literatuurbesprekingen en tests vallen meestal in deze categorie. ChatGPT was goed in sommige van deze stappen, maar niet in alle. Dit lijkt te zijn opgemerkt door de beoordelaars.

Wij konden deze beperkingen echter overwinnen in onze meest geavanceerde versie (versie drie), waarin wij met ChatGPT samenwerkten om tot aanvaardbare uitkomsten te komen. Alle onderdelen van het geavanceerde onderzoek werden vervolgens hoog gewaardeerd door de reviewers, wat suggereert dat de rol van academische onderzoekers nog niet dood is.

Ethische implicaties

ChatGPT is een hulpmiddel. In onze studie hebben we laten zien dat het, met enige zorgvuldigheid, kan worden gebruikt om een aanvaardbaar financieel onderzoek te genereren. Zelfs zonder zorg genereert het aannemelijk werk.

Dit heeft een aantal duidelijke ethische implicaties. Onderzoeksintegriteit is al een nijpend probleem in de academische wereld en websites als RetractionWatch brengen een gestage stroom van valse, geplagieerde, en gewoon verkeerde, onderzoeken op gang. Zou ChatGPT dit probleem nog kunnen verergeren?

Het zou kunnen, is het korte antwoord. Maar je kunt de geest niet terug in de fles stoppen. De technologie zal ook alleen maar beter worden (en snel). Hoe we precies de rol van ChatGPT in onderzoek kunnen erkennen en controleren is een grotere vraag voor een andere dag. Maar onze bevindingen zijn ook in dit opzicht nuttig – door te vinden dat de ChatGPT-studieversie met onderzoeker-expertise superieur is, tonen we aan dat de inbreng van menselijke onderzoekers nog steeds van vitaal belang is in aanvaardbaar onderzoek.

Voorlopig denken wij dat onderzoekers ChatGPT moeten zien als een hulpmiddel, niet als een bedreiging. Het kan met name een hulpmiddel zijn voor groepen onderzoekers die de financiële middelen voor traditionele (menselijke) onderzoeksassistentie missen: onderzoekers uit de opkomende economie, afgestudeerde studenten en beginnende onderzoekers. Het is heel goed mogelijk dat ChatGPT (en soortgelijke programma’s) het onderzoeksproces kunnen helpen democratiseren.

Maar onderzoekers moeten zich bewust zijn van het verbod op het gebruik ervan bij de voorbereiding van tijdschriftartikelen. Het is duidelijk dat er drastisch verschillende meningen zijn over deze technologie, dus het zal voorzichtig gebruikt moeten worden.

Dit artikel werd bijgewerkt op 27 januari om het nieuws weer te geven over academische uitgevers die ChatGPT aanpakken in hun redactiebeleid.

De auteurs werken niet voor, adviseren niet, bezitten geen aandelen in en ontvangen geen financiering van bedrijven of organisaties die baat hebben bij dit artikel, en hebben buiten hun academische aanstelling geen relevante banden bekendgemaakt.