Quand l'IA écrit l'article et que l'IA l'évalue, qui fait encore de la science ?

Introduction

Imaginons une situation. Un chercheur, pressé et peu scrupuleux, utilise un modèle de langage (LLM) pour rédiger ex nihilo un manuscrit. Un reviewer, submergé par la cinquième demande de relecture du mois, soumet ce manuscrit au même type de modèle et renvoie la critique générée. L'éditeur est très satisfait du délai de réponse. Il accepte l'article qui fait maintenant partie de la littérature. Il est lu. Il est cité. Il sera la base de décisions cliniques ou de financements. Pourtant, à aucun moment, un humain ne s'est véritablement confronté au contenu scientifique.

Ce scénario vous semble exagéré ? Les données récentes suggèrent qu'il se produit déjà.

Côté rédaction, les analyses à grande échelle des abstracts PubMed suggèrent qu'au moins 13,5 % des articles biomédicaux publiés en 2024 portent des traces détectables de traitement par LLM (Kobak et al., 2025).

Côté reviewing, une analyse de l'International Conference on Learning Representations (ICLR) a révélé qu'environ 21 % des reviews soumises pour ICLR 2026 étaient entièrement générées par IA, et plus de la moitié montraient des signes d'implication de l'IA (Naddaf, 2025b). Un sondage auprès de 1 600 chercheurs rapporte que plus de 50 % ont utilisé des outils d'IA pendant le peer review (Naddaf, 2026).

Ce qui rend cette situation particulièrement risquée, ce n'est pas que l'IA soit utilisée. C'est que les deux côtés du mécanisme de contrôle qualité de la production scientifique puissent être automatisés simultanément et sans cadre pour en évaluer les conséquences.

Note

Cet article fait référence à des publications récentes. Certaines n'ont pas encore été évaluées par des pairs. Il doit avant tout être pris comme une ouverture au débat et une réflexion éthique et épistémologique.

Point clé

Le risque n'est pas que l'IA entre dans la publication scientifique, c'est déjà le cas. Le risque est qu'une boucle fermée rédaction → évaluation → bibliographie → rédaction s'installe sans qu'aucun humain ne s'engage réellement avec la science. Et que personne ne s'en aperçoive.

Côté rédaction : quelle part de la littérature est déjà assistée par l'IA ?

La question n'est plus de savoir si les chercheurs utilisent des LLM pour la rédaction scientifique. C'est de savoir combien, comment, et dans quelle mesure.

La signature lexicale

Kobak et al. (2025, Science Advances) ont adopté une approche intéressante. Plutôt que de tenter de détecter les textes générés par IA au niveau d'un article individuel (une tâche peu fiable), ils ont étudié les changements de vocabulaire sur plus de 15 millions d'abstracts PubMed entre 2010 et 2024. À partir de 2023, certains choix stylistiques ont montré une augmentation abrupte et sans précédent de leur fréquence. Pas des mots de contenu liés à un nouveau sujet de recherche (comme ce fut le cas avec la terminologie COVID en 2020), mais des mots de style : des verbes et adjectifs que les LLM préfèrent systématiquement à leurs synonymes.

Ces mots existaient, bien sûr, dans la rédaction scientifique avant 2023, mais à des fréquences stables et basses. Leur augmentation simultanée et brutale dans tous les domaines biomédicaux en 2023-2024 est sans précédent dans l'histoire de PubMed. Même le COVID et son flot d'articles n'a pas produit un choc de vocabulaire comparable.

En quantifiant l'excès de fréquence de ces marqueurs, les auteurs ont estimé qu'au moins 13,5 % des abstracts de 2024 sont passés par un LLM. Ce chiffre variait fortement selon les sous-corpus, atteignant 40 % chez certains éditeurs, pays et sous-disciplines. Les journaux MDPI et Frontiers présentaient les taux les plus élevés.

Une analyse parallèle par Liang et al. (2025) sur près d'un million d'articles d'arXiv, bioRxiv et du portefeuille Nature a confirmé la tendance, avec la croissance la plus rapide dans les articles d'informatique.

S'aider d'un LLM. Est-ce tricher ?

Ces estimations ne capturent que la partie détectable du spectre. Un chercheur qui utilise un LLM pour restructurer un paragraphe, lisser des transitions ou reformuler une phrase laissera moins de traces qu'un chercheur qui génère des sections entières. La frontière entre « édition linguistique » et « production de contenu » est floue en pratique.

C'est aussi ce qui rend l'application des politiques si difficile. Le NIH a pris une position forte en 2025 : les demandes de financement « substantiellement développées par l'IA » ne seront pas prises en considération, et l'agence déploie désormais des outils de détection IA pour les identifier (NIH, NOT-OD-25-132). Mais que signifie « substantiellement développé » ? Si un postdoctorant rédige un plan, le soumet à Claude, édite le résultat et soumet la version finale, où finit la contribution humaine et où commence la contribution de l'IA ?

Aujourd'hui, il semblerait que nous n'avons pas de moyen fiable de tracer cette ligne. Et le NIH non plus.

Il serait d'ailleurs contre-productif de bannir tout usage des LLM. La rédaction scientifique repose sur une lingua franca, un anglais standardisé, non naturel. En remontant quelques décennies en arrière, nous pouvons constater que les articles étaient plus courts, et que la prose y était plus descriptive et moins argumentative qu'aujourd'hui. Un article ne doit plus seulement rapporter des faits scientifiques, il doit convaincre. Et pour convaincre, il doit respecter des codes. Pour les chercheurs non-anglophones, qui subissent un désavantage dans un système de publication dominé par l'anglais, l'assistance linguistique par LLM représente un véritable levier d'équité face à ces codes. C'est un usage tout à fait légitime des LLM qui ne dégrade en rien la qualité du travail, bien au contraire.

Côté relecture : le problème miroir

Si le recours au LLM de façon inappropriée côté rédaction peut être sujet d'inquiétudes, c'est côté reviewing que le système devient vulnérable.

Les chiffres

Début 2025, l'écologue Timothée Poisot a soumis un manuscrit et reçu une review contenant la phrase : « Here is a revised version of your review with improved clarity and structure ». Un artefact caractéristique d'un reviewer ayant collé directement la sortie d'un LLM sans la relire (Naddaf, 2025a). Cette anecdote, rapportée dans Nature, n'est que la partie visible d'un phénomène qui semble être bien plus large.

Latona et al. (2024) ont analysé les 28 028 reviews soumises à ICLR 2024. En utilisant GPTZero, ils ont estimé qu'au moins 15,8 % étaient assistées par IA. Soit environ 4 400 reviews pour une seule conférence en une seule année.

Pour ICLR 2026, la situation s'est aggravée. Pangram Labs a analysé les 19 490 soumissions et 75 800 reviews. Résultat : environ 21 % des reviews étaient entièrement générées par IA, et plus de la moitié montraient un certain degré d'implication de l'IA (Naddaf, 2025b). Les responsables du programme ICLR ont publiquement reconnu le problème et se sont engagés à le traiter, tout en notant que les outils de détection IA ne peuvent pas, seuls, fonder des décisions éditoriales en raison du risque de faux positifs.

Plus récemment, Shen & Wang (2026) ont entraîné un modèle de détection sur des données historiques de reviews et l'ont appliqué aux reviews d'ICLR et de Nature Communications. Résultats : environ 20 % des reviews ICLR et 12 % des reviews Nature Communications étaient classifiées comme générées par IA en 2025, avec l'augmentation la plus marquée à la fin de l'année 2024.

Un sondage Frontiers auprès d'environ 1 600 universitaires dans 111 pays, rapporté dans Nature, a révélé que plus de 50 % des répondants avaient utilisé des outils d'IA pendant le peer review (Naddaf, 2026). Parallèlement, un autre sondage auprès de plus de 5 000 chercheurs (rapporté par Naddaf, 2026) a montré que seulement 5 % considéraient « approprié » pour un reviewer d'utiliser la sortie d'une IA comme base de sa review sans le déclarer, tandis que 52 % jugeaient un tel usage « inapproprié en toute circonstance ».

Il y a donc un écart non négligeable entre la pratique et les normes déclarées.

Le problème du biais

Les reviews assistées par IA ne sont pas simplement une question de transparence. Elles peuvent introduire un biais. Latona et al. (2024) ont montré que les reviews assistées par IA à ICLR 2024 étaient associées à des scores de recommandation significativement plus élevés que les reviews humaines attribuées au même article.

Ce n'est pas anodin. Si les reviews IA gonflent systématiquement les scores, et si elles sont disproportionnellement attribuées aux articles déjà marginaux, l'effet net sera un abaissement du seuil de qualité pour la publication. Le système de peer review ne se contente pas de laisser passer certains articles : il modifie la distribution de probabilité de ce qui est publié.

La boucle complète : quand l'IA évalue l'IA

En mars 2025, Sakana AI a annoncé qu'un article entièrement généré par son système AI Scientist-v2 avait passé le processus de peer review d'un workshop ICLR 2025 (Lu et al., 2026). Le système a généré de manière autonome des hypothèses, écrit du code, exécuté des expériences, analysé les résultats et produit un manuscrit intitulé « Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization ». L'article a reçu des scores de 6, 7 et 6, le plaçant au-dessus du seuil d'acceptation et dans les 45 % supérieurs des soumissions.

L'expérience a été menée en toute transparence, avec la coopération des organisateurs d'ICLR et une approbation IRB. Sakana a immédiatement retiré l'article après son acceptation. L'ensemble des travaux (AI Scientist v1 et v2) est désormais publié dans Nature (Lu et al., 2026).

Plusieurs réserves s'imposent. L'article a été accepté dans un track workshop, dont les taux d'acceptation sont supérieurs à ceux de la conférence principale. Aucun des articles générés par IA de Sakana n'a passé la barre interne de l'équipe pour une soumission en track principal. Le système IA a commis des erreurs de citation qu'un chercheur humain n'aurait probablement pas faites. Et l'acceptation en workshop n'équivaut pas à une publication à fort impact.

Mais le message est là : un article entièrement généré par IA, évalué dans des conditions standard en double aveugle, a été jugé acceptable par des reviewers humains.

Combinons maintenant ce résultat avec les données ICLR montrant que 21 % des reviews à la même conférence sont elles-mêmes générées par IA. La question inconfortable devient : dans combien de cas une soumission écrite par IA a-t-elle été évaluée par une review générée par IA, sans que ni les auteurs ni les reviewers ne déclarent l'implication d'un modèle de langage ?

Personne ne le sait. Et actuellement, personne ne peut le savoir.

Ce que l'IA ne peut pas évaluer, et pourquoi c'est critique en biologie

Les enjeux de ce débat diffèrent selon les disciplines. En machine learning, où l'essentiel de la recherche sur la détection a été mené, les conséquences d'une review défaillante sont principalement académiques : un article faible entre dans la littérature. En recherche biomédicale, les conséquences peuvent, à terme, devenir cliniques.

Le jugement biologique contextualisé

Le peer review en biologie n'est pas principalement une question de vérification statistique ou de clarté rédactionnelle. Il s'agit de se demander : ce résultat a-t-il un sens biologique ?

Ce type cellulaire peut-il plausiblement exprimer ce gène à ce niveau ? Cette expression différentielle reflète-t-elle la biologie, ou est-ce un artefact de dissociation tissulaire ? La discordance protéine-ARNm rapportée suggère-t-elle une véritable régulation post-transcriptionnelle, ou reflète-t-elle un effet batch entre les données transcriptomique et protéomique ?

Ces questions exigent un background solide : un savoir accumulé au fil d'années de travail expérimental, une familiarité avec le système biologique étudié, et la capacité de reconnaître quand des données « ne collent pas » même quand les tests statistiques passent. C'est précisément pour ce type d'évaluation que les LLM sont les moins adaptés au moment où j'écris ces lignes.

Un LLM peut résumer un article de manière correcte. Il peut vérifier si les tests statistiques standards ont été appliqués. Il peut signaler des références manquantes. Mais il ne peut pas vous dire que la signature de réponse au stress dans votre dataset scRNA-seq de tumeur est plus probablement un artefact de dissociation qu'un véritable phénotype tumoral. Il ne peut pas vous avertir que votre diagramme de Venn "multi-omique" masque une discordance qui invalide votre conclusion. Ce sont des jugements qui dépendent d'une expertise de domaine qu'aucun modèle de langage ne possède actuellement.

Les hallucinations dans les domaines critiques

Les LLM hallucinent. C'est une limitation bien caractérisée, mais ses conséquences varient en fonction du domaine de recherche. Dans un article de machine learning, une citation hallucinée est au pire embarrassante. Dans un article de génomique clinique, une association gène-pathologie hallucinée pourrait se propager dans la littérature et peut finir par influencer des décisions diagnostiques.

Lu et al. (2026) notent qu'AI Scientist-v2 a commis des erreurs de citation, attribuant notamment une méthode au mauvais article. Dans un domaine où la différence entre un variant pathogène et un polymorphisme bénin repose souvent sur une chaîne de preuves bibliographiques, ce type d'erreur pourrait avoir des conséquences lourdes.

Le problème des erreurs corrélées

Le risque le plus sous-estimé de l'évaluation IA-par-IA est peut-être le problème des erreurs corrélées. Les reviewers humains ont des biais divers : formations différentes, habitudes de lecture différentes, angles morts différents. Cette diversité n'est pas un défaut, c'est au contraire un avantage. Que deux reviewers humains indépendants ratent un défaut majeur dans un article est plutôt improbable.

En revanche, la probabilité que deux LLM ratent le même problème pourrait être plus élevée. Notamment parce qu'ils partagent des données d'entraînement, des biais architecturaux et des modes de défaillance similaires. Un article généré par IA qui évite les faiblesses connues des LLM est précisément le type d'article qu'une review générée par IA a le plus de chances de ne pas critiquer. Les erreurs sont corrélées, pas indépendantes. La marge de sécurité que la relecture indépendante est censée fournir s'effondre.

Point clé

La valeur du peer review repose sur l'indépendance et la diversité du jugement expert. L'évaluation IA-par-IA sape les deux : les jugements ne sont ni indépendants (données d'entraînement corrélées) ni experts (pas de connaissance expérientielle spécifique au domaine).

Pourquoi cela se produit : la structure d'incitations

Il serait tentant de présenter le reviewing excessivement assisté par IA comme de la paresse ou de la fraude. Mais ce serait passer à côté de l'essentiel.

Le système de peer review est sujet à critiques depuis des décennies. Les volumes de soumissions aux journaux, aux grandes conférences et aux appels à projets ont augmenté d'année en année. Les délais pour le reviewing sont courts, ils ne sont pas rémunérés, pas reconnus. La charge de travail a augmenté; les mesures incitatives, non.

Serait-il trop rude de dire également que le peer review humain n'avait pas attendu les LLM pour produire des évaluations médiocres ? Des reviews de trois paragraphes sans re-analyses des données, des critiques contradictoires entre reviewers d'un même article, des délais de six mois pour un retour superficiel, tout cela existait bien avant ChatGPT. La crise de reproductibilité malgré le peer-reviewing en est sans doute aussi un symptôme. Ce que l'IA fait, ce n'est pas tant dégrader un système qui fonctionnait bien que s'engouffrer dans les failles d'un système déjà fragilisé.

Quand on demande à un reviewer d'évaluer son cinquième article de la semaine, sans compensation et sans bénéfice direct pour sa carrière, la tentation de soumettre le manuscrit à un LLM et d'éditer le résultat n'est pas surprenante. La même logique s'applique à la rédaction de grants : quand un PI soumet six demandes par cycle et que chacune nécessite 30 pages de prose scientifique convaincante, l'utilisation de LLM est une réponse rationnelle à un système irrationnel.

Le NIH a implicitement reconnu ce problème en plafonnant les demandes à six par PI et par année civile à partir de 2025, une mesure adoptée après avoir constaté que certains investigateurs soumettaient un nombre inhabituellement élevé de demandes, possiblement assistées par IA (NIH, NOT-OD-25-132). Le plafond traite le symptôme. Mais la maladie reste un écosystème de financement qui semble récompenser le volume au détriment de la substance.

À méditer

Avant de condamner le reviewing assisté par IA, demandons-nous si le système qui exige cinq reviews en deux semaines, gratuitement, sans reconnaissance professionnelle, a jamais été conçu pour produire un engagement profond avec la science.

Que faire ?

Avant de parler de solutions, il faut reconnaître ce que l'IA apporte réellement au processus scientifique. L'étude de Liang et al. (2024, NEJM AI) a montré que 57 % des chercheurs interrogés trouvaient les feedbacks générés par GPT-4 utiles, et 82 % les jugeaient plus pertinents que ceux de certains reviewers humains. Un LLM qui identifie des références manquantes, signale une incohérence statistique ou repère une figure mal légendée rend un service utile, à condition que ce soit un point de départ pour le reviewer et non une alternative à son jugement. La question n'est donc pas « faut-il bannir l'IA du processus scientifique ? » : c'est « où tracer la ligne entre assistance et délégation ? »

Il n'y a pas de réponse définitive. Mais il y a des réponses plus ou moins bonnes.

La détection a ses limites

Tout d'abord, pour tracer une ligne, il faudrait une quantification fiable. Des outils de détection de texte IA existent et s'améliorent. Pangram Labs, GPTZero et des classifieurs académiques ont été appliqués à de grands corpus avec des résultats intéressants au niveau populationnel. Mais au niveau d'une review individuelle, la détection reste peu fiable. Les taux de faux positifs ne sont pas nuls, et accuser un reviewer de fraude IA sur la base d'un classifieur probabiliste comporte un risque réputationnel réel.

La détection devrait être utilisée pour surveiller les tendances, pas pour faire appliquer des sanctions individuelles.

Pour cet article, j'ai décidé d'avoir recours à un LLM pour la correction orthographique et syntaxique et pour rendre certaines phrases plus idiomatiques. Étonnamment, ma version éditée par LLM et la version initiale sans LLM ont toutes deux été classées par les détecteurs comme ayant partiellement eu recours à des outils IA. Il y a la question de la fiabilité des détecteurs, nous l'avons dit. Mais il y a peut-être une autre explication. L'écriture scientifique est-elle devenue trop stéréotypée pour être distinguée de celle d'une IA ? Ou avons-nous déjà intégré le style de langage LLM et commencé, sans nous en rendre compte, à l'imiter ? Dans ce cas, la question même de détection perdrait tout son sens.

Repenser le modèle de reviewing

Le problème fondamental n'est pas l'IA : c'est le décalage entre le volume de production scientifique et la capacité de relecture disponible. Les solutions qui s'attaquent directement à ce décalage ont plus de chances de fonctionner que celles qui tentent de réglementer agressivement l'usage de l'IA.

Rémunérer les reviewers, financièrement ou par une reconnaissance formelle dans la carrière. Réduire le volume de soumissions, par des plafonds (comme le NIH l'a fait) ou le pré-screening. Séparer les tâches de vérification des tâches d'évaluation : les vérifications statistiques, les audits de reproductibilité et la vérification des références sont des tâches où l'assistance IA pourrait être légitime et précieuse, à condition qu'elles soient clairement distinguées du jugement évaluatif qui reste humain.

Établir ce que la review IA peut et ne peut pas être

Tous les usages de l'IA en reviewing ne se valent pas. Il existe une différence significative entre utiliser un LLM pour vérifier si un article cite les travaux antérieurs pertinents (potentiellement utile), l'utiliser pour vérifier des affirmations statistiques par rapport aux données rapportées (potentiellement utile, avec des limites), l'utiliser pour générer une critique évaluative complète d'un manuscrit (problématique), et soumettre une review générée par LLM comme son propre jugement d'expert (inacceptable).

Le domaine a besoin d'un guideline des usages légitimes et illégitimes, développé par consensus de la communauté plutôt que par des décisions contraignantes impossibles à appliquer.

La question sensible : faut-il adapter sa rédaction à ce nouveau paradigme ?

Les chercheurs ont toujours adapté leur manière de présenter leurs résultats aux évolutions des politiques éditoriales et aux exigences des reviewers. C'est une compétence à part entière qui a toujours fait partie du métier. La question qui se pose maintenant est de savoir si la forme d'un manuscrit doit tenir compte du fait qu'une partie de l'évaluation sera vraisemblablement réalisée par un LLM.

C'est une question que notre cabinet aborde désormais systématiquement lors de nos accompagnements à la rédaction d'articles ou de grants. Nous essayons de sensibiliser les auteurs aux nouvelles opportunités d'ingéniérie LLM pour adapter l'écriture aux futurs modes d'évaluation.

Concrètement, cela pourrait signifier : structurer les hypothèses de manière explicitement numérotée pour faciliter la vérification automatique. Isoler les limites dans une section dédiée plutôt que de les diluer dans la discussion. En effet, un LLM repérera plus difficilement une limitation noyée dans un paragraphe argumentatif qu'un reviewer humain familier du domaine. S'assurer que les affirmations statistiques sont formulées de manière vérifiable ligne par ligne, car c'est exactement le type de tâche sur laquelle un LLM-reviewer serait le plus performant. Rendre la chaîne logique entre données, résultats et conclusions la plus explicite possible, car un LLM ne « lit pas entre les lignes ».

Conclusion

Le parallèle avec les sujets couverts dans nos précédents articles est direct. Dans la correction des effets batch, le danger n'est pas tant que l'algorithme échoue, c'est qu'il réussisse, en produisant un UMAP propre qui masque un confounded design. Dans l'intégration multi-omique, le danger n'est pas que le diagramme de Venn soit faux, c'est qu'il crée une illusion d'intégration là où aucune n'a eu lieu.

La même logique s'applique ici. Le danger de l'IA dans la publication scientifique n'est pas qu'elle produise des articles manifestement mauvais ou des reviews manifestement défaillantes. C'est qu'elle produise des articles plausibles et des reviews plausibles, fluides, bien structurées, bien formatées, mais entièrement superficielles. Le résultat ressemblera à de la science. Il passera les filtres conçus pour arrêter la mauvaise science. Et il entrera dans la littérature comme si un expert humain l'avait évalué.

Les articles biomédicaux montrent déjà des traces de traitement par LLM et un article entièrement généré par IA a passé le peer review.

Rien de tout cela ne signifie que l'IA n'a pas sa place dans la publication scientifique. Utilisée de manière transparente, pour des tâches qu'elle peut effectivement accomplir (recherche bibliographique, vérification statistique, édition linguistique), elle pourrait réellement améliorer le processus. Mais cela exige de bien connaître ce que l'IA peut et ne peut pas faire. Le danger serait d'aller vers une délégation massive du travail cognitif habituellement réalisé par des experts humains.

La publication scientifique est, fondamentalement, un système de confiance. Les auteurs font confiance aux reviewers pour s'engager sérieusement dans leur travail. Les reviewers font confiance aux auteurs pour avoir réellement fait le travail qu'ils décrivent. Les lecteurs font confiance au processus pour avoir contrôlé la qualité du travail. Quand les deux côtés de cet échange sont entièrement automatisés, le système scientifique est vidé de sa substance.

La question pour l'avenir n'est pas de savoir si l'IA fera partie de la publication scientifique. Elle en fait déjà partie. La question est de savoir si la communauté construira d'elle-même un cadre pour l'utiliser raisonnablement, ou si nous glisserons vers un système où les machines parlent aux machines, et où tout le monde fait semblant qu'un humain écoutait.

À retenir

L'IA entre dans la publication scientifique y compris côté reviewing. Le risque n'est pas qu'elle échoue de manière visible, mais qu'elle réussisse de manière superficielle : en produisant un texte plausible qui passe une review plausible, sans qu'aucun humain ne s'engage profondément avec la science. Une review propre, comme un UMAP propre, n'est pas une garantie. Parfois, c'est exactement le problème.

Références

Kobak D, González-Márquez R, Horvát E-Á, Lause J. Delving into LLM-assisted writing in biomedical publications through excess vocabulary. Science Advances 11, eadt3813 (2025). https://doi.org/10.1126/sciadv.adt3813
Liang W et al. Quantifying large language model usage in scientific papers. Nature Human Behaviour (2025). https://doi.org/10.1038/s41562-025-02273-8
Liang W et al. Can Large Language Models Provide Useful Feedback on Research Papers? A Large-Scale Empirical Analysis. NEJM AI 1(8) (2024). https://doi.org/10.1056/AIoa2400196
Latona GR, Ribeiro MH, Davidson TR, Veselovsky V, West R. The AI Review Lottery: Widespread AI-Assisted Peer Reviews Boost Paper Scores and Acceptance Rates. arXiv:2405.02150 (2024).
Liang W et al. Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews. Proceedings of the 41st International Conference on Machine Learning (ICML) (2024). arXiv:2403.07183
Naddaf M. AI is transforming peer review — and many scientists are worried. Nature 639, 852–854 (2025a). https://doi.org/10.1038/d41586-025-00894-7
Naddaf M. Major AI conference flooded with peer reviews written fully by AI. Nature 648, 256–257 (2025b). https://doi.org/10.1038/d41586-025-03506-6
Naddaf M. More than half of researchers now use AI for peer review — often against guidance. Nature 649, 273–274 (2026). https://doi.org/10.1038/d41586-025-04066-5
Shen S, Wang K. Detecting AI-Generated Content in Academic Peer Reviews. arXiv:2602.00319 (2026).
Lu C, Lu C, Lange RT et al. Towards end-to-end automation of AI research. Nature 651, 914–919 (2026). https://doi.org/10.1038/s41586-026-10265-5
NIH. The Use of Generative Artificial Intelligence Technologies is Prohibited for the NIH Peer Review Process. NOT-OD-23-149 (2023). https://grants.nih.gov/grants/guide/notice-files/NOT-OD-23-149.html
NIH. Supporting Fairness and Originality in NIH Research Applications. NOT-OD-25-132 (2025). https://grants.nih.gov/grants/guide/notice-files/NOT-OD-25-132.html