Artificiële intelligentie en ecg: een kritisch overzicht

Modellen van artificiële intelligentie kunnen niet alleen gebruikt worden om een ecg te interpreteren, maar ook om te screenen en verschillende hartziektes te voorspellen. Met die modellen kunnen de gegevens immers zeer grondig geanalyseerd worden.

Inleiding

Door artificiële intelligentie (AI) staat het ecg weer hoog op de agenda. Er zijn tal van applicaties van AI in ontwikkeling en bij de interpretatie van eenvoudige ecg's geven sommige modellen even goede resultaten als een analyse door cardiologen. AI is dé methode geworden die voor alle taken ingezet kan worden: verwerking van de beelden van RX, CT-scan en MRI, analyse van medische dossiers en connectie tussen medische gegevensbanken, gezondheidszorginstellingen en verzekeringsmaatschappijen. Dit artikel gaat enkel over het nut van AI bij een ecg, hét basisonderzoek in de cardiologie. De analysemogelijkheden zijn veel beter geworden dan wat mogelijk was met de analoge toestellen van de jaren zestig. Ter herinnering: men heeft niet gewacht op AI voor automatische analyse van het ecg. Dat proces is in de jaren vijftig begonnen bij de transformatie van analoge ecg-toestellen in digitale. Mac Farlane heeft een uitstekend overzicht geschreven van het begin van digitale elektrocardiografie.¹ De performantie van de eerste programma's bij het diagnosticeren van een acuut myocardinfarct lag tussen 0 en 42 %, het aantal fout-positieve en fout-negatieve uitkomsten op respectievelijk 22 % en 30 %.² Met een recent netwerk van 34 lagen van neuronen, dat ontwikkeld is voor het diagnosticeren van een acute coronaire occlusie in de coronariografiezaal, worden geen betere resultaten behaald.³ Het oog van een expert blijft dus noodzakelijk. AI wordt echter uiterst performant bij het diagnosticeren van ritmestoornissen, een STEMI en hartfalen.

Automatisch leren, machine learning (ML), is een subdomein van AI waarbij het model niet expliciet wordt geprogrammeerd om een reeks instructies te volgen teneinde een gegeven taak op te lossen. Het model gaat zelf leren wat het moet doen, door zijn eigen geheel aan regels te verwerven op grond van zijn ervaringen (figuur 1). De term 'leren' is echter wat bedrieglijk, want die machines leren niet zoals de mens. In veel gevallen is automatisch leren een toepassing van statistieken. Er bestaan tal van relaties tussen de statistische algoritmes en ML, zoals discriminantanalyse, logistische regressie en andere lineaire modellen. De vorming van een statistisch model veronderstelt het bestaan van een probabilistisch model dat de gegevens genereert (de cultuur van modelvormig van de gegevens). AI brengt de input en de output met elkaar in overeenstemming via een model (cultuur van algoritmische modelvorming).⁴ De eerste benadering begint met een vraag en/ of gegevens, de tweede is gericht op de taken (tabel 1). ML stelt een geheel van algoritmes voor waarin een aantal gegevens ingevoerd kan worden (input) en die dan een resultaat produceren (output).

Er bestaan tal van technieken om een ecg te registreren en soms is het moeilijk om eraan uit te kunnen. Men kan technieken van ML gebruiken uitgaande van de tracés van 12-afleidingen-ecg's van 10 seconden die in de routine gebruikt worden, tot lange ecg's met 1 afleiding via lusrecorders (implantable loop recorders, ILR). De input in de modellen kan zeer uiteenlopend zijn, van een volledig ecg-signaal met een samplingfrequentie van 1000 Hz tot RR-intervallen met een samplingfrequentie van 200 Hz of nog minder. Men kan proberen een interpretatie, voorspelling, diagnose van ischemie of een ritmestoornis als output te verkrijgen. Men kan herhaaldelijk een ecg afnemen (bv. 2x/d gedurende 30 seconden) of 'op verzoek' (gedurende lange perioden). Anderzijds kunnen nog andere technieken gebruikt worden om cardiale verschijnselen te registreren: fotoplethysmografie (PPG) en ballistografie, wat dan weer aansluit bij technieken van weleer zoals mechanocardiografie. Het is dus belangrijk het kader en de methode van de resultaten van de studies die in de literatuur gepubliceerd zijn goed te beschrijven om AI geen kwaliteiten toe te kennen die ze niet heeft.

De betekenis van de term 'voorspelling' verschilt naargelang van het werkdomein en vaak is er dan ook verwarring. Bij ML wordt de term gebruikt om de gegevens die uit het model komen te rapporteren, maar opgelet: voorspellen is niet synoniem met voorzien. Volgens het woordenboek is een voorspelling iets waarvan de waarschijnlijkheid dat het zich zal voordoen laag is. In de tijd van de Romeinen had voorspellen te maken met waarzeggerij. Ook moet er een onderscheid gemaakt worden tussen voorzien en preventie. Preventie betekent risicofactoren bepalen en corrigeren.

AI: technieken

Machine learning en deep learning

Voor deep learning (DL) zijn geen gestructureerde gegevens nodig. DL leent zich bijzonder goed voor complexe taken als niet alle aspecten van de te behandelen onderwerpen stroomopwaarts geklasseerd of gecategoriseerd kunnen worden. Het netwerk identificeert zelf de discriminerende kenmerken.

Machine learning (ML) werkt uitgaande van een controleerbare hoeveelheid gegevens, terwijl DL een veel groter volume gegevens nodig heeft (over het algemeen honderdduizenden elementen) om zijn parameters te optimaliseren.

Modellen van deep learning

Recurrente neurale netwerken

Recurrente neurale netwerken (RNN) werden ontwikkeld om ervoor te zorgen dat het model efficiënter sequenties van gegevens kan verwerken waarbij de volgorde van de input belangrijk is. Een RNN verwerkt de sequentie van input met één element per keer en gebruikt de retour van informatie van de vorige elementen bij het berekenen van de volgende elementen van de sequentie. Een RNN leent zich dus perfect om sequentiële gegevens zoals een ecg te verwerken Het long short-term memory (LSTM) is een verbeterde versie van een conventioneel RNN.

Convolutionele neurale netwerken

Een convolutioneel neuraal netwerk (CNN) kan eenvoudige modellen in de gegevens identificeren. Hoe groter het aantal lagen, des te complexer de modellen kunnen zijn. Een CNN kan toegepast worden op sequenties van eendimensionale (bv. een ecg), tweedimensionale (bv. beelden) en zelfs driedimensionale gegevens (bv. video).

Toepassingen van AI op ecg

12-afleidingen-ecg

Chang et al. hebben een LSTM-model ontwikkeld dat zowel een STEMI als 12 hartritmes kan identificeren. Ze zijn daarvoor uitgegaan van 60 537 12-afleidingen- ecg's afgenomen bij 35 981 patiënten. De AUC van hun model is 0,987 en is dus hoger dan die van cardiologen (0,898), spoedgevallenartsen (0,820), internisten (0,765) en een commercieel algoritme (0,845). Ze denken dat hun algoritme gebruikt kan worden om het triageproces van patiënten met acute pijn in de borstkas te optimaliseren zodat de reperfusietherapie bij patiënten met een STEMI sneller kan gestart worden.⁵

Eenvoudige ecg's beter kunnen interpreteren dan cardiologen is zeker interessant, maar het is nog interessanter als AI de arts de mogelijkheid biedt te zien wat hijzelf niet kan zien.

In dat kader kan een ecg gebruikt worden als een biometrische sensor, te vergelijken met een oogfundus of een vingerafdruk. Iedereen heeft immers een specifiek ecg.⁶ Daarom zou het best kunnen dat een ecg gebruikt kan worden om de vatbaarheid voor bepaalde hart- en vaataandoeningen te voorspellen, net zoals genomica, in het kader van een precisiegeneeskunde.

Attia et al. hebben een DNN (deep neural network) ontwikkeld dat het geslacht en de leeftijd op 7 jaar na kan bepalen.⁷ Als het ecg een verschil van meer dan 7 jaar toont tussen de leeftijd geraamd met het DNN en de reële leeftijd, zou die patiënt een hoger overlijdensrisico lopen en dat zou vermeden kunnen worden door correctie van risicofactoren of een preventieve behandeling. Datzelfde team van de Mayo Clinic heeft vervolgens een DNN gebruikt om standaard 12-afleidingen-ecg's van 25 144 30-plussers te analyseren. Het DNN kon de leeftijd van de patiënten voorspellen en het verschil tussen het ecg en de chronologische leeftijd was een onafhankelijke voorspeller van de cardiovasculaire sterfte en de totale sterfte ongeacht de doodsoorzaak.⁸ Dat idee is overigens niet nieuw. Onder meer Simonson heeft uitgaande van manuele registraties van het ecg de effecten van de leeftijd, het geslacht en de etniciteit op het ecg gedocumenteerd.⁹ In 1994 heeft Mac Farlane die resultaten bevestigd met digitale ecg's.¹⁰ Onlangs nog heeft Hnatkova het effect van het geslacht en de etniciteit op de duur van het QRS-complex aangetoond.¹¹

Een ecg kan zelfs gebruikt worden om hartfalen op te sporen. Attia et al. van de Mayo Clinic hebben gematchte gegevens van een 12-afleidingen-ecg en echocardiografie van 44 959 patiënten gebruikt. Ze hebben hun CNN enkel getraind met het ecg om patiënten te identificeren met een ventrikeldisfunctie gedefinieerd als een linkerventrikelejectiefractie (LVEF) lager dan 35 %. In een onafhankelijke groep van 52 870 patiënten bedroegen de AUC, de sensitiviteit, de specificiteit en de precisie van het model respectievelijk 0,93 %, 86,3 %, 85,7 % en 85,7 %. De patiënten zonder ventrikeldisfunctie die door het CNN opgepikt werden, liepen viermaal meer kans om later een ventrikeldisfunctie te ontwikkelen dan de patiënten bij wie de screening negatief was.¹² Joon-myoung Kwon et al. hebben een model van DL ontwikkeld dat hartfalen met een gevrijwaarde LVEF kan detecteren met een 12-afleidingen-ecg.¹³ Dat wijst erop dat hartfalen met een gevrijwaarde systolische functie ook opgespoord kan worden met een gewoon ecg.

Het is bijna een gewoonte voor uitgevers en reviewers geworden om klakkeloos te aanvaarden dat algoritmes de cardiologen overtreffen en de gerapporteerde resultaten te publiceren zonder de modellen ervan te testen en zelfs zonder de gebruikte code te bekijken. Dat enthousiasme moet zeker gerelativeerd worden: algoritmes zijn performanter dan gediplomeerde cardiologen (niet de experts) en bij de interpretatie van niet-complexe routine-ecg's. In feite zijn diagnostische technieken van AI vooral interessant om de cardiologen te ontlasten van 'secundaire' taken, zoals de interpretatie van een ecg, zodat ze zich kunnen bezighouden met veel complexere en meer bevredigende taken in de katheterisatiezaal of het labo voor elektrofysiologie. Wat de interpretatie van het ecg betreft, is AI al zeer performant bij het interpreteren van eenvoudige ecg's, maar nog niet bij het diagnosticeren van complexere ritmestoornissen. De ritmes die men door de machine laat diagnosticeren zijn vrij eenvoudig. De komende jaren mogen we allicht veel vooruitgang ter zake verwachten.

Ecg met één of twee afleidingen

Acharya et al.¹⁴ hebben een CNN ontworpen om een bruto ecg in te delen in vier verschillende klassen: normaal sinusritme, atriumfibrillatie, atriumflutter en ventrikelfibrillatie. De sensitiviteit bij de interpretatie van ecg-tracés van 5 seconden was 99,13 % en de specificiteit 81,44 %.

Het feit dat AI ingezet kan worden om AF op te sporen, heeft geleid tot het gebruik van AI in wearables. In de Apple Watch-studie uitgevoerd met de Apple 3-polshorloge werden 419 297 proefpersonen gerekruteerd. Als een algoritme voor detectie van een onregelmatige polsslag met de smartwatch wees op een mogelijke AF, werd een teleconsultatie op touw gezet en werd een ecg-pleister via de post verstuurd. De persoon in kwestie moest de pleister dan gedurende max. 7 dagen dragen. De belangrijkste doelstellingen waren raming van het percentage van de aangemelde proefpersonen waarbij een AF vastgesteld werd met de ecg-pleister en raming van de positieve predictieve waarde van onregelmatige polsslagintervallen met een betrouwbaarheidsinterval van 10 %. Slechts 20,8 % van de proefpersonen die een melding hadden gekregen van onregelmatige polsslag heeft de ecg-pleisters teruggestuurd voor analyse. Bij 34 % van die proefpersonen werd bij de latere lezingen een AF gediagnosticeerd en strookte 84 % van de meldingen met een AF. De positieve predictieve waarde van het detectiealgoritme bedroeg 71 %. Die studie leert dus dat grootschalige screening met een geconnecteerd polshorloge haalbaar is, maar ook en vooral dat de diagnostische rentabiliteit van die screening in een populatie met een lage prevalentie van AF (0,5 % van de deelnemers heeft een melding van onregelmatige polsslag gekregen) laag is. Bovendien was het percentage proefpersonen dat tot het einde aan de studie heeft deelgenomen laag.¹⁵ Momenteel kan de Apple Watch 4 direct een ecg met 1 afleiding registreren dat naar de smartphone gestuurd wordt voor interpretatie door een ML-algoritme en daarna eventueel naar een arts voor validering. Nagenoeg alle firma's (Samsung, Huawei, Garmin en Polar) ontwikkelen hun eigen ML-algoritmes. Die algoritmes zijn uiteraard allemaal gepatenteerd en worden over het algemeen geheim gehouden. Dat kan afbreuk doen aan de transparantie van de gegevens en de resultaten.

Giudicessi et al. hebben onlangs aangetoond dat een DNN een klinisch significante verlenging van het gecorrigeerde QT-interval (QTc > 500 ms) kan herkennen op het tracé van een mobiel ecg-toestel. De resultaten waren vergelijkbaar met die bij meting van het QTc op een 12-afleidingen-ecg zowel door een cardioloog met expertise in QT, als door een centraal commercieel laboratorium.¹⁶ Ze concluderen dat hun DNN uitgaande van een 2-afleidingen-ecg afgenomen met een smartphone het QTc even goed meet als een standaard 12-afleidingen-ecg. We zouden natuurlijk graag hebben dat hun DNN zou voorspellen welke patiënten een Torsade de Pointes zullen ontwikkelen, maar het is toch al niet slecht.

Langdurige registratie met een ecg-pleister

Hannun et al.17 hebben een DNN ontwikkeld om 12 verschillende ritmestoornissen te identificeren. Ze zijn daarvoor uitgegaan van 91 232 ecg-tracés met 1 afleiding gemaakt met de Zio Patch-monitor bij 53 549 patiënten. Ze hebben een CNN met 34 lagen neuronen gebruikt met als input een bruto ecg-signaal van 30 seconden met een samplingfrequentie van 200 Hz. Het netwerk produceert per seconde een sequentie van diagnostische voorspellingen. Ze hebben hun model gevalideerd op 328 ecg's gelezen door ervaren cardiologen, maar hebben veiligheidshalve de performantie van hun DNN toch maar vergeleken met de interpretatie van 'gediplomeerde' cardiologen. De AUC van hun DNN was 0,97. Bij een specificiteit gelijk aan de gemiddelde specificiteit die door cardiologen verkregen wordt, was de sensitiviteit van het DNN bij het diagnosticeren van de 12 ritmestoornissen hoger dan de gemiddelde sensitiviteit van de cardiologen.

Periodieke lusregistratie van het ecg met ILR

De kans op detectie van ritmestoornissen is hoger als de observatie langer duurt. Met die toestellen ter grootte van een usb-stick, die onderhuids ingeplant worden, kan het ecg in lus geregistreerd worden en worden de gedetecteerde episoden van aritmie in het geheugen opgeslagen. Ze worden geprogrammeerd zodat de detectiedrempel en de duur van registratie aan de patiënt aangepast kunnen worden. Het toezicht duurt meerdere jaren. ILR zijn aanvankelijk ontwikkeld voor registratie van geleidingsstoornissen die syncopes veroorzaken, maar dankzij algoritmes voor detectie van AF is hun diagnostische capaciteit toegenomen (tabel 2). De gebruikte algoritmes zijn vrij eenvoudig, omdat bij de implementering rekening gehouden moet worden met een beperkte geheugencapaciteit.

De belangrijkste parameter bij de detectie en de bewaking van AF is de sensitiviteit van het medische hulpmiddel. Onderdetectie kan immers uitmonden in onderdiagnostiek, waardoor de patiënt risico loopt op klinische accidenten als gevolg van de AF en meer bepaald een syncope of cerebrovasculair accident. De parameters die in alle studies het meest onderzocht zijn, zijn dan ook de sensitiviteit en de positieve predictieve waarde (PPW).

Registraties die niet direct op een ecg gebaseerd zijn

Door middel van fotoplethysmografie (PPG) kunnen ritmestoornissen gedetecteerd worden. De meeste toestelletjes die bestemd zijn voor het grote publiek (smartwatches en andere smartphones) bevatten al het daarvoor vereiste materiaal via apps. De sensoren van de meeste van die wearables zijn gebaseerd op de technologie die oxymeters gebruiken om het hartritme te meten via monitoring van de veranderingen van het lichtspectrum dat door de huid weerkaatst wordt, als gevolg van de capillaire pols. Dat pulsatiele signaal wordt geïnterpreteerd als equivalent aan de R-top op een ecg. Een algoritme dat hoofdzakelijk gebaseerd is op de onregelmatigheid van het signaal, stelt een diagnose van AF. De performantie van de algoritmes die die PPG-signalen interpreteren, blijkt concordant te zijn met de R-golven op het ecg.^24,25 Een smartphone kan ook gebruikt worden om de kinetische energie te meten die de puntstoot van het linkerventrikel doorgeeft aan de thoraxwand, en daar kan informatie over de functie van het myocard uit gehaald worden (digitale reproductie van het oude apexogram).²⁶

De big data van geconnecteerde geneeskunde

DL kan maar optimaal werken dankzij twee belangrijke factoren: een hogere rekensnelheid en de beschikbare hoeveelheid gegevens. Vandaar het nut van geconnecteerde toestellen in de cardiologie. Het aantal gebruikers van een smartphone blijft maar stijgen. In 2021 waren het er wereldwijd 6,4 miljard, dus een stijging met 5,3 % per jaar.²⁷ Smartphones kunnen gegevens direct verzamelen via veranderingen van de huidskleur die door de camera gedetecteerd worden of

kunnen de informatie ontvangen die door wearables verstuurd wordt. Het aantal geconnecteerde wearables is wereldwijd meer dan verdubbeld in drie jaar tijd, van 325 miljoen in 2016 tot 722 miljoen in 2019. Naar schatting zal het aantal geconnecteerde toestellen in 2022 stijgen tot meer dan een miljard.²⁸

Mobiele gezondheid (mHealth) is een onderdeel van de digitale gezondheid, door de WGO gedefinieerd als een medische praktijk en tool voor volksgezondheid gedragen door mobiele medische hulpmiddelen zoals een mobiele telefoon, hulpmiddelen om patiënten te volgen, persoonlijke digitale assistenten en andere draadloze toestelletjes.

Onlangs is een consensus uitgewerkt over de verschillende aspecten ervan in de cardiologie.²⁹ Ook een werkgroep van de ESC heeft zich onlangs uitgesproken over e-cardiologie.³⁰

De meeste wearables kunnen nu een ecg met 1 afleiding registreren. De performantie van een ecg met 1 of 2 afleidingen is vergeleken met die van een 12-afleidingen-ecg. De Physio Net Challenge 2021³¹ beoogt klinische diagnosen te stellen op grond van ecg's met 12 afleidingen, zes perifere afleidingen, drie afleidingen (I, II en V2) en twee afleidingen (II en V5). Met het recente 'Kardia Mobile 6L'-toestel kan een ecg met 6 perifere afleidingen van 30 seconden gemaakt worden. Het toestel kan een AF detecteren en het QT-interval meten. Recentelijk is de impact van die technologieën op het nemen van een klinische beslissing geëvalueerd om de integratie van de gegevens geleverd door die medische hulpmiddelen te definiëren.³²

Voorspellende studies

Meerdere studies hebben het ecg-signaal in sinusritme geanalyseerd om na te gaan of een netwerk de patiënten zou kunnen herkennen die later een ritmestoornis zouden ontwikkelen. AI zou dan uitzicht bieden op een preventieve geneeskunde op maat, wat nog een stap verder is dan een preventieve geneeskunde gebaseerd op risicofactoren. De vraag is dan nog wanneer precies die ritmestoornis gaat optreden (figuur 2).

Galloway et al. hebben aangetoond dat een diep neuraal netwerk een AF-signatuur kan herkennen op een ecg van 20 seconden met een normaal sinusritme en dat met een toestel dat compatibel is met een smartphone. Ze hebben de patiënten met een AF ingedeeld in twee groepen naargelang ze meer of minder dan 30 % AF hadden. Hun DL-model kon op ecg's in een normaal sinusritme geregistreerd voor de AF voorspellen of het ecg afkomstig was van een patiënt zonder AF of een patiënt met 30 % of meer AF. Met een referentiepunt met een gelijke sensitiviteit en specificiteit bedroegen de sensitiviteit en de specificiteit van het model 73,1 %.³³

Attia et al. hebben een CNN gebruikt om een AF-signatuur op te sporen bij patiënten met een paroxismale AF in een normaal sinusritme door middel van standaard 12-afleidingen-ecg's van 10 seconden. Bij de patiënten met een paroxismale AF was het CNN nuttig vanaf 31 dagen voor het eerste geregistreerde ecg met een AF. Hun model identificeert een AF met een AUC van 0,87, een sensitiviteit van 79,0 %, een specificiteit van 79,5 %, een F1-score van 39,2 % en een algemene precisie van 79,4 %.³⁴

In een retrospectieve, multicentrische studie bij 12 955 patiënten hebben Yong-Yeo Jo et al. een DL-model ontwikkeld om patiënten te identificeren die een episode van supraventriculaire tachycardie zullen ontwikkelen, terwijl ze nog in sinusritme zijn.³⁵ Ze hebben hun model ontwikkeld uitgaande van 31 147 ecg's. De AUC bedroeg 0,966. De precisie, de sensitiviteit, de specificiteit, de positieve voorspellende waarde en de negatieve voorspellende waarde bedroegen respectievelijk 0,970, 0,868, 0,972, 0,255 en 0,998. De belangrijkste voorspellende elementen waren het QT-interval en het al dan niet bestaan van een deltagolf.

Problemen met interpreteerbaarheid en reproduceerbaarheid

Als een arts AI wil beschouwen als een techniek die zekerheid biedt, en niet als techniek van magische waarzeggerij, moeten we toch de beperkingen ervan benadrukken en de methodes preciseren.

De verklaarbaarheid van DL-modellen blijft een brandend actueel onderwerp en er wordt intens veel onderzoek verricht naar de extractie van de kenmerken die door die modellen gebruikt worden. Modellen opstellen die op de eerste plaats geïnterpreteerd kunnen worden, in plaats van te proberen ze achteraf uit te leggen, is misschien een valabeler alternatief.³⁶ Interpreteerbaarheid en verklaarbaarheid zijn complementaire, maar verschillende concepten. Een voorbeeld: we hebben 2 verschillende ML-algoritmes gebruikt om na te gaan vanaf welke duur het optreden van een aanval van AF voorspeld kan worden. We hebben met eenzelfde input van ecg-gegevens enerzijds een DNN geprogrammeerd dat enkel gebaseerd was op de opeenvolging van alle RR-intervallen en anderzijds een RF-algoritme gebaseerd op 9 parameters van variabiliteit van het hartritme. Er was geen verschil in performantie tussen de 2 algoritmes. Dat wijst erop dat de 'zwarte doos' van het DNN de parameters van variabiliteit gebruikt om een voorspelling te doen³⁷ (figuur 3). Het is belangrijk de inputgegevens te kennen. Zo hebben we een correlatie kunnen leggen met de pathofysiologie, waardoor het DL-algoritme interpreteerbaar wordt. Zodoende hebben we kunnen bevestigen dat het autonome zenuwstelsel een bepalende rol speelt tijdens de laatste minuten voor een episode van AF.

We mogen de zwarte doos van AI echter niet verwerpen omdat we zogezegd geen voldoende gedetailleerde verklaring hebben voor de werking ervan. Kennis van de fysiologische rol van alle parameters is niet noodzakelijk om een individuele klinische app te ontwikkelen die werkt. Het is niet omdat je de werking van de onderdelen van de motor van een auto niet kent, dat je niet goed kunt rijden.

Een gedetailleerde beschrijving van de methode is echter van cruciaal belang, ook omdat de methoden die in dat domein gebruikt worden uiterst complex kunnen zijn. Olorisade et al. zeggen dat ze de resultaten die gepubliceerd zijn in 33 studies van ML die zij grondig onderzocht hebben, moeilijk of niet onafhankelijk hebben kunnen reproduceren. Erger nog, bij gebrek aan informatie over de gebruikte gegevensbanken bedroeg de reproduceerbaarheid maar ongeveer 80 % en werd de informatie over de algoritmes van automatisch leren in 27 % van de gevallen als onvoldoende beoordeeld.³⁸ Het probleem is zo groot dat sommige evolueren naar een echte 'reproduceerbaarheidscrisis'.³⁹

Slechts een minderheid van de publicaties heeft de reproduceerbaarheid en de veralgemening van ML-methoden in de cardiologie onderzocht en er zijn zeer weinig prospectieve klinische studies uitgevoerd. Er moet dringend beter gecommuniceerd worden over de evaluatie en de transparantie van de gebruikte methoden en gegevens.⁴⁰

Conclusies

AI moet haar weg nog zoeken in de cardiologie en vooral bij gebruik ervan uitgaande van een ecg. Ze staat nog maar in de kinderschoenen zowel qua interpretatie als qua cardiovasculaire preventie en voorspellen van ritmestoornissen.

Dankzij de grotere mogelijkheden van e-gezondheid kunnen we zeer grote hoeveelheden gegevens verkrijgen, die optimaal verwerkt kunnen worden door DL-netwerken. Dat wordt al gedaan bij het automatisch diagnosticeren van een AF in het kader van geconnecteerde geneeskunde met behulp van een ecg met 1 of 2 afleidingen.

Een 12-afleidingen-ecg van 10 seconden zou in een nabije toekomst gebruikt kunnen worden als signatuur (net zoals een vingerafdruk) om een patiënt te identificeren en om te voorspellen of hij een AF, supraventriculaire tachycardie of hartfalen met gevrijwaarde of gedaalde LVEF dreigt te ontwikkelen.

Al die strategieën moeten hun plaats nog vinden. We zouden elk algoritme onafhankelijk moeten kunnen valideren en het klinische nut ervan moeten bewijzen voor het in de routine goedgekeurd wordt.

DL heeft zeer grote gegevensbanken nodig om de performantie van eenvoudigere ML-algoritmes te overtreffen. Die laatste kunnen geïnterpreteerd worden dankzij controle van de ingevoerde gegevens. Er wordt veel onderzoek verricht naar de verklaarbaarheid van de zwarte dozen van DL. Als we willen dat AI door iedereen aanvaard zal worden, moet de opzet van de verschillende studies reproduceerbaar zijn en moeten de gebruikte gegevensbanken toegankelijk zijn.

De mens moet de concurrentie aangaan met de machine om de resultaten te valideren, maar AI is volgens ons vooral nuttig in het kader van samenwerking om informatie te verwerven die we onmogelijk op een andere manier kunnen verkrijgen, informatie die het oog van een ervaren cardioloog niet kan zien, net zoals belangrijke aanwinsten geboekt zijn en nog altijd geboekt worden met de microscoop.

Referenties

Macallan, P. A brief history of computerassisted electrocardiography. Methods Inf Med, 1990, 29 (04), 272-281.
Smulyan, H. The computerized ecg: friend and foe. Am J Med, 2019, 132 (2), 153-160.
Brisk, R., Bond, R., Finlay, D., McLaughlin, J., Piadlo, A., Leslie, S.J. et al. The effect of confounding data features on a deep learning algorithm to predict complete coronary occlusion in a retrospective observational setting. Eur Heart J - Digital Health, 2021, 2 (1), 127-134.
Breiman, L. Statistical modeling: the two cultures (with comments and a rejoinder by the author). Statist Sci, 2001, 16 (3), 199-231.
Chang, K-C., Hsieh, P-H., Wu, M-Y., Wang, Y-C., Wei, J-T., Shih, E.S. et al. Usefulness of multi-labelling artificial intelligence in detecting rhythm disorders and acute st-elevation myocardial infarction on 12-lead electrocardiogram. Eur Heart J - Digital Health, 2021, 2 (2), 299-310.
Lourenço, A., Silva, H., Fred, A. Unveiling the biometric potential of finger-based ecg signals. Comput Intell Neurosci, 2011, (720971), 1-8.
Attia, Z.I., Friedman, P.A., Noseworthy, P.A., Lopez-Jimenez, F., Ladewig, D.J., Satam, G. et al. Age and sex estimation using artificial intelligence from standard 12-lead ecgs. Circ Arrhythm Electrophysiol, 2019, 12 (9), e007284.
Ladejobi, A.O., Medina-Inojosa, J.R., Shelly Cohen, M., Attia, Z.I., Scott, C.G., LeBrasseur, N.K. et al. The 12-lead electrocardiogram as a biomarker of biological age. Eur Heart J - Digital Health, 2021, doi:10.1093/ehjdh/ ztab043.
Simonson, E. Differentiation between normal and abnormal in electrocardiography. Acad Med, 1962, 37 (2), 161.
Macfarlane, P., McLaughlin, S., Devine, B., Yang T. Effects of age, sex, and race on ecg interval measurements. J Electrocardiol, 1994, 27, 14-19.
Hnatkova, K., Smetana, P., Toman, O., Schmidt, G., Malik, M. Sex and race differences in QRS duration. Ep Europace, 2016, 18 (12), 1842-1849.
Attia, Z.I., Kapa, S., Lopez-Jimenez, F., McKie, P.M., Ladewig, D.J., Satam, G. et al. Screening for cardiac contractile dysfunction using an artificial intelligence-enabled electrocardiogram. Nat Med, 2019, 25 (1), 70-74.
Kwon, J-M., Kim, K-H., Eisen, H.J., Cho, Y., Jeon, K-H., Lee, S.Y. et al. Oh, Artificial intelligence assessment for early detection of heart failure with preserved ejection fraction based on electrocardiographic features. Eur Heart J - Digital Health, 2021, 2 (1), 106-116.
Acharya, U.R., Fujita, H., Lih, O.S., Hagiwara, Y., Tan, J.H., Adam, M. Automated detection of arrhythmias using different intervals of tachycardia ecg segments with convolutional neural network. Information Sciences, 2017, 405, 81-90.
Perez, M.V., Mahaffey, K.W., Hedlin, H., Rumsfeld, J.S., Garcia, A., Ferris, T. et al. Large-scale assessment of a smartwatch to identify atrial fibrillation. N Engl J Med, 2019, 381 (20), 1909-1917.
Giudicessi, J.R., Schram, M., Bos, J.M., Galloway, C.D., Shreibati, J.B., Johnson, P.W. et al. Artificial intelligence-enabled assessment of the heart rate corrected qt interval using a mobile electrocardiogram device. Circulation, 2021, 143 (13), 1274-1286.
Hannun, A.Y., Rajpurkar, P., Haghpanahi, M., Tison, G.H., Bourn, C., Turakhia, M.P. et al. Cardiologist-level arrhythmia detection and classification in ambulatory electrocardiograms using a deep neural network. Nat Med, 2019, 25 (1), 65-69.
Hindricks, G., Pokushalov, E., Urban, L., Taborsky, M., Kuck, K-H., Lebedev, D. et al. Performance of a new leadless implantable cardiac monitor in detecting and quantifying atrial fibrillation results of the xpect trial. Circ Arrhythm Electrophysiol, 2010, 3 (2), 141-147.
Ciconte, G., Saviano, M., Giannelli, L., Calovic, Z., Baldi, M., Ciaccio, C. et al. Atrial fibrillation detection using a novel threevector cardiac implantable monitor: the atrial fibrillation detect study. Ep Europace, 2017, 19 (7), 1101-1108.
Noelker, G., Mayer, J., BOLDT, L-H., Seidl, K., Van Driel, V., Massa, T. et al. Performance of an implantable cardiac monitor to detect atrial fibrillation: results of the detect af study. J Cardiovasc Electrophysiol, 2016, 27 (12), 1403-1410.
Sanders, P., Pürerfellner, H., Pokushalov, E., Sarkar, S., Di Bacco, M., Maus, B. et al. Performance of a new atrial fibrillation detection algorithm in a miniaturized insertable cardiac monitor: results from the reveal linq usability study. Heart Rhythm, 2016, 13 (7), 1425-1430.
Piorkowski, C., Busch, M., Nölker, G., Schmitt, J., Roithinger, F.X., Young, G. et al. Clinical evaluation of a small implantable cardiac monitor with a long sensing vector. Pacing Clin Electrophysiol, 2019, 42 (7), 1038-1046.
Bisignani, A., De Bonis, S., Mancuso, L., Ceravolo, G., Giacopelli, D., Pelargonio, G. et al. Are implantable cardiac monitors reliable tools for cardiac arrhythmias detection? an intra-patient comparison with permanent pacemakers. J Electrocardiol, 2020, 59, 147-150.
McManus, D.D., Chong, J.W., Soni, A., Saczynski, J.S., Esa, N., Napolitano, C. et al. Pulse-smart: pulse-based arrhythmia discrimination using a novel smartphone application. J Cardiovasc Electrophysiol, 2016, 27 (1), 51-57.
Proesmans, T., Mortelmans, C., Van Haelst, R., Verbrugge, F., Vandervoort, P., Vaes, B. Mobile phone-based use of the photoplethysmography technique to detect atrial fibrillation in primary care: diagnostic accuracy study of the fibricheck app. JMIR mHealth and uHealth, 2019, 7 (3), e12284.
Oberlo. How many people have smartphones in 2021? URL: https://www.oberlo.com/ statistics. (accessed: 22/07/2021).
Statista. Number of connected wearable devices worldwide from 2016 to 2022. URL: https://www. statista.com/ statistics/487291/global-connectedwearable-devices/. (accessed: 22/07/2021).
Varma, N., Cygankiewicz, I., Turakhia, M.P., Heidbuchel, H., Hu, Y-F., Chen, L.Y. et al. 2021 ishne/hrs/ehra/aphrs expert collaborative statement on mhealth in arrhythmia management: digital medical tools for heart rhythm professionals: from the international society for holter and noninvasive electrocardiology/heart rhythm society/ european heart rhythm association/asiapacific heart rhythm society. Circ Arrhythm Electrophysiol, 2021, 14 (2), e009204.
Jensen, M.T., Treskes, R.W., Caiani, E.G., Casado-Arroyo, R., Cowie, M.R., Dilaveris, P. et al. Esc working group on e-cardiology position paper: use of commercially available wearable technology for heart rate and activity tracking in primary and secondary cardiovascular prevention—in collaboration with the european heart rhythm association, european association of preventive cardiology, association of cardiovascular nursing and allied professionals, patient forum, and the digital health committee. Eur Heart J - Digital Health, 2021, 2 (1), 49-59.
Physionet. Will two do? varying dimensions in electrocardiography: the physionet/ computing in cardiology challenge 2021 URL: https://physionetchallenges.org/2021/. (accessed: 22/07/2021).
Manninger, M., Zweiker, D., Svennberg, E., Chatzikyriakou, S., Pavlovic, N., Zaman, J.A. et al. Current perspectives on wearable rhythm recordings for clinical decisionmaking: the wehrables 2 survey. EP Europace, 2021, 23 (7), 1106-1113.
Galloway, C., Treiman, D., Schreibati, J., Schram, M., Karbaschi, Z., Valys, A. et al. 5105 a deep neural network predicts atrial fibrillation from normal ecgs recorded on a smartphone-enabled device. Eur Heart J, 2019, 40 (Suppl 1), ehz746-0041.
Attia, Z.I., Noseworthy, P.A., Lopez-Jimenez, F., Asirvatham, S.J., Deshmukh, A.J., Gersh, B.J. et al. An artificial intelligence-enabled ecg algorithm for the identification of patients with atrial fibrillation during sinus rhythm: a retrospective analysis of outcome prediction. The Lancet, 2019, 394 (10201), 861-867.
Jo, Y-Y., Kwon, J-M., Jeon, K-H., Cho, Y-H., Shin, J-H., Lee, Y-J. et al. Artificial intelligence to diagnose paroxysmal supraventricular tachycardia using electrocardiography during normal sinus rhythm. Eur Heart J - Digital Health, 2021, 2 (2), 290-298.
Rudin, C. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nature Machine Intelligence, 2019, 1 (5), 206-215.
Gregoire, J-M., Gilon, C., Carlier, S., Bersini, H. Unravelling the black box of machine learning for atrial fibrillation forecast: role of heart rate variability and of premature beats. Eur Heart J, 2020, 41 (Suppl 2), ehaa946-0671.
Olorisade, B.K., Brereton, P., Andras, P. Reproducibility of studies on text mining for citation screening in systematic reviews: evaluation and checklist. J Biomed Inform, 2017, 73, 1-13.
Resnik, D.B., Shamoo, A.E. Reproducibility and research integrity. Account Res, 2017, 24 (2), 116-123.
Friedrich, S., Groß, S., König, I.R., Engelhardt, S., Bahls, M., Heinz, J. et al. Applications of ai/ml approaches in cardiovascular medicine: a systematic review with recommendations. Eur Heart J - Digital Health, 2021, doi:10.1093/ehjdh/ztab054.

Niets van de website mag gebruikt worden voor reproductie, aanpassing, verspreiding, verkoop, publicatie of commerciële doeleinden zonder voorafgaande schriftelijke toestemming van de uitgever. Het is ook verboden om deze informatie elektronisch op te slaan of te gebruiken voor onwettige doeleinden.