스탠포드 교수에게 듣는 의학 &약학 분야 AI 트렌드
✅ [Part 1] 오프닝 :출연자 소개
Justin Norden:
스탠포드 헬스케어 AI 워터쿨러 토크, 두 번째 에피소드에 오신 걸 환영합니다.
저는 스탠포드 교수이자 Qualified Health 공동 창립자인 저스틴 노든입니다.
그리고 오늘도 공동 진행자로 함께하는 매튜 런그렌, 그는 마이크로소프트 헬스의 최고 과학 책임자이자 스탠포드 교수이기도 하죠.
그리고 오늘 아주 기쁘게 소개할 분은, 예전 스탠포드 의대 교수이자, 현재는 카이저 퍼머넌트의 첨단기술 그룹을 공동으로 이끌고 있는 그레이엄 워커 박사입니다. 이 그룹은 AI와 새로운 기술들을 총괄하는 부서입니다.
Justin Norden:
그리고 그레이엄은 아마 많은 분들이 써보셨을 MD Calc의 창립자이기도 하고, Off Call이라는 새로운 스타트업을 포함해 여러 가지 일들을 하고 있죠.
그레이엄, 오늘 이렇게 함께해줘서 정말 고마워요.
Graham Walker:초대해줘서 고맙습니다. 다시 이렇게 “버추얼 팜”(스탠포드의 별칭)에 돌아오게 되어 반갑네요. 이것도 포함되는 거죠, 맞죠?
Justin Norden:
네, 오늘은요, 저희가 첫 번째 에피소드를 내고 나서 정말 많은 반응을 받았어요.
기술적인 부분에 대한 질문도 있었고, “다음에는 이런 주제를 다뤄줬으면 좋겠다”는 피드백도 있었죠. 알다시피 이 토크 시리즈는 카메라 밖에서 나누는 자유로운 대화를 그대로 옮겨온 것 같은 분위기를 지향하고 있어요.
✅ [Part 2] GPT-4.5와 최신 AI 모델 이야기
Justin Norden:
오늘 다뤄볼 주제가 몇 가지 있는데요, 전반적으로 요즘 우리가 AI에서 보고 있는 현상들에 대해 자유롭게 이야기 나눠볼 거예요. 우선 GPT-4.5, 최근에 등장한 모델 중 하나에 대해 이야기할 거고, 그리고 다른 최신 모델들도 함께 다뤄보겠습니다.
요즘은 선택할 수 있는 모델이 너무 많아서, 오히려 무엇을 써야 할지 모르겠는 상황(paralysis by choice)이 온 것 같아요.그다음으로는 최근 공개된, 의사들이 실제로 AI 모델을 어떻게 사용하고 있는지에 대한 데이터도 이야기할 거예요. 공공 모델뿐 아니라 병원 현장에 도입된 솔루션에 대해서도요. 또 하나는 FDA가 어떻게 보고 있는지, 그리고 최근 논란이 되고 있는 몇 가지 이슈들이에요. 예를 들면 AI 모델의 규제 제안이나, AI가 약을 처방할 수 있게 하자는 아이디어 같은 것들이요. 흥미롭죠. 이런 주제에 대해서도 오늘 다 함께 의견을 나눠보려 합니다.
Matthew Lungren:
좋아요. 그럼, AI 모델의 새로운 기능들부터 시작해볼까요?
Justin Norden:
네, 그렇게 하죠. 그레이엄, 중간중간 자유롭게 말씀해 주세요.
우선 기초 정리부터 잠깐 해볼게요.
혹시 ‘Tixie 유니콘’ 이야기를 모르시는 분들을 위해 설명을 드리면요,
이건 세바스티안 부벡(Sebastian Bubeck)이 쓴 논문 Sparks of AGI에 나오는 내용이에요. 당시 GPT-4 초기 버전이 유니콘처럼 생긴 그림을 만들었다는 것 자체가 많은 사람들을 놀라게 했었죠.
기억하시겠지만, 이건 순수한 언어 모델이었는데, 그림까지 그려내는 능력을 보여주면서 2022년에 꽤 충격을 줬어요. 당연히 GPT-3.5에서 큰 도약이었고요.
최근에는 4.5 버전 평가에서, 새로운 Tixie 유니콘 이미지를 다시 올렸는데, 모델이 얼마나 발전했는지 시각적으로 보여주기 위한 거였어요.
하지만 성능 데이터를 실제로 보면, 예전처럼 엄청난 성능 도약은 보이지 않아요.
다만 그 이유 중 하나는, 일부 벤치마크는 이미 거의 포화 상태에 가까워졌기 때문이에요. 특히 간단한 태스크에서는요, 우리가 GPT-3에서 4로 넘어올 때 크게 향상되던 걸 기대하다 보니,ㅡ이번에는 오히려 점진적이고 느린 개선처럼 보일 수 있어요.
이건 사실 기존 프리트레이닝 방식의 한계를 보여주는 현상이기도 하죠. 입력량을 기하급수적으로 늘려도, 성능 향상은 선형적이라는 ‘스케일링 법칙’ 때문이에요. 즉, 모델이 커질수록 ‘더 똑똑하게’ 만드는 게 점점 더 어려워지는 것이죠.
그렇지만 희망적인 변화도 있어요.
가장 기대되는 건, 바로 환각(hallucination) 발생률이 줄어들고 있다는 점이에요.
그동안 환각 문제 때문에 애플리케이션을 구축할 때 복잡한 구조(scaffolding)를 짜야 했는데 이제는 기본 상태에서도 꽤 괜찮은 정확도를 보여주기 시작했어요.
✅ [Part 3] 최신 AI 모델, 환각은 어느 정도?
Justin Norden:
요즘 모델들을 써본 분들이라면 대부분 공감할 거예요. 그레이엄이나 저스틴, 혹시 여러분도 최근 모델들을 직접 사용해보면서 예전처럼 “이건 틀렸네”, “뭔가 이상해”라고 느끼는 빈도가 줄었다고 느껴보신 적 있나요?
Graham Walker:
매튜, 그러니까 아직도 환각률이 37%나 된다는 건 좀 놀라운데요. 제가 simple QA 데이터셋에 익숙하진 않지만, 그 수치는 여전히 꽤 높게 느껴지네요.
Graham Walker:
제 생각엔 두 가지가 동시에 일어나고 있는 것 같아요. 사람들이 이제 LLM의 응답을 더 편하게 받아들이게 되었고, 그래서 예전보다 덜 검증하고 넘어가는 경우가 많아진 거죠.
Graham Walker:
이제는 어느 정도 사람들이 받아들일 수 있는 기준을 충족한 것처럼 느껴져서,
슬슬 신뢰를 보내기 시작하는 거죠.
사실 저는 구글도 이런 분위기에 한몫하고 있다고 봐요.
Graham Walker:
요즘 구글은 AI를 검색 결과에 자동으로 삽입하고 있잖아요. 친구랑 토론하다가 친구가 “구글이 이렇게 말했어”라고 링크를 보내주는데, 사실 보면 그건 구글 AI의 답변이지, 기존의 구글 검색 결과는 아니거든요. 예전에는 누가 뭘 주장하면, 정확한 웹사이트의 스크린샷을 보여주곤 했잖아요. 그런데 요즘은 그냥 AI가 생성한 답변 스크린샷을 보내요. 그 친구가 그게 AI의 답변이라는 걸 알고 보내는 건지, 아니면 그냥 무의식적으로 신뢰하고 있는 건지 저도 잘 모르겠어요.
이게 문제예요. 지금은 사람들이 그냥 무심코 AI를 믿게 되는 단계에 와버렸다는 것이죠. 인류가 정말 그럴 준비가 됐는지는 모르겠지만, 이미 그 신뢰가 형성되고 있다는 게 현실입니다.
Matthew Lungren:
맞아요. 그래서 저는 요즘 **“신뢰하되, 검증하라”**는 태도가 필요하다고 봐요.
특히 우리처럼 매일 LLM을 쓰는 사람들이라면요.
Matthew Lungren:
그게 일종의 ‘메타인지(metacognition)’ 같아요. “얘가 80%까진 해줄 거야”라고 생각하면서, 어느 정도 틀릴 걸 감안하고도 효율성 때문에 쓰는 거죠. 그런데 이 현상의 가장 나쁜 측면은 우리가 흔히 부르는 GPT의 찌꺼기(GPT slop)”예요.
참고로, 이 말이 작년에 ‘올해의 단어 후보’에 오르기도 했죠. 이제는 어떤 글을 읽어보면, “아, 이건 Claude가 썼구나”, “이건 GPT-4 티가 나네” 이렇게 모델의 흔적이 보일 정도가 됐어요. 그런 글들은 보면, 편집에 거의 공 들이지 않았다는 게 느껴지거든요.
✅ [Part 4] Claude, ChatGPT, DeepSeek를 써본 후기
Justin Norden:
자, 여기서 제가 강조하고 싶은 게 있는데요, 첫째는 지금 정말 다양한 모델들이 나와 있고, 둘째는 지난 2년간 우리가 얼마나 많은 변화를 겪었는지 생각해보는 거예요. 요즘은 모델도 많고 경쟁도 치열해서, 말씀하신 것처럼, 이제는 기업들이 아예 AI 기능을 자사 앱 안에 직접 통합해버리죠. 사실 많은 사람들이 예상했던 흐름이기도 해요. 사용자를 자사 플랫폼 안에 묶어두기 위한 전략이고, 다른 경쟁사들과 차별화할 수 있는 수단이기도 하죠. 사실 예전에는는 원하는 답을 찾으려면 여러 검색엔진에 따로따로 물어봐야 했고, 결국 구글이 하나로 정리해주기 전까지 그랬죠. 그래서 요즘도 자주 받는 질문 중 하나가, “어떤 상황에 어떤 모델을 써야 하나요?”라는 거예요.
그런데 이게 어려운 게, 정답이 계속 바뀐다는 점이에요. GPT-4.5만 나온 게 아니라, Claude 3.5도 나왔고, 몇 주마다 새 모델이 출시되고 있잖아요. 그래도 흥미로운 건,
우리가 앞으로는 하나의 AI만 쓰는 게 아니라, 여러 모델을 병행해서 쓰는 시대로 가는 것 같다는 거예요. 개인 사용자도, 기업도, 의료기관도 모두 여러 모델을 병렬로 사용할 수 있는 환경을 갖추는 것이 중요해지고 있어요.
매튜, 그레이엄—두 분은 어떻게 생각하세요?
요즘은 어떤 모델을 주로 사용하세요?
Matthew Lungren:
지금 보여주신 화면에 있는 것들만 봐도,
간단히 계산해보면 월 300달러 정도 구독료가 나오는 셈이네요.
Graham Walker:
맞아요. 게다가 OpenAI Pro 요금제($200)까지 안 쓴다고 가정할 때 그렇고요.
저는 주로 ChatGPT랑 Claude를 사용해요.
Graham Walker:
ChatGPT는 조금 더 독창적인 답변을 잘 주는 편이고, Claude는 제가 글을 편집받고 싶지만 원래 문체는 유지하고 싶을 때 훨씬 적합하더라고요. ChatGPT는 좀.. “이 글 정말 좋네요!”라고 칭찬하면서 아예 자기 스타일로 싹 다 고쳐버리기도 해요. (웃음) 반면 Claude는 제 원문을 그대로 유지하면서 조금 더 자연스럽게 다듬어주는 방식을 선호하죠. 그리고 최근에는 DeepSeek도 꽤 많이 테스트해봤어요. 이 모델은 다소 위험하거나 엣지 있는 요청도 좀 더 관대하게 받아주는 경향이 있더라고요. 좀 더 비윤리적인 요청도 통과되는 경우가 있어서,
아마도 이건 오픈소스 기반이라 검열이 덜한 것 때문일 수 있어요.
예를 들어, ‘은행을 털려면 어떻게 해야 하나요?’ 같은 걸 물어봤을 때, Claude나 GPT보다 DeepSeek이 훨씬 쉽게 대답해주죠.
✅ [Part 5] 진료를 돕는 AI
Graham Walker:
여러분은 이 모델들 다 써보셨나요?지금도 진료하시잖아요. 혹시 케이스를 모델에 넣어보고, 나오는 진단이 정확확한지 확인해보신 적 있으세요? 혹시 AI랑 대화하듯이 케이스를 상의해본 적 있나요?
Matthew Lungren:
네네, 진단은 꽤 괜찮게 나오는 편이에요.
그리고 저도 GPT-4.5 테스트해보고 싶어요. 매튜, 혹시 액세스 줄 수 있어요? (웃음)
Graham Walker:
하지만 여전히 모든 모델에는 한계(gap)가 있어서, 완전히 의존하긴 무서워요.
기본적으로 이건 콘텐츠 생성용 모델이잖아요. 감별진단 목록을 만들어주는 데는 아주 훌륭해요. 그런데 정말 빠짐없이 다 커버해줄지, 혹은 1순위 진단이 맞을지에 대해선 아직 확신이 없어요. 예를 들어서, 소아 환자라든가, 임산부처럼 상황이 복잡해지면 그때부터 모델의 허점이 조금씩 드러나는 것 같아요.
매년 확실히 발전하고 있고, 이제는 취약한 부분을 찾는 것 자체가 점점 어려워지고 있거든요.
Matthew Lungren:
맞아요. GPT-3.5가 처음 나왔을 때, 정말 쉬운 의학 질문조차 완전히 엉뚱하게 대답하는 사례들이 엄청 돌았죠. 물론 저도 이걸 자주 쓰고 있고, 레드팀 평가 작업에도 참여하고 있는데, 이제는 모델의 오류를 찾아내는 것도 점점 더 어려워졌어요. 어떤 경우엔, 모델의 답변이 너무 그럴듯해서, 오히려 저도 “맞는 말 같은데… 다시 확인해봐야겠다”는 생각이 들 때가 있어요. 그러다 보면, 결국 더 깊은 리서치를 하게 되죠. 특히 요즘은 그렇게 GPT 처음 썼을 때처럼 놀라는 순간들이 Deep Research 툴을 쓸 때 또 생기더라고요. “와, 이건 진짜 게임 체인저다” 싶은 순간들이요. 물론 때때로 “음… 이건 좀 얕은 수준인데?” 싶은 순간도 있죠. 하지만 말씀하신 것처럼, 결국엔 이거죠: “지금이 이 기술이 가장 못한 상태다.” 앞으로는 계속 더 나아질 거니까요.
✅ [Part 6] OpenEvidence, AI의 의료정보 정확성과 위험성
Justin Norden:
네, 방금 의학 저널과 접근성 이야기를 하셨는데요, 최근 기사 보셨죠? Open Evidence라는 스타트업이 엄청난 투자를 유치했어요. 그쪽에 따르면면, 현재 미국 의사의 25%가 이 도구를 사용하고 있다고 해요. 자율 질문을 하고, 진짜 논문을 인용해서 답해주는 거죠. 그리고 가장 중요한 점은, 환각률을 줄이는 데 초점을 맞췄다는 것이죠. 앞서 얘기한 주제랑 연결돼요.
처음에 사람들이 GPT-4에게 질문을 했을 땐, “와, 인용문이 이렇게 많아!”라고 놀라곤 했는데, 자세히 보면 다 조작된 말들이었어요. 그리고 엔지니어들이 모델을 다루는 방법도 훨씬 정교해지고 있어요. 사실 이건 많은 사람들이 간과하는 부분인데요. 의료에서 AI 이야기를 할 때, 단순히 “모델이 더 좋아졌냐?”만 보는 게 아니라, “우리가 그걸 얼마나 잘 다루게 됐냐?”도 핵심이에요.
Matthew Lungren:
그레이엄, 혹시 Claude 같은 모델에
“MDCalc를 처음부터 만들어줘” 같은 프롬프트 던져본 적 있어요?
Graham Walker:
완전요. 해봤죠. 어떤 계산기들은 꽤 잘 만들어줘요. 근데 어떤 건 보면, “이건 정말 위험할 정도로 부정확한 결과가 나올 수도 있겠는데…” 싶을 때도 있어요. 결국 이건 ‘신뢰의 문제’ 같아요. 앞서 말한 구글 검색 결과에 AI 답변이 섞여 있는 상황처럼,
환각률이 낮아졌더라도, 여전히 걱정이 되는 건 사실이에요. 왜냐하면 어떤 사람이 LLM이 준 정보에 의존해서 틀리진 않지만 ‘불완전한 정보’에 기반한 결정을 내릴 수도 있거든요. 그 사용자가 그 정보가 충분하지 않다는 걸 판단할 경험이나 지식이 없다면, 더 위험해질 수 있어요. 예를 들어 임산부거나, 소아, 또는 특이한 검사 수치가 있는 경우, 모델이 판단을 잘못할 수도 있어요. 입력 정보가 충분치 않으면, 중요한 걸 놓칠 수 있다는 거죠.
✅[Part 7] AI는 얼마나 정확해야 할까?
Matthew Lungren:
그래요, AI 사용에 관한 논의는 흥미롭지만, 그레이엄, 이전부터 수많은 대화에서 계속 나왔던 반론이 있어요. 바로 이거죠: “그래서, 뭐랑 비교하자는 거야?” AI가 실수할까요? 당연히 하죠. 아주 많이요. 그렇지만, 언론에서는 항상 이런 말도 하잖아요. “의사들도 이렇게나 많이 실수하고 있다!” 요즘엔 AI를 활용해서 의사의 오진을 바로잡은 환자 이야기도 기사로 나오기 시작했어요. 그럼 우리는 AI를 어떻게 평가해야 할까요? 그리고 실제로 현장에서 AI를 쓸 때, 언제, 어디서, 어떤 기준으로 써야 하는지 어떻게 판단하세요?
저는 이걸 테슬라의 자율주행 기술 논쟁에 자주 비유해요.
AI는 단순히 “평균적인 사람보다 조금 더 낫다” 수준으론 부족하다고 느껴요.
Graham Walker:
왜냐면 사람이 직접 통제할 수 없기 때문이죠. 그래서 이런 도구들은 전 세계 최고의 전문가 상위 0.1% 수준의 정확도를 보여줘야 한다고 생각해요. 그리고 또 하나 중요한 건, 저스틴이 말한 것처럼 AI 도구의 위험만 따로 떼어 생각하면 안 된다는 거예요. 의료 시스템 전체의 ‘총 위험 구조’를 봐야 해요. 예를 들어, 수혈을 해줄 때,
저는 환자에게 “이후에 길을 건너다가 사고 날 확률이 수혈로 HIV나 C형 간염에 걸릴 확률보다 훨씬 높아요”라고 설명해요. 또 다른 현실적인 리스크는 이런 거죠—
환자가 심장내과 전문의 진료를 받기 위해 6개월이나 기다려야 한다는 사실. 그 사이에 환자의 상태는 악화될 수밖에 없어요. 그래서 우리는 AI의 위험, 인간의 실수만이 아니라,환자의 상태가 갖고있는 리스크까지 감안안해야 해요.
✅ [Part 8] 의료 현장에서의 AI, 이미 2/3가 쓰고 있다?
Justin Norden:
좋아요, 여기서 꼭 짚고 넘어가고 싶은 포인트가 있어요. 사람들이 실제로 이 AI 도구를 어떻게, 왜 사용하고 있는가? 아까도 잠깐 언급되긴 했죠. 최근 발표된 AI 활용 관련 2세대 설문조사가 있어요. 재밌는 점은 이 조사에서 AI를 “인공 지능(Artificial Intelligence)”이 아니라 “증강 지능(Augmented Intelligence)”이라고 부르고 있다는 거예요. 그런데 임상의 전체를 대상으로 했을 때, 이 수치가 정말 놀라웠어요. 예전엔 의사의 약 1/3이 AI를 사용하고 있다고 나왔는데, 이제는 무려 2/3까지 올라갔어요. 그런데 더 충격적인 건, 대부분의 병원이나 기관이 아직 AI 도구를 공식적으로 제공하지 않고 있다는 점이에요. 그래서 지금 이건 정말 흥미롭고 중요한 현상이에요. 그레이엄, 우리도 예전에 이 얘기 했었잖아요. 사람들이 그냥 개인 스마트폰이나 외부 서비스로 몰래 쓰고 있는 거예요. 이 상황, 그레이엄은 어떻게 보세요?
Graham Walker:
저는 이 트렌드가 다른 나라에서도 나타나는지 정말 궁금해요. 사실 미국에서 이런 현상이 나타나는 건, 미국 의료 시스템 자체가 굉장히 비효율적이고 복잡하기 때문이라고 생각하거든요. 미국 의사들은 지금 진료, 행정업무, 보험 심사 등 모든 것에 치여서 진짜 힘들게 버티고 있어요. 그래서 이게 미국만의 현상인지, 아니면 전 세계적으로 AI 도입이 가속화되는 것인지 정말 궁금해요. 전 세계 의료인들도 번아웃 상태이긴 하니까요. 심지어 많은 의대생들이 이젠 병동에서 직접 환자 보는 걸 기피하는 시대잖아요. 그래서 이게 글로벌 트렌드일 수도 있고, 아니면 단순히 미국 의료 시스템이 유독 안 좋아서, 여기 의사들이 AI에 더 빨리 기대고 있는 걸 수도 있죠.
✅ [Part 9] AI 약사와 의대 교육에서의 AI
Matthew Lungren:
요즘은 실제로 응급실이나 1차 진료소에서 음성 모드로 AI를 활용하는 사례도 나오고 있어요. 환자 케이스를 AI에게 말로 전달하면서 상황을 설명하는 거죠. 전공의나 인턴 시절처럼, 케이스를 설명하고 AI에게 피드백을 받는 방식이에요. 또 어떤 팀은—제가 나중에 팟캐스트에 꼭 모시고 싶은데— 이걸 연구로 진행 중이에요. 환자 회진할 때 GPT를 “함께 데리고 다니는” 방식이죠. GPT가 의료진의 대화를 들은 뒤, 의견을 제시하게 하는 방식이죠. 정말 매력적인 아이디어예요. 결국 이런 사례들이 보여주는 건, 우리가 아직 “AI를 최적으로 활용하면서 의료를 실천하는 방법”을 잘 모른다는 점이에요.
Graham Walker:
맞아요. 재밌는 점 하나만 더 말할게요. 제가 요즘 주목하고 있는 건 바로 이 “확실한 이점(definite advantage)” 그룹이에요. 그리고 AI를 통한 자동 의무기록은 정말 빠르게 퍼지고 있죠. 이제는 AI 없으면 진료 못 보겠다고 말하는 사람들도 생겼어요. 제가 예전 제자들과 이야기해보면, 그들은 이런 툴을 매일같이 활용하면서, 공공 모델만으로도 하루 2시간씩 절약된다고 해요. 퇴원 요약 작성, 어려운 환자 상담 준비, 최신 자료 검색 등 정말 다양하게 활용되고 있죠.
기술 도입엔 항상 일정한 곡선이 따르죠. 하지만 이런 꾸준한 사용자들이 생기기 시작하면, 확산되는 건 시간문제예요. 그래서 우리는 더 많은 사람들이 “AI를 이렇게 쓰고 있다”는 사례를 공유해야 해요. 매튜, 아까 말한 그 방식—가상 AI 약사 같은 개념—저는 처음 들어봤어요. 정말 멋진 아이디어네요.
예전에 응급실에서 말기 환자 가족과 상담하는 일이 정말 힘들었던 적이 있어요.
그게 다음 날까지도 마음에 걸려서, 그 상황을 AI에게 자세히 설명해봤어요. 그리고 이렇게 말했죠. “이제 당신이 환자의 딸이라고 가정하고 대답해줘요. 제가 말하면, 대화 끝나고 피드백도 줘요.” 이런 방식으로 대화 훈련을 한 거예요. 이처럼 AI는 단순히 진단/처방뿐 아니라, 임상 외적인 교육, 대화, 시뮬레이션 등 정말 다양한 방식으로 활용될 수 있어요. 시뮬레이션, 민감한 환자 상담, AI 약사 역할… 예일대에선 어떤 교수님이 의대생 교육에 이런 식으로 사용하고 있대요.
학생이 직접 의무기록을 작성하고, AI도 같은 케이스로 기록을 써요. 그리고 그걸 비교해보는 거예요. “AI는 이 내용을 병력에 썼는데, 나는 왜 안 썼지?” 이런 식으로요. 이 도구들은 우리를 대체하기 위한 게 아니라,
우리를 가르치고, 도와주고, 교육하는 데 정말 유용하게 쓰일 수 있어요.
✅ [Part 10] 공감 훈련, 교육 혁신, 그리고 의대 커리큘럼 재편 가능성
Justin Norden:
맞아요. 사실 의료 교육 얘기는 예상보다 많이 안 나오는 주제인데, 방금 말하신 “공감 훈련(empathetic coaching)” 사례는 정말 중요한 예시였어요. 이 주제로 이미 몇몇 논문도 나왔는데, 저는 이게 정말 AI의 기가 막힌 활용 분야라고 생각해요. 다행히도 많은 진료과에서는 환자나 보호자와의 힘든 대화를 자주 하진 않아요.
물론 완화의학이나 종양내과 같은 경우는 예외고요. 하지만 그런 상황이 생기면, 어떤 구명줄이라도 붙잡고 싶을 정도로 막막하죠. 그때 AI가 모의 대화 상대이자 피드백 코치가 되어줄 수 있어요. 그리고 교육 쪽으로는 진짜 놀라운 논문들도 있어요. 예를 들어, 나이지리아의 한 학교에서는 GPT-4를 튜터로 활용했는데요…
단 6주 동안 AI 튜터와 수업한 학생들이 평균적으로 ‘학년 2단계’ 상승을 보였어요.
전 그게 정말 말도 안 되는 결과라고 느꼈어요. 저희 딸이 일본어를 배우는데, 선생님이 수업 중에 이렇게 말씀하셨대요. “대화 연습은 이제 GPT 음성 모드랑 하세요.” 이걸 보고 저는 “의대에서는 이걸 어떻게 활용할 수 있을까?” 하는 생각이 들더라고요. 아까 그레이엄이 좋은 예들을 말해줬는데, 우리 예전엔 Step 시험 준비할 때 문제집 돌리기만 했잖아요. 그런데 요즘 모델들은, Step 시험 스타일의 문제를 실제처럼 써낼 수 있어요. 심지어 진짜 문제랑 구분이 안 될 정도로요. 그리고 그 문제들로 학생들을 평가해도, 실제 시험과 유사한 결과가 나와요.
정말 혁신적인 연구였어요.
아직은 사람들이 이 AI를 어떻게 활용할지 실험하고 배우는 단계예요. 근데 저는 이게 좀 무서워요. 어떤 학생은 하루에 10시간씩 AI를 쓰고 있고, 어떤 학생은 거의 안 쓰고 있다는 거죠. 그리고 이런 격차는 빠르게 벌어지고 있어요.
그래서 우리가 이런 대화를 하는 이유도 바로 그거예요. 누군가는 회진 때 AI 음성 모드를 써보고, 다른 누군가는 새로운 아이디어를 떠올릴 수도 있으니까요. 물론 바람이 있다면, 사람들이 이걸 안전하게 사용하길 바랍니다. 그건 꼭 강조하고 싶어요.
Graham Walker:
전엔 AI가 “크렙스 회로는 안 외워도 돼요. 다 쓸데없는 짓이에요.” 이렇게 말해줄 정도로 똑똑해지면 좋겠어요.
Justin Norden:
맞아요. 사실 저도 이런 생각이 있어요— 우리가 AI를 잘 훈련시키고, 잘 걸러서 쓴다면, 의학교육 커리큘럼 자체를 바꾸는 데 도움을 줄 수 있지 않을까 하고요.
Graham Walker:
진짜 왜 우리는 상완신경총(brachial plexus) 같은 걸 존재만 아는 게 아니라, 각 가지(branch), 코드, 경로까지 죄다 외워야 할까요? 저도 한때는 열심히 외웠어요.
근데 그걸 실제 임상에서 그렇게 자세히 쓸 일이 있었냐면… 거의 없었죠.
✅ [Part 11] 기억력, 학습, 그리고 AI 시대의 인간 역할
Justin Norden:
솔직히 저는 이 부분에 대해서 두 가지 마음이 공존해요.
하나는, 어떻게 보면 우리 인간도 LLM(대규모 언어모델)처럼 작동한다는 점이에요. 이 기술을 잘 쓰고 싶다면, **우리도 일종의 사전학습(pretraining)**을 해야 하잖아요? 그래서 기억력이라는 근육을 훈련하는 것에도 여전히 가치가 있다고 생각해요. 기억을 훈련하는 과정은 결국 방대한 정보를 흡수하고, 그것을 조작할 수 있는 능력을 키우게 해요. 어떤 의미에서는, 그렇게 해야 기술과 정보의 속도에 뒤처지지 않고 따라갈 수 있죠. 하지만 동시에 **기술 덕분에 능력이 퇴화(skill atrophy)**되는 측면도 있어요. 인지적 부담을 AI에게 넘기면서 생기는 현상이죠. 예를 들어 저는 20년 동안 종이지도라는 걸 써본 적이 없어요. 요즘은 GPS 없으면 우리 동네에서조차 길을 못 찾을지도 몰라요. 이것도 현실이죠. 물론 더 효율적이긴 한데, 그 과정에서 제가 잃은 건 뭘까요? 결국 어디쯤에서 균형을 잡을 것인지가 중요한 문제예요. 하지만 확실한 건, 의학교육은 변해야 한다는 것, 그리고 기존 교육 체계 전반이 흔들리고 있다는 거예요. 스탠포드의 찰스 프로버 교수님도 그걸 시도하셨어요. 단순 암기 대신, 적용 중심의 학습을 지향했죠. 그리고 지금의 AI는 그런 학습 모델에 슈퍼 파워를 붙여주는 존재예요. 우리는 이제 사람들을 현실적인 시뮬레이션 상황으로 던져 넣어야 해요. AI든, 대면 환경이든 간에 말이죠.실행을 통한 학습(이 필요한 시대예요. 그리고 이게 바로, AI가 진짜로 가능하게 해주는 교육 혁신이라고 생각해요.
✅ [Part 12 – 마지막] AI에게 ‘처방 권한’을 줄 수 있을까?
Justin Norden:
마무리하기 전에 하나만 더 짚고 갈게요— 최근에 AI에게 ‘약 처방 권한’을 주자는 법안이 발의된 적이 있었어요. 매튜, 이 주제 관심 많으셨으니까 먼저 말씀해주시겠어요? 어떤 법안이었고, 어떻게 전망하시는지 알려주세요.
Matthew Lungren:
이런 시도는 처음은 아니에요. 하지만 최근 의료계에서 AI가 큰 화두가 되면서 이 법안이 주목을 받았죠. 핵심은, AI 모델이 법적으로 약을 처방할 수 있도록 하자는 제안이었어요. 실제로 그걸 어떻게 구현할 수 있을지는 모르겠지만, 제한된 약물 목록 안에서, 특정 조건 하에서는 가능할 수도 있겠죠.
사실 요즘 이미 몇몇 앱들이 비슷한 방식으로 약 처방을 자동화하고 있잖아요,
그 흐름의 연장선이죠. 물론 저는 이 법안이 실제로 통과되진 않을 거라고 봐요.
하지만 이런 현상은 Ethan Mollick 교수가 말하는 들쭉날쭉한 경계(jagged edge)처럼, 기술이 실제 세계를 침투해 들어오는 징후로 보게 되죠.
Graham Walker:
솔직히 말해서, 요즘 원격진료 기반의 처방 시스템들을 보면 이미 현실에서 벌어지고 있는 일이 이 법안과 크게 다르지 않아요. 의사는 단순히 체크박스를 클릭하고, 알고리즘이 증상과 병력을 평가해서 자동으로 처방이 이뤄지는 구조죠. 게다가 실제로는 처방되는 약들이 일반의약품(OTC)인 경우도 많아요. 그렇다면 우리가 자문해야 할 건 이거예요: “지금 구조랑 AI가 직접 처방하는 구조, 진짜 얼마나 다르지?” 물론 저도 당장 AI에게 처방 권한을 주자는 입장은 아니에요. 하지만 이미 기업들이 이 시스템으로 수익을 내고 있는 현실과 비교해보면… 그 경계는 생각보다 불분명해져요. 그래서 이런 논의가 반드시 이뤄져야 한다고 생각해요.
Justin Norden:
정말 잘 말씀해주셨어요.
오늘은 여기까지 하죠.
Graham Walker:
불러주셔서 감사합니다.
즐거웠어요.