하루하루 웰빙

AI가 의사보다 의학적 질문에 더 잘 대답할 수 있습니까? 본문

하루행복 인생잡학

AI가 의사보다 의학적 질문에 더 잘 대답할 수 있습니까?

하루_건강/여행/힐링 2024. 3. 30. 01:19
728x90
반응형

 

작년에 인공 지능(AI)에 관한 연구를 설명하는 헤드라인이 눈길을 끌었습니다.

 

  • 공감과 조언 측면에서 ChatGPT가 실제 의사보다 나은 것으로 평가됨
  • AI가 이제 당신을 볼 것입니다. ChatGPT는 더 높은 품질의 답변을 제공하고 실제 의사보다 더 공감적이라고 연구 결과가 나왔습니다.
  • AI가 의사보다 나은가? ChatGPT는 동정심과 조언의 질 측면에서 의사를 능가합니다.

언뜻 보면 AI를 활용한 챗봇이 환자 질문에 대한 좋은 답변을 생성할 수 있다는 생각은 놀라운 일이 아닙니다. 결국 ChatGPTWharton MBA 최종 시험에 합격하고 몇 시간 만에 책을 쓰고 독창적 인 음악을 작곡했다고 자랑합니다 .

 

하지만 의사보다 더 많은 공감을 보이나요? 양쪽 모두에게 품질과 공감에 대한 최종 영예를 부여하기 전에 다시 한 번 살펴보겠습니다.

 

AI는 의료 분야에서 어떤 업무를 담당하고 있나요?

이미 급속도로 늘어나고 있는 AI의 의료 응용 목록 에는 의사의 진단서 초안 작성, 진단 제안, 엑스레이 및 MRI 스캔 판독 지원, 심박수 또는 산소 수준과 같은 실시간 건강 데이터 모니터링이 포함됩니다.

 

그러나 AI가 생성한 답변이 실제 의사보다 더 공감적일 수 있다는 생각은 저를 놀랍고 슬프게 만들었습니다. 이 중요하고 특히 인간의 미덕을 입증하는 데 있어서 가장 진보된 기계라도 어떻게 의사보다 더 나은 성능을 발휘할 수 있겠습니까?

 

AI가 환자 질문에 좋은 답변을 제공할 수 있나요?

흥미로운 질문입니다.

 

귀하가 복용하는 약 중 하나에 관해 질문을 가지고 의사 진료실에 전화했다고 상상해 보십시오. 나중에 담당 의료팀의 임상의가 귀하에게 다시 전화하여 이에 대해 논의합니다.

 

이제 다른 시나리오를 상상해 보세요. 이메일이나 문자로 질문을 하면 몇 분 안에 AI를 사용하는 컴퓨터에서 생성된 답변을 받게 됩니다. 이 두 가지 상황에서 의학적 답변은 품질 측면에서 어떻게 비교됩니까? 그리고 공감 측면에서 어떻게 비교할 수 있을까요?

 

이러한 질문에 답하기 위해 연구자들은 온라인 소셜 미디어 사이트의 익명 사용자로부터 답변을 자원한 의사에게 제기된 195개의 질문과 답변을 수집했습니다. 질문은 나중에 ChatGPT에 제출되었고 챗봇의 답변이 수집되었습니다.

 

세 명의 의사 또는 간호사로 구성된 패널은 품질과 공감에 대해 두 답변 세트를 모두 평가했습니다. 패널리스트들은 "어느 대답이 더 좋았습니까?"라는 질문을 받았습니다. 5점 척도로요. 품질에 대한 평가 옵션은 매우 나쁨, 나쁨, 허용 가능, 좋음, 매우 좋음이었습니다. 공감에 대한 평가 옵션은 공감하지 않음, 약간 공감함, 보통 공감함, 공감함, 매우 공감함이었습니다.

 

연구 결과는 무엇이었나요?

결과는 가깝지도 않았습니다. 거의 80%의 답변에서 ChatGPT가 의사보다 나은 것으로 간주되었습니다.

 

품질이 좋음 또는 매우 좋음 답변:

ChatGPT는 응답의 78%에 대해 이러한 평가를 받은 반면, 의사는 응답의 22%에 대해서만 그렇게 했습니다.

 

공감적이거나 매우 공감적인 답변:

ChatGPT45%, 의사는 4.6%를 기록했습니다.

 

특히, 의사의 답변 길이(평균 52단어)ChatGPT(평균 211단어)보다 훨씬 짧았습니다.

 

내가 말했듯이, 근처에도 가지 않았습니다. 그렇다면 결국 그 숨막히는 헤드라인은 모두 적절했을까요?

 

그렇게 빠르지는 않다: AI 연구의 중요한 한계

이 연구는 두 가지 주요 질문에 답하기 위해 고안되지 않았습니다.

 

  • AI 응답은 혼란이나 피해를 피하면서 정확한 의료 정보를 제공하고 환자의 건강을 개선합니까?
  • 환자들이 의사에게 제기하는 질문에 봇이 답변을 줄 수 있다는 생각을 받아들일까요?

그리고 여기에는 몇 가지 심각한 한계가 있었습니다.

 

답변 평가 및 비교:

평가자는 품질과 공감에 대해 테스트되지 않은 주관적인 기준을 적용했습니다. 중요한 것은 그들이 답변의 실제 정확성을 평가하지 않았다는 것입니다 . ChatGPT에서 지적된 문제인 조작에 대한 답변도 평가되지 않았습니다.

 

답변 길이의 차이:

더 자세한 답변은 인내심이나 관심을 반영하는 것처럼 보일 수 있습니다. 따라서 공감에 대한 높은 평가는 진정한 공감보다 단어 수와 더 관련이 있을 수 있습니다.

 

불완전 맹검:

편견을 최소화하기 위해 평가자는 답변이 의사에게서 나온 것인지 아니면 ChatGPT에서 나온 것인지 알 수 없도록 되어 있었습니다. 이것은 "블라인딩(blinding)"이라고 불리는 일반적인 연구 기법입니다. 그러나 AI가 생성한 의사소통은 항상 인간의 소리와 똑같이 들리는 것은 아니며, AI 답변은 훨씬 더 길었습니다. 따라서 적어도 일부 답변에 대해서는 평가자가 눈을 멀게 하지 않았을 가능성이 높습니다.

 

결 론

의사가 AI가 생성한 답변에서 공감 표현에 대해 뭔가를 배울 수 있을까요? 혹시. AI가 협업 도구로 잘 작동하여 의사가 검토하고 수정하는 응답을 생성할 수 있을까요? 실제로 일부 의료 시스템에서는 이미 AI를 이런 방식으로 활용하고 있습니다.

 

그러나 정확성에 대한 확실한 증거와 의료 전문가의 실제 감독 없이 환자 질문에 대한 AI 답변에 의존하는 것은 시기상조인 것 같습니다. 이 연구는 둘 중 하나를 제공하도록 설계되지 않았습니다.

 

그건 그렇고, ChatGPT는 이에 동의합니다. 저는 ChatGPT가 의사보다 의학적 질문에 더 잘 대답할 수 있는지 물었습니다. 대답은 '아니요'였습니다.

 

AI 지니를 자유롭게 설정하여 환자의 질문에 답할 때가 언제인지 알기 위해서는 더 많은 연구가 필요합니다. 우리는 아직 거기에 도달하지 못했을 수도 있습니다. 그러나 우리는 점점 더 가까워지고 있습니다.

 

728x90

 

728x90
반응형