Posts 미국 중환자실 데이터 MIMIC-III 정리
Post
Cancel

미국 중환자실 데이터 MIMIC-III 정리

해당 글은 https://mimic.physionet.org/about/mimic/를 참고하여 정리한 노트입니다.


MIMIC Critical Care Logo

1. MIMIC-III 이란?

  • MIMIC-III의 약자 = Medical Information Mart for Intensive Care III
  • Beth Israel Deaconess Medical Center 중환자실에서 발생한 데이터를 MIT에서 정리하고 개발
  • 2001년부터 2012년까지 약 4만 명 이상의 비식별 보건의료 데이터를 포함
    • 중환자실에 머물렀던(ICU Stays, Intensive Care Unit Stays) 총 61,532명의 환자
      • 성인 53,432명 + 영아 8,100명
    • 인구통계학(demographics), 활력 징후(vital sign), 실험실 결과, 처방전, 간병인 메모, 이미지 기록, 사망 여부 등의 데이터를 포함




2. MIMIC-III 데이터 접근 방법

다음의 과정을 거쳐 MIMIC-III 데이터를 접근할 수 있습니다. 환자의 개인 보건의료 데이터다 보니 조금은(?) 복잡한 과정으로 데이터에 접근할 수 있습니다.


1) 특정 훈련 과정을 이수

  • MIMIC 데이터 접근을 요청하기 이전에, CITI 과정을 이수해야 함
  • https://www.citiprogram.org/index.cfm?pageID=14으로 접속해서 진행
    • CITI 프로그램에서 소속 기관(affiliation)을 “Massachusetts Institute of Technology Affiliates”로 설정
    • Human Subjects training 카테고리에서, "Data or Specimens Only Research" 과정을 선택
    • MITA가 제공하는 CITI 프로그램 과정에 들어가 공부를 시작…
      • 총 9개의 영역에 대해 공부하고 각 영역마다 3~5개 퀴즈를 풀어야 함
      • 교육 내용이 굉장히 유익하나… 빠른 데이터 접근을 위해서 찍고 재제출하는 방식으로 퀴즈를 풀기
      • 보건의료 데이터와 그에 대한 연구에 초점이 맞춰져 있음
      • 마지막 영역에 대한 퀴즈를 제출하면, 전체 영역 퀴즈 점수 변경 불가
      • 일정 수준이 넘어야 통과할 수 있음
    • 교육을 이수하면, Completion ReportCompletion Certificate를 받을 수 있음


2) MIMIC-III 접근 요청

  • PhysioNet에 가입 후 로그인
  • MIMIC-III 프로젝트 페이지로 이동
  • “Files” 영역으로 이동하여 접근권한 요청을 시도
    • 이수 후 받은 CITI completion report 를 제출
  • 시간이 조금 걸릴 수 있고, 메일로 접근 권한 부여받았다고 메일 받음


3) 접근 시 주의사항

  • 학생이거나 박사과정일 경우, 지도자의 이름과 연락처를 “reference” 영역에 적어서 제출해야 함
  • CITI completeion report를 제출 시에는, “Data or Specimens Only Research” 과정에 해당하는 pdf 파일을 업로드할 것




3. MIMIC-III 데이터 구성

기초 테이블 확인


스키마 확인


쿼리 빌더 (Query Builder)


데이터 관리 소프트웨어 변경

  • Beth Israel Deaconess Medical Center에서 데이터 관리 소프트웨어를 2008년에 변경했음
    • 2001-2008년도까지는 Philips의 CareVue
    • 2008-2012년도까지는 iMDSoft의 MetaVision
  • 기존 MIMIC-II가 기존 2008년까지 CareVue에 의해 수집된 데이터
  • 새로운 MIMIC-III는 MetaVision으로부터 수집된 새로운 데이터까지 이에 추가함
  • 따라서, 여러 통합 규칙에 의해 테이블을 합치는 작업이 어려웠다고 함


중요한 테이블 간략 소개

  • ADMISSIONS
    • 환자의 병원 출입 관련 데이터
    • 환자 ID(SUBJECT_ID), 병원출입 ID(HADM_ID)
      • 한 명의 환자가 여러 번의 병원 출입 기록이 있을 수 있음
      • 환자 정보를 확인하기 위해 PATIENTS 테이블과 SUBJECT_ID로 조인 가능
    • 입원시각(ADMITTIME), 퇴원시각(DISCHTIME), 사망시각(DEATHTIME)
    • 진단기록(DIAGNOSIS)
      • 입원시 환자 상태에 대한 정보를 제공
      • 환자의 최종 진단은 DIAGNOSES_ICD로 확인 가능
    • HOSPITAL_EXPIRE_FLAG
      • 병원에서 사망시 1, 퇴원시 0
  • CHARTEVENTS
    • 환자들에 대한 모든 차트형 데이터를 포함
    • ICU에 머무르며, 환자의 routine한 정보를 제공
      • 가장 건수가 많고, 파일 사이즈도 가장 큼
  • ICUSTAYS
    • 중환자실 입실 관련 데이터
    • LOS(Length of Stay)가 포함되어 있음
  • PATIENTS
    • 각 환자에 대한 인구통계학적 데이터
    • HIPAA(미국 의료 정보 보호법)의에 의해 특정 정보 비식별화되어 있음




4. MIMIC-III 데이터로 할 수 있는 TASK 예시

Benchmark of Deep Learning Models on Large Healthcare MIMIC Datasets에 Benchmarking Experiments 부분을 정리 및 요약하여 작성했습니다.


사망자 예측(Mortality Prediction Task)

  • 병원에서 사망 했는지(1), 사망하지 않았는지(0)의 binary classifciation 문제
  • 상황에 따라 여러가지 문제로 더 세분화할 수 있음
    • In-hospital mortality prediction
      • 중환자실에 입원 후, 입원하는 동안 환자가 사망하는지 여부를 예측
    • Short-term mortality predcition
      • 중환자실에 입원 후, 단기간 내에 사망이 발생하는지 여부를 예측
        • 처음 24시간의 데이터를 통해 2일/3일 차 내에 사망하는지 여부
        • 처음 48시간의 데이터를 통해 3일 차 내에 사망하는지 여부
    • Long-term mortality prediction
      • 퇴원 후, 오랜 시간이 흐른 뒤에 사망이 발생하는지 여부를 예측
      • 퇴원 후 30일/1년 내 사망하는지 여부를 예측
      • 예측을 위해 처음 24시간/48시간의 데이터만을 이용


ICD-9 코드 그룹 예측(ICD-9 Code Group Prediction)

  • ICD-9 Code Group은 국제질병분류로 나뉘는 그룹을 의미
    • 예시) 140-239는 종양에 해당
  • 각 병원 출입건때마다 ICD-9 진단 코드 그룹을 예측함
  • 총 20개의 그룹을 예측하는 multi-task prediction으로 볼 수 있음


입원기간 예측(Length of Stay Prediction)

  • 각 환자마다 얼마나 병원에 머물러 있는가를 예측
    • ex) LOS를 환자마다 총 hospital stay를 다 더한 것으로 정의
  • regression problem으로 해석할 수 있음




5. 기타 참고 자료




Updated Jul 19, 2020 2020-07-19T15:54:52+09:00
This post is licensed under CC BY 4.0