해당 글은 https://mimic.physionet.org/about/mimic/를 참고하여 정리한 노트입니다.
1. MIMIC-III 이란?
- MIMIC-III의 약자 = Medical Information Mart for Intensive Care III
- Beth Israel Deaconess Medical Center 중환자실에서 발생한 데이터를 MIT에서 정리하고 개발
- 2001년부터 2012년까지 약 4만 명 이상의 비식별 보건의료 데이터를 포함
- 중환자실에 머물렀던(ICU Stays, Intensive Care Unit Stays) 총 61,532명의 환자
- 성인 53,432명 + 영아 8,100명
- 인구통계학(demographics), 활력 징후(vital sign), 실험실 결과, 처방전, 간병인 메모, 이미지 기록, 사망 여부 등의 데이터를 포함
- 중환자실에 머물렀던(ICU Stays, Intensive Care Unit Stays) 총 61,532명의 환자
2. MIMIC-III 데이터 접근 방법
다음의 과정을 거쳐 MIMIC-III 데이터를 접근할 수 있습니다. 환자의 개인 보건의료 데이터다 보니 조금은(?) 복잡한 과정으로 데이터에 접근할 수 있습니다.
1) 특정 훈련 과정을 이수
- MIMIC 데이터 접근을 요청하기 이전에, CITI 과정을 이수해야 함
- https://www.citiprogram.org/index.cfm?pageID=14으로 접속해서 진행
- CITI 프로그램에서 소속 기관(affiliation)을 “Massachusetts Institute of Technology Affiliates”로 설정
- Human Subjects training 카테고리에서, "Data or Specimens Only Research" 과정을 선택
- MITA가 제공하는 CITI 프로그램 과정에 들어가 공부를 시작…
- 총 9개의 영역에 대해 공부하고 각 영역마다 3~5개 퀴즈를 풀어야 함
- 교육 내용이 굉장히 유익하나… 빠른 데이터 접근을 위해서 찍고 재제출하는 방식으로 퀴즈를 풀기
- 보건의료 데이터와 그에 대한 연구에 초점이 맞춰져 있음
- 마지막 영역에 대한 퀴즈를 제출하면, 전체 영역 퀴즈 점수 변경 불가
- 일정 수준이 넘어야 통과할 수 있음
- 교육을 이수하면, Completion Report와 Completion Certificate를 받을 수 있음
2) MIMIC-III 접근 요청
- PhysioNet에 가입 후 로그인
- MIMIC-III 프로젝트 페이지로 이동
- “Files” 영역으로 이동하여 접근권한 요청을 시도
- 이수 후 받은 CITI completion report 를 제출
- 시간이 조금 걸릴 수 있고, 메일로 접근 권한 부여받았다고 메일 받음
3) 접근 시 주의사항
- 학생이거나 박사과정일 경우, 지도자의 이름과 연락처를 “reference” 영역에 적어서 제출해야 함
- CITI completeion report를 제출 시에는, “Data or Specimens Only Research” 과정에 해당하는 pdf 파일을 업로드할 것
3. MIMIC-III 데이터 구성
기초 테이블 확인
스키마 확인
- https://mit-lcp.github.io/mimic-schema-spy/
SchemaSpy
로 생성- MIMIC-III에 대한 스키마를 알 수 있음
쿼리 빌더 (Query Builder)
- https://querybuilder-lcp.mit.edu/login
- 간단한 Postgre SQL 클라이언트
- MIMIC-III에 접근 권한이 있는 경우에만 이용가능
데이터 관리 소프트웨어 변경
- Beth Israel Deaconess Medical Center에서 데이터 관리 소프트웨어를 2008년에 변경했음
- 2001-2008년도까지는 Philips의 CareVue
- 2008-2012년도까지는 iMDSoft의 MetaVision
- 기존 MIMIC-II가 기존 2008년까지 CareVue에 의해 수집된 데이터
- 새로운 MIMIC-III는 MetaVision으로부터 수집된 새로운 데이터까지 이에 추가함
- 따라서, 여러 통합 규칙에 의해 테이블을 합치는 작업이 어려웠다고 함
중요한 테이블 간략 소개
- ADMISSIONS
- 환자의 병원 출입 관련 데이터
- 환자 ID(SUBJECT_ID), 병원출입 ID(HADM_ID)
- 한 명의 환자가 여러 번의 병원 출입 기록이 있을 수 있음
- 환자 정보를 확인하기 위해 PATIENTS 테이블과 SUBJECT_ID로 조인 가능
- 입원시각(ADMITTIME), 퇴원시각(DISCHTIME), 사망시각(DEATHTIME)
- 진단기록(DIAGNOSIS)
- 입원시 환자 상태에 대한 정보를 제공
- 환자의 최종 진단은 DIAGNOSES_ICD로 확인 가능
- HOSPITAL_EXPIRE_FLAG
- 병원에서 사망시 1, 퇴원시 0
- CHARTEVENTS
- 환자들에 대한 모든 차트형 데이터를 포함
- ICU에 머무르며, 환자의 routine한 정보를 제공
- 가장 건수가 많고, 파일 사이즈도 가장 큼
- ICUSTAYS
- 중환자실 입실 관련 데이터
- LOS(Length of Stay)가 포함되어 있음
- PATIENTS
- 각 환자에 대한 인구통계학적 데이터
- HIPAA(미국 의료 정보 보호법)의에 의해 특정 정보 비식별화되어 있음
4. MIMIC-III 데이터로 할 수 있는 TASK 예시
Benchmark of Deep Learning Models on Large Healthcare MIMIC Datasets에 Benchmarking Experiments 부분을 정리 및 요약하여 작성했습니다.
사망자 예측(Mortality Prediction Task)
- 병원에서 사망 했는지(1), 사망하지 않았는지(0)의 binary classifciation 문제
- 상황에 따라 여러가지 문제로 더 세분화할 수 있음
- In-hospital mortality prediction
- 중환자실에 입원 후, 입원하는 동안 환자가 사망하는지 여부를 예측
- Short-term mortality predcition
- 중환자실에 입원 후, 단기간 내에 사망이 발생하는지 여부를 예측
- 처음 24시간의 데이터를 통해 2일/3일 차 내에 사망하는지 여부
- 처음 48시간의 데이터를 통해 3일 차 내에 사망하는지 여부
- 중환자실에 입원 후, 단기간 내에 사망이 발생하는지 여부를 예측
- Long-term mortality prediction
- 퇴원 후, 오랜 시간이 흐른 뒤에 사망이 발생하는지 여부를 예측
- 퇴원 후 30일/1년 내 사망하는지 여부를 예측
- 예측을 위해 처음 24시간/48시간의 데이터만을 이용
- In-hospital mortality prediction
ICD-9 코드 그룹 예측(ICD-9 Code Group Prediction)
- ICD-9 Code Group은 국제질병분류로 나뉘는 그룹을 의미
- 예시) 140-239는 종양에 해당
- 각 병원 출입건때마다 ICD-9 진단 코드 그룹을 예측함
- 총 20개의 그룹을 예측하는 multi-task prediction으로 볼 수 있음
입원기간 예측(Length of Stay Prediction)
- 각 환자마다 얼마나 병원에 머물러 있는가를 예측
- ex) LOS를 환자마다 총 hospital stay를 다 더한 것으로 정의
- regression problem으로 해석할 수 있음