본문으로 이동

데이터 전처리

위키백과, 우리 모두의 백과사전.

데이터 전처리(Data preprocessing)는 데이터를 분석하기 전에 데이터를 조작, 필터링 또는 확대하는 것을 의미할 수 있으며[1] 데이터 마이닝 프로세스에서 중요한 단계인 경우가 많다. 데이터 수집 방법은 느슨하게 제어되는 경우가 많으며, 이로 인해 범위를 벗어난 값, 불가능한 데이터 조합, 값 누락 등의 문제가 발생한다.

사용되는 전처리 파이프라인은 다운스트림 분석에서 도출된 결론에 큰 영향을 미칠 수 있는 경우가 많다. 따라서 분석을 실행하기 전에 데이터의 표현과 품질이 필요하다.[2] 데이터 전처리는 기계 학습 프로젝트, 특히 계산생물학에서 가장 중요한 단계인 경우가 많다.[3] 관련성이 없고 중복된 정보가 존재하거나 시끄럽고 신뢰할 수 없는 데이터의 비율이 높으면 훈련 단계에서 지식 발견이 더 어려울 수 있다. 데이터 준비 및 필터링 단계에는 상당한 처리 시간이 걸릴 수 있다. 데이터 전처리에 사용되는 방법의 예로는 정제, 인스턴스 선택, 정규화, 원-핫 인코딩, 데이터 변환, 특징 추출특징 선택이 있다.

각주

[편집]
  1. “Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data”. 《Tableau》 (미국 영어). 2021년 10월 17일에 확인함. 
  2. Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.
  3. Chicco D (December 2017). “Ten quick tips for machine learning in computational biology”. 《BioData Mining》 10 (35): 35. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465. 

외부 링크

[편집]
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy