DataForge — ML Workbench

Dataset	Task	Algorithm	Rows (clean)	Split	Key Metric	DataForge	sklearn Ref	Δ
Iris	CLF	Nearest Centroid	150	80/20	Accuracy	96.7%	96.0%	+0.7%
Iris	CLF	Nearest Centroid	150	80/20	F1 (macro)	96.5%	95.8%	+0.7%
Tips	REG	Linear GD (500ep)	244	80/20	R²	0.448	0.449	−0.001
Tips	REG	Linear GD (500ep)	244	80/20	RMSE	1.012	1.008	+0.004
Penguins	CLF	Nearest Centroid	333	80/20	Accuracy	87.3%	88.1%	−0.8%
Penguins	CLF	Nearest Centroid	333	80/20	F1 (macro)	87.1%	87.8%	−0.7%

1 📂 INPUT — 데이터 불러오기 ▾

📁 CSV 파일 업로드

엑셀에서 저장한 .csv 파일을 드래그하거나 클릭해서 업로드합니다.

체크사항:
• 첫 번째 행이 컬럼명(헤더)인지 확인
• 인코딩은 UTF-8 권장 (한글 있을 경우)
• 파일 크기 제한 없음 (단, 10만 행 초과시 느릴 수 있음)

⚠ 엑셀 .xlsx 파일은 직접 지원 안 됨. 엑셀 → 다른 이름으로 저장 → CSV 선택

🧪 샘플 데이터셋 6종

처음 사용하거나 파이프라인을 테스트할 때 사용합니다.

데이터셋	크기	Task	추천 Target
Iris	150 × 5	분류	species
Titanic	891 × 12	분류	Survived
Tips	244 × 7	회귀	tip
MPG	398 × 9	회귀	mpg
Penguins	344 × 8	분류	species
Diamonds	53940 × 10	회귀	price

🔗 URL / API 불러오기

GitHub Raw URL 또는 REST API의 CSV 응답 주소를 붙여넣기합니다.

예시 URL 형식:
https://raw.githubusercontent.com/유저/리포/main/data.csv

CORS 정책으로 일부 URL은 로드 안 될 수 있음. 이 경우 직접 다운로드 후 파일 업로드 사용.

✏️ 직접 붙여넣기

엑셀 셀을 복사해서 텍스트 영역에 붙여넣기하면 자동 파싱됩니다.

형식 예시:

이름,나이,점수
홍길동,25,88
김철수,30,92

탭 구분자(TSV)도 자동 감지됩니다.

💡 데이터 로드 후 왼쪽 사이드바에 행 수, 열 수, 결측치 수가 표시됩니다. 숫자를 클릭하면 상세 설명이 팝업으로 나옵니다.

2 🔍 EDA — 탐색적 데이터 분석 ▾

데이터를 수정하기 전에 반드시 거쳐야 하는 단계입니다. "어떤 전처리가 필요한지"를 파악하는 것이 EDA의 목적입니다.

📊 Overview 탭

8개의 핵심 지표가 카드 형태로 표시됩니다.

Total Rows — 총 데이터 행 수. 최소 50행 이상 권장

Columns — 총 컬럼 수. 인코딩 후 늘어날 수 있음

Numeric — 수치형 컬럼 수 (파란색)

Categorical — 범주형 컬럼 수 (보라색)

Missing Cells — 노랑 = 주의 / 빨강 = 심각

Missing Rate — 전체 셀 대비 결측 비율. 5% 초과 시 처리 필요

Duplicates — 중복 행. 모델 성능 부풀리기 원인

Completeness — 100%에 가까울수록 좋음

📈 Distribution 탭

컬럼 선택 → 분포 히스토그램 + 기술통계가 표시됩니다.

읽는 방법:

Skewness > 2 → 오른쪽으로 치우침 → Step 4에서 log1p 변환 권장

Skewness < -2 → 왼쪽으로 치우침 → sqrt 또는 제곱 변환 고려

Q1 ~ Q3 = 중간 50% 데이터 범위 (IQR)

Count = 결측치 제외 유효 값 수

범주형 컬럼 선택 시 막대그래프로 빈도가 표시됩니다.

🔥 Correlation 탭

수치형 컬럼들 간 피어슨 상관계수(-1 ~ +1) 행렬입니다.

색상 읽기:

■ 파란색 진할수록 → 강한 양의 상관 (함께 증가)

■ 빨간색 진할수록 → 강한 음의 상관 (반대로 변동)

|r| > 0.9 → 다중공선성 위험 → 하나 삭제 권장 (Step 4)

|r| > 0.6 → 모델 예측에 유용한 강한 피처

|r| < 0.1 → 타겟과 거의 무관 → 삭제 고려

🚨 Missing 탭

컬럼별 결측치 수, 비율, 유니크값 수를 테이블로 보여줍니다.

판단 기준:

0% → 완벽. 아무것도 안 해도 됨

1~5% → 평균/중앙값으로 채우기

5~20% → 신중하게 채우기 or 행 삭제

20% 초과 → 해당 컬럼 자체를 삭제 고려

📋 Statistics 탭

모든 수치형 컬럼의 기술통계 테이블입니다.

Mean — 평균값

Std — 표준편차 (클수록 분산이 넓음)

Min / Max — 최솟값 / 최댓값. 이상치 존재 여부 확인

Q25 / Median / Q75 — 사분위수. 분포의 중심 파악

Skew — 왜도. |값| > 2 이면 치우침 있음

💡 왼쪽 사이드바 컬럼 목록에서 컬럼명 클릭 → EDA 탭의 Distribution으로 바로 이동합니다. NUM/CAT 배지 클릭 → 타입 설명 팝업.

3 ⚗️ PREPROCESS — 전처리 파이프라인 ▾

⚠ 권장 순서: 결측치 처리 → 이상치 제거 → 인코딩 → 스케일링 순으로 적용하세요.

🧹 결측치 처리 — 6가지 방법

행 삭제 (dropna) — 결측치 있는 행 전체 제거. 데이터 많을 때 권장. 행이 줄어듦

평균값 (mean) — 수치형 컬럼에만 효과적. 이상치에 영향 받음

중앙값 (median) — 이상치 있어도 안전. 수치형에 권장

최빈값 (mode) — 범주형 컬럼에 적합. 가장 자주 나오는 값으로 채움

0으로 채우기 — 결측 = "없음"을 의미하는 경우에만 사용

Forward Fill — 시계열 데이터에서 이전 값으로 채우기

적용 컬럼 선택: "전체 컬럼" 또는 특정 컬럼 지정 가능

🎯 이상치 제거

IQR × 1.5 — Q1 - 1.5×IQR ~ Q3 + 1.5×IQR 범위 밖 제거. 소규모 데이터에 권장

Z-Score |z| > 3 — 평균에서 3 표준편차 이상 벗어난 값 제거. 대규모 정규분포에 적합

적용 안 함 — 이상치가 실제 중요한 정보일 때 (의료 데이터 이상 수치 등)

이상치 제거는 행을 완전히 삭제합니다. 삭제 전 EDA → Statistics에서 Min/Max 확인 권장

🔢 범주형 인코딩

ML 알고리즘은 텍스트를 이해 못함. 숫자로 변환 필수.

Label Encoding — A→0, B→1, C→2 … 순서 관계가 있을 때. 예: 학년(1학년,2학년,3학년)

One-Hot Encoding — 각 고유값을 별도 컬럼으로 분리 (0 또는 1). 순서 없는 범주에 사용. 예: 성별(male,female) → male_1, female_1

One-Hot 후 컬럼 수가 많이 증가할 수 있음. 고유값 20개 이상인 컬럼은 Label 권장

📏 스케일링

컬럼마다 숫자 범위가 달라 (나이: 0~100, 연봉: 1000만~1억) 모델이 편향될 수 있음. 통일이 필요.

StandardScaler (z-score) — 평균=0, 표준편차=1로 변환. 가장 범용적. 기본 권장

MinMaxScaler (0~1) — 최솟값=0, 최댓값=1로 변환. 이상치에 민감. 이미지 등에 유용

RobustScaler (IQR) — 중앙값 기준 IQR로 스케일. 이상치 많을 때 권장

💡 적용된 전처리 규칙은 카드로 누적 표시됩니다. "↺ 초기화" 버튼으로 원본 데이터로 완전 복귀 가능.

4 🔧 FEATURES — 피처 엔지니어링 ▾

기존 컬럼에서 새로운 의미 있는 변수를 만들거나, 불필요한 컬럼을 제거해 모델 성능을 높이는 단계입니다.

✚ 수식으로 새 Feature 생성

새 컬럼명: 영문, 숫자, 언더스코어 권장 (예: bmi_ratio)
수식: 기존 컬럼명을 그대로 사용

weight / height — weight 컬럼 ÷ height 컬럼

col_a * col_b — 교호작용항(interaction term)

log(col_a) — log1p 변환 (음수 자동 처리)

sqrt(col_a) + col_b * 2 — 복합 수식도 가능

abs(col_a - col_b) — 절댓값 차이

컬럼명에 공백이 있으면 오류 발생. 먼저 Step 4 하단 "이름 변경"으로 공백 제거

🔄 단일 컬럼 변환

선택한 컬럼에 수학 함수를 적용해 새 컬럼이 추가됩니다 (원본 유지).

log1p — 오른쪽 치우침(skewness > 2) 교정. 가장 많이 사용

sqrt (√) — 중간 정도 치우침 교정

x² — 비선형 패턴 강조. 단, 이상치 증폭 주의

Absolute Value — 음수/양수 부호 제거, 크기만 남김

Percentile Rank — 0~1 사이의 상대적 순위. 분포 자유로움

Binning (5구간) — 연속값을 0~4 구간으로 분류 (범주화)

🗑 컬럼 삭제

Ctrl + 클릭으로 여러 컬럼 동시 선택 후 삭제.

삭제 권장 경우:

타겟과 상관계수 |r| < 0.05인 컬럼 (EDA → Correlation 확인)

고유값이 너무 많은 텍스트 컬럼 (이름, ID, 주소 등)

다른 컬럼과 상관계수 |r| > 0.95 (중복 정보)

결측치가 20% 이상인 컬럼

✏️ 컬럼 이름 변경

컬럼명에 공백, 특수문자가 있으면 수식 생성 시 오류가 납니다. 미리 정리하세요.

권장 형식: snake_case (예: wait_time_min)
피할 것: 공백, 괄호, 슬래시, 한글 (수식에서 인식 안 될 수 있음)

💡 하단 "현재 Feature 목록"에서 파란 배지(수치형) / 보라 배지(범주형) 로 현재 상태를 실시간 확인할 수 있습니다.

5 🤖 MODEL — 학습 및 평가 ▾

⚙ 학습 설정 옵션 설명

타겟 변수 (Y) — 예측하고 싶은 컬럼. 나머지가 자동으로 입력(X)이 됨

Auto Detect — 고유값 ≤15개이면 분류, 그 이상이면 회귀로 자동 판단

Test Split — 전체 데이터 중 테스트에 쓸 비율. 기본 20% 권장 (데이터 많으면 10%도 가능)

Random Seed — 재현성 보장. 42는 ML 커뮤니티 관례적 기본값

🧮 알고리즘 선택 가이드

Linear Regression — 회귀 기본. 빠르고 해석 쉬움. 선형 관계에 효과적

Ridge (L2) — 컬럼 수가 많거나 다중공선성 있을 때 권장. 과적합 방지

KNN (k=5) — 비선형 패턴. 데이터 정규화 필수

Nearest Centroid — 분류 기본. 각 클래스의 중심점까지 거리로 분류

📊 평가 지표 읽는 법

회귀 (Regression):

R² Score — 모델이 데이터를 얼마나 설명하는가. 0.8 이상 우수 / 0.5~0.8 보통 / 0.5 미만 개선 필요

RMSE — 예측 오차의 평균 (단위: 타겟변수와 동일). 낮을수록 좋음

MAE — 예측 오차의 절댓값 평균. RMSE보다 이상치 영향 덜 받음

분류 (Classification):

Accuracy — 전체 중 맞춘 비율. 80% 이상 우수

F1 Score — Precision × Recall 조화평균. 클래스 불균형 시 Accuracy보다 신뢰

Precision — "양성이라 예측한 것" 중 실제 양성 비율

Recall — "실제 양성" 중 올바르게 잡아낸 비율

📈 결과 차트 읽는 법

Actual vs Predicted (회귀)

점들이 빨간 대각선(완벽 예측선)에 가까울수록 좋음. 점이 선 주변에 촘촘하게 모일수록 R²가 높음. 특정 구간에서만 벗어나면 해당 범위에 패턴이 없다는 신호.

Feature Importance |θ| (회귀)

막대가 길수록 해당 피처가 예측에 더 많은 영향을 줌. 스케일링을 적용했을 때만 값 비교가 유효. 중요도 낮은 피처는 Step 4에서 삭제 고려.

Actual vs Predicted Distribution (분류)

파란 막대(실제)와 보라 막대(예측)의 높이가 비슷할수록 예측이 잘 됨. 큰 차이가 나는 클래스가 있다면 해당 클래스 데이터가 부족한 것.

Prediction Result Donut (분류)

초록 = 맞춤, 빨강 = 틀림. 전체 테스트 샘플 중 비율을 시각화. Accuracy와 동일한 정보를 직관적으로 보여줌.

💡 R² 낮음 → Step 2 스케일링 적용 후 재학습. Accuracy 낮음 → EDA → Missing에서 클래스 불균형 확인. 개선 안 되면 더 많은 데이터 또는 앙상블 모델 필요.

+ ⬇ Export CSV · ↺ Reset · 📋 Guide ▾

⬇ Export CSV

현재 전처리/피처엔지니어링이 적용된 데이터를 dataforge_export.csv로 다운로드합니다.

UTF-8 BOM 포함으로 Excel에서 한글 깨짐 없이 열립니다. 이 파일을 Python/R에서 불러와 추가 모델링에 활용 가능합니다.

↺ Reset

모든 전처리, 피처 엔지니어링, 모델 결과를 초기화하고 원본 데이터로 돌아갑니다.

실험을 처음부터 다시 시작할 때 사용. 데이터 자체는 사라지지 않으므로 다시 업로드 불필요.

⚠ confirm 창이 뜨므로 실수로 누를 걱정 없음