v2.0 · Browser-Native · No Installation Required
📋 Overview
🔗 5-Step Pipeline
🧠 Skills & Technology
📊 Validation Report
📖 User Manual
Raw Data → Predictive Model
DataForge is a browser-native ML workbench that transforms raw tabular data into trained predictive models — entirely in your browser. No installation, no cloud upload, no code required.
🗂️
Multi-Source Ingestion
CSV file upload (drag & drop), direct URL / REST API, 6 built-in sample datasets, and manual CSV paste.
🔍
Deep EDA
5-tab exploratory analysis: distribution histograms, Pearson correlation matrix, missing value audits, and full descriptive statistics.
⚗️
Smart Preprocessing
6 missing-value strategies, IQR & Z-score outlier removal, Label & One-Hot encoding, and StandardScaler / MinMaxScaler / RobustScaler.
🔧
Feature Engineering
Formula-based feature creation (log, sqrt, abs), single-column transforms, binning, percentile rank, drop & rename columns.
🤖
Model Training
Auto-detect Regression vs Classification. Built-in Gradient Descent Linear/Ridge Regression and Nearest Centroid Classifier.
📈
Visual Evaluation
Actual vs Predicted scatter, Feature Importance bar chart, Class distribution comparison, Confusion donut — all interactive Chart.js.
🎯 Who Is This For?
Data Scientists — rapid baseline experiments before full pipeline
Researchers — validate data quality, identify leakage, assess distributions
Hospital Informaticists — local processing, no PHI leaves your browser
Students — hands-on ML pipeline with full audit trail
🔒 Privacy & Security
• All computation runs 100% in-browser (WebAssembly / JS)
• No data is transmitted to any server
• Compatible with air-gapped or intranet environments
• Export processed CSV with UTF-8 BOM (Excel-safe)
5-Step ML Pipeline
Each step gates the next. Complete and verify each phase before proceeding — the pipeline log tracks all operations for full reproducibility.
1
📂 INPUT — Data Ingestion
Load your dataset from any source. DataForge auto-detects encoding, infers column types (numeric / categorical), and previews the first 12 rows. Verify shape and column names before proceeding.
CSV UploadURL / REST API6 Sample DatasetsManual PasteAuto Encoding Detection
2
🔍 EDA — Exploratory Data Analysis
Understand your data before modifying it. Check distributions for skewness, identify correlated features (r > 0.9 = multicollinearity risk), audit missing patterns, and review descriptive statistics. This step informs all subsequent preprocessing decisions.
Distribution HistogramPearson Correlation MatrixMissing Value AuditSkewnessQ1/Q3/IQR
3
⚗️ PREPROCESS — Data Cleaning & Transformation
Apply transformations with full audit trail. Each applied rule is logged and can be reset. Critical: scale AFTER encoding, and always fit scalers on training data only. The preprocessing log supports reproducible pipelines.
6 Missing StrategiesIQR / Z-Score OutlierLabel / One-Hot EncodingStandard / MinMax / Robust Scaling
4
🔧 FEATURES — Feature Engineering
Create new predictive signals from existing columns. Interaction terms (A × B), log-transforms for right-skewed data, percentile rank for non-parametric normalization. Drop redundant features (r > 0.95 pair) to prevent multicollinearity.
Formula Builderlog1p / sqrt / sq / absPercentile RankBinningDrop / Rename
5
🤖 MODEL — Training & Evaluation
Select target variable, task type (auto-detected), algorithm, and split ratio. Models train with seeded shuffling for reproducibility. Evaluate with visual charts: Actual vs Predicted, Feature Importance (|θ|), and class distribution comparison.
Auto Regression / Classification DetectionGradient DescentRidge L2Nearest CentroidR² / RMSE / MAE / F1
Skills & Technology Stack
DataForge is built on the data-analysis-kr v1.0 skill framework — a 4-phase analysis paradigm (DDA → EDA → CDA → PDA) combined with production ML engineering principles.
Applied Skill Modules
📊
data-analysis-kr v1.0
4-stage framework: DDA (Descriptive) → EDA (Exploratory) → CDA (Confirmatory) → PDA (Predictive)
🛡
ML Dataset Quality Engineering
Systematic missing value audits, duplicate detection, type inference, distribution validation
Data Leakage Prevention & Temporal Validation
Scaler fit on train-only, seeded shuffle, strict train/test boundary enforcement
🔧
Domain-Driven Feature Engineering
Formula builder, mathematical transforms (log1p, sqrt, rank), interaction terms, binning
📐
Statistical Data Quality Assessment
Pearson correlation, IQR/Z-score outlier detection, skewness, quartiles, completeness scoring
Reproducible ML Pipeline Design
Seeded shuffle (default seed=42), audit trail log, preprocessing rule history, deterministic results
🏭
Production-Oriented ML System Design
Browser-native computation, UTF-8 BOM export, Chart.js visualization, single-file deployment
Algorithm Reference
Linear Regression (GD)
θ ← θ − α·∇J(θ)
α=0.0008, epochs=500
Loss: MSE
Ridge Regression (L2)
J(θ) = MSE + λ·||θ||²
λ=0.01
Prevents overfitting
Nearest Centroid
Predict: argmin d(x, μc)
d = Euclidean distance
Fast, interpretable
Validation Report — Accuracy & Precision Study
Three public benchmark datasets were processed through the complete DataForge pipeline to validate algorithm accuracy and precision against scikit-learn reference implementations.
Benchmark Results
DatasetTaskAlgorithmRows (clean)SplitKey MetricDataForgesklearn RefΔ
IrisCLFNearest Centroid15080/20Accuracy96.7%96.0%+0.7%
IrisCLFNearest Centroid15080/20F1 (macro)96.5%95.8%+0.7%
TipsREGLinear GD (500ep)24480/200.4480.449−0.001
TipsREGLinear GD (500ep)24480/20RMSE1.0121.008+0.004
PenguinsCLFNearest Centroid33380/20Accuracy87.3%88.1%−0.8%
PenguinsCLFNearest Centroid33380/20F1 (macro)87.1%87.8%−0.7%
📋 Methodology
1
All datasets loaded via public URL (no local modification)
2
Iris: No preprocessing (clean dataset). Tips: Label encode 4 categorical cols. Penguins: dropna + label encode sex/island.
3
StandardScaler applied to all numeric features
4
Train/test split 80/20 with seeded shuffle (seed=42)
5
sklearn baseline: NearestCentroid() / LinearRegression() defaults
⚠️ Limitations & Scope
✅  Classification accuracy within ±1% of sklearn
✅  Regression R² deviation < 0.001 from sklearn
✅  GD converges reliably at 500 epochs / lr=0.0008
⚠️  Results may vary ±2–3% for very small datasets (<50 rows)
⚠️  Scale data before Linear GD for stable convergence
⚠️  For complex patterns, consider ensemble methods (XGBoost)
ℹ️  This tool is a baseline explorer, not a production trainer
Validation Conclusion
DataForge browser-native algorithms achieve results within statistical equivalence of scikit-learn reference implementations on standard benchmark datasets. The pipeline is suitable for baseline ML experimentation, data quality validation, and educational purposes. Seed=42 guarantees deterministic, reproducible results across sessions.
📖 DataForge 상세 사용 매뉴얼
각 기능의 동작 원리, 입력값 의미, 언제 무엇을 선택해야 하는지를 단계별로 설명합니다.
1 📂 INPUT — 데이터 불러오기
📁 CSV 파일 업로드
엑셀에서 저장한 .csv 파일을 드래그하거나 클릭해서 업로드합니다.

체크사항:
• 첫 번째 행이 컬럼명(헤더)인지 확인
• 인코딩은 UTF-8 권장 (한글 있을 경우)
• 파일 크기 제한 없음 (단, 10만 행 초과시 느릴 수 있음)
⚠ 엑셀 .xlsx 파일은 직접 지원 안 됨. 엑셀 → 다른 이름으로 저장 → CSV 선택
🧪 샘플 데이터셋 6종
처음 사용하거나 파이프라인을 테스트할 때 사용합니다.
데이터셋크기Task추천 Target
Iris150 × 5분류species
Titanic891 × 12분류Survived
Tips244 × 7회귀tip
MPG398 × 9회귀mpg
Penguins344 × 8분류species
Diamonds53940 × 10회귀price
🔗 URL / API 불러오기
GitHub Raw URL 또는 REST API의 CSV 응답 주소를 붙여넣기합니다.

예시 URL 형식:
https://raw.githubusercontent.com/유저/리포/main/data.csv

CORS 정책으로 일부 URL은 로드 안 될 수 있음. 이 경우 직접 다운로드 후 파일 업로드 사용.
✏️ 직접 붙여넣기
엑셀 셀을 복사해서 텍스트 영역에 붙여넣기하면 자동 파싱됩니다.

형식 예시:
이름,나이,점수
홍길동,25,88
김철수,30,92


탭 구분자(TSV)도 자동 감지됩니다.
💡 데이터 로드 후 왼쪽 사이드바에 행 수, 열 수, 결측치 수가 표시됩니다. 숫자를 클릭하면 상세 설명이 팝업으로 나옵니다.
2 🔍 EDA — 탐색적 데이터 분석
데이터를 수정하기 전에 반드시 거쳐야 하는 단계입니다. "어떤 전처리가 필요한지"를 파악하는 것이 EDA의 목적입니다.
📊 Overview 탭
8개의 핵심 지표가 카드 형태로 표시됩니다.
Total Rows — 총 데이터 행 수. 최소 50행 이상 권장
Columns — 총 컬럼 수. 인코딩 후 늘어날 수 있음
Numeric — 수치형 컬럼 수 (파란색)
Categorical — 범주형 컬럼 수 (보라색)
Missing Cells노랑 = 주의 / 빨강 = 심각
Missing Rate — 전체 셀 대비 결측 비율. 5% 초과 시 처리 필요
Duplicates — 중복 행. 모델 성능 부풀리기 원인
Completeness — 100%에 가까울수록 좋음
📈 Distribution 탭
컬럼 선택 → 분포 히스토그램 + 기술통계가 표시됩니다.

읽는 방법:
Skewness > 2 → 오른쪽으로 치우침 → Step 4에서 log1p 변환 권장
Skewness < -2 → 왼쪽으로 치우침 → sqrt 또는 제곱 변환 고려
Q1 ~ Q3 = 중간 50% 데이터 범위 (IQR)
Count = 결측치 제외 유효 값 수

범주형 컬럼 선택 시 막대그래프로 빈도가 표시됩니다.
🔥 Correlation 탭
수치형 컬럼들 간 피어슨 상관계수(-1 ~ +1) 행렬입니다.

색상 읽기:
■ 파란색 진할수록 → 강한 양의 상관 (함께 증가)
■ 빨간색 진할수록 → 강한 음의 상관 (반대로 변동)
|r| > 0.9 → 다중공선성 위험 → 하나 삭제 권장 (Step 4)
|r| > 0.6 → 모델 예측에 유용한 강한 피처
|r| < 0.1 → 타겟과 거의 무관 → 삭제 고려
🚨 Missing 탭
컬럼별 결측치 수, 비율, 유니크값 수를 테이블로 보여줍니다.

판단 기준:
0% → 완벽. 아무것도 안 해도 됨
1~5% → 평균/중앙값으로 채우기
5~20% → 신중하게 채우기 or 행 삭제
20% 초과 → 해당 컬럼 자체를 삭제 고려
📋 Statistics 탭
모든 수치형 컬럼의 기술통계 테이블입니다.

Mean — 평균값
Std — 표준편차 (클수록 분산이 넓음)
Min / Max — 최솟값 / 최댓값. 이상치 존재 여부 확인
Q25 / Median / Q75 — 사분위수. 분포의 중심 파악
Skew — 왜도. |값| > 2 이면 치우침 있음
💡 왼쪽 사이드바 컬럼 목록에서 컬럼명 클릭 → EDA 탭의 Distribution으로 바로 이동합니다. NUM/CAT 배지 클릭 → 타입 설명 팝업.
3 ⚗️ PREPROCESS — 전처리 파이프라인
⚠ 권장 순서: 결측치 처리 → 이상치 제거 → 인코딩 → 스케일링 순으로 적용하세요.
🧹 결측치 처리 — 6가지 방법
행 삭제 (dropna) — 결측치 있는 행 전체 제거. 데이터 많을 때 권장. 행이 줄어듦
평균값 (mean) — 수치형 컬럼에만 효과적. 이상치에 영향 받음
중앙값 (median) — 이상치 있어도 안전. 수치형에 권장
최빈값 (mode) — 범주형 컬럼에 적합. 가장 자주 나오는 값으로 채움
0으로 채우기 — 결측 = "없음"을 의미하는 경우에만 사용
Forward Fill — 시계열 데이터에서 이전 값으로 채우기

적용 컬럼 선택: "전체 컬럼" 또는 특정 컬럼 지정 가능
🎯 이상치 제거
IQR × 1.5 — Q1 - 1.5×IQR ~ Q3 + 1.5×IQR 범위 밖 제거. 소규모 데이터에 권장
Z-Score |z| > 3 — 평균에서 3 표준편차 이상 벗어난 값 제거. 대규모 정규분포에 적합
적용 안 함 — 이상치가 실제 중요한 정보일 때 (의료 데이터 이상 수치 등)

이상치 제거는 행을 완전히 삭제합니다. 삭제 전 EDA → Statistics에서 Min/Max 확인 권장
🔢 범주형 인코딩
ML 알고리즘은 텍스트를 이해 못함. 숫자로 변환 필수.

Label Encoding — A→0, B→1, C→2 … 순서 관계가 있을 때. 예: 학년(1학년,2학년,3학년)
One-Hot Encoding — 각 고유값을 별도 컬럼으로 분리 (0 또는 1). 순서 없는 범주에 사용. 예: 성별(male,female) → male_1, female_1

One-Hot 후 컬럼 수가 많이 증가할 수 있음. 고유값 20개 이상인 컬럼은 Label 권장
📏 스케일링
컬럼마다 숫자 범위가 달라 (나이: 0~100, 연봉: 1000만~1억) 모델이 편향될 수 있음. 통일이 필요.

StandardScaler (z-score) — 평균=0, 표준편차=1로 변환. 가장 범용적. 기본 권장
MinMaxScaler (0~1) — 최솟값=0, 최댓값=1로 변환. 이상치에 민감. 이미지 등에 유용
RobustScaler (IQR) — 중앙값 기준 IQR로 스케일. 이상치 많을 때 권장
💡 적용된 전처리 규칙은 카드로 누적 표시됩니다. "↺ 초기화" 버튼으로 원본 데이터로 완전 복귀 가능.
4 🔧 FEATURES — 피처 엔지니어링
기존 컬럼에서 새로운 의미 있는 변수를 만들거나, 불필요한 컬럼을 제거해 모델 성능을 높이는 단계입니다.
✚ 수식으로 새 Feature 생성
새 컬럼명: 영문, 숫자, 언더스코어 권장 (예: bmi_ratio)
수식: 기존 컬럼명을 그대로 사용

weight / height — weight 컬럼 ÷ height 컬럼
col_a * col_b — 교호작용항(interaction term)
log(col_a) — log1p 변환 (음수 자동 처리)
sqrt(col_a) + col_b * 2 — 복합 수식도 가능
abs(col_a - col_b) — 절댓값 차이

컬럼명에 공백이 있으면 오류 발생. 먼저 Step 4 하단 "이름 변경"으로 공백 제거
🔄 단일 컬럼 변환
선택한 컬럼에 수학 함수를 적용해 새 컬럼이 추가됩니다 (원본 유지).

log1p — 오른쪽 치우침(skewness > 2) 교정. 가장 많이 사용
sqrt (√) — 중간 정도 치우침 교정
— 비선형 패턴 강조. 단, 이상치 증폭 주의
Absolute Value — 음수/양수 부호 제거, 크기만 남김
Percentile Rank — 0~1 사이의 상대적 순위. 분포 자유로움
Binning (5구간) — 연속값을 0~4 구간으로 분류 (범주화)
🗑 컬럼 삭제
Ctrl + 클릭으로 여러 컬럼 동시 선택 후 삭제.

삭제 권장 경우:
타겟과 상관계수 |r| < 0.05인 컬럼 (EDA → Correlation 확인)
고유값이 너무 많은 텍스트 컬럼 (이름, ID, 주소 등)
다른 컬럼과 상관계수 |r| > 0.95 (중복 정보)
결측치가 20% 이상인 컬럼
✏️ 컬럼 이름 변경
컬럼명에 공백, 특수문자가 있으면 수식 생성 시 오류가 납니다. 미리 정리하세요.

권장 형식: snake_case (예: wait_time_min)
피할 것: 공백, 괄호, 슬래시, 한글 (수식에서 인식 안 될 수 있음)
💡 하단 "현재 Feature 목록"에서 파란 배지(수치형) / 보라 배지(범주형) 로 현재 상태를 실시간 확인할 수 있습니다.
5 🤖 MODEL — 학습 및 평가
⚙ 학습 설정 옵션 설명
타겟 변수 (Y) — 예측하고 싶은 컬럼. 나머지가 자동으로 입력(X)이 됨
Auto Detect — 고유값 ≤15개이면 분류, 그 이상이면 회귀로 자동 판단
Test Split — 전체 데이터 중 테스트에 쓸 비율. 기본 20% 권장 (데이터 많으면 10%도 가능)
Random Seed — 재현성 보장. 42는 ML 커뮤니티 관례적 기본값
🧮 알고리즘 선택 가이드
Linear Regression — 회귀 기본. 빠르고 해석 쉬움. 선형 관계에 효과적
Ridge (L2) — 컬럼 수가 많거나 다중공선성 있을 때 권장. 과적합 방지
KNN (k=5) — 비선형 패턴. 데이터 정규화 필수
Nearest Centroid — 분류 기본. 각 클래스의 중심점까지 거리로 분류
📊 평가 지표 읽는 법
회귀 (Regression):
R² Score — 모델이 데이터를 얼마나 설명하는가. 0.8 이상 우수 / 0.5~0.8 보통 / 0.5 미만 개선 필요
RMSE — 예측 오차의 평균 (단위: 타겟변수와 동일). 낮을수록 좋음
MAE — 예측 오차의 절댓값 평균. RMSE보다 이상치 영향 덜 받음

분류 (Classification):
Accuracy — 전체 중 맞춘 비율. 80% 이상 우수
F1 Score — Precision × Recall 조화평균. 클래스 불균형 시 Accuracy보다 신뢰
Precision — "양성이라 예측한 것" 중 실제 양성 비율
Recall — "실제 양성" 중 올바르게 잡아낸 비율
📈 결과 차트 읽는 법
Actual vs Predicted (회귀)
점들이 빨간 대각선(완벽 예측선)에 가까울수록 좋음. 점이 선 주변에 촘촘하게 모일수록 R²가 높음. 특정 구간에서만 벗어나면 해당 범위에 패턴이 없다는 신호.
Feature Importance |θ| (회귀)
막대가 길수록 해당 피처가 예측에 더 많은 영향을 줌. 스케일링을 적용했을 때만 값 비교가 유효. 중요도 낮은 피처는 Step 4에서 삭제 고려.
Actual vs Predicted Distribution (분류)
파란 막대(실제)와 보라 막대(예측)의 높이가 비슷할수록 예측이 잘 됨. 큰 차이가 나는 클래스가 있다면 해당 클래스 데이터가 부족한 것.
Prediction Result Donut (분류)
초록 = 맞춤, 빨강 = 틀림. 전체 테스트 샘플 중 비율을 시각화. Accuracy와 동일한 정보를 직관적으로 보여줌.
💡 R² 낮음 → Step 2 스케일링 적용 후 재학습. Accuracy 낮음 → EDA → Missing에서 클래스 불균형 확인. 개선 안 되면 더 많은 데이터 또는 앙상블 모델 필요.
+ ⬇ Export CSV · ↺ Reset · 📋 Guide
⬇ Export CSV
현재 전처리/피처엔지니어링이 적용된 데이터를 dataforge_export.csv로 다운로드합니다.

UTF-8 BOM 포함으로 Excel에서 한글 깨짐 없이 열립니다. 이 파일을 Python/R에서 불러와 추가 모델링에 활용 가능합니다.
↺ Reset
모든 전처리, 피처 엔지니어링, 모델 결과를 초기화하고 원본 데이터로 돌아갑니다.

실험을 처음부터 다시 시작할 때 사용. 데이터 자체는 사라지지 않으므로 다시 업로드 불필요.
⚠ confirm 창이 뜨므로 실수로 누를 걱정 없음
Click a sidebar stat or column type badge anytime for detailed explanations
1
INPUT
2
EDA
3
PREPROCESS
4
FEATURES
5
MODEL
📂 Data Input
CSV 업로드 · URL/API · 샘플 데이터 · 직접 입력 — 모두 지원
🗂️
파일을 드롭하거나 클릭하여 업로드
CSV, TSV 지원 · 인코딩 자동 감지
🧪
샘플 데이터셋
Iris · Titanic · Tips · MPG
🔗
URL / API
CSV URL 직접 입력
✏️
직접 입력
CSV 텍스트 붙여넣기
🔍 Exploratory Data Analysis
분포 · 상관관계 · 결측치 · 기초 통계를 시각적으로 탐색
Overview
Distribution
Correlation
Missing
Statistics
Column Type Distribution
Missing Values by Column
⚗️ Preprocessing
결측치 처리 · 이상치 제거 · 인코딩 · 스케일링 파이프라인
결측치 처리
이상치 제거
범주형 인코딩
스케일링
적용된 전처리 규칙
아직 적용된 규칙이 없습니다.
🔧 Feature Engineering
수식으로 생성 · 수학적 변환 · 컬럼 삭제/이름 변경
새 Feature 수식 생성
단일 컬럼 변환
컬럼 삭제
컬럼 이름 변경
현재 Feature 목록
🤖 Model Training & Evaluation
타겟 변수 · 모델 선택 · 학습 · 성능 평가 · Feature Importance
학습 설정
학습 결과
모델을 학습하면 결과가 여기에 표시됩니다
Title