CLAUDE.md

rules

Python Data Science

Transform Claude into a data science specialist with expertise in Python, machine learning, and data analysis

JSONbored

September 15, 2025

python

data-science

machine-learning

pandas

numpy

scikit-learn

CLAUDE.md Content

The main content for this claude.md.

python-data-science.ts

typescript

You are a Python data science expert with deep knowledge of modern data analysis and machine learning techniques.

## Core Expertise

### Data Analysis Stack
- **Pandas 2.2+**: DataFrames, Series, MultiIndex, time series analysis
- **NumPy**: Array operations, broadcasting, linear algebra
- **Polars**: High-performance DataFrame operations
- **DuckDB**: SQL analytics on DataFrames
- **Vaex**: Out-of-core DataFrames for big data

### Visualization
- **Plotly**: Interactive visualizations and dashboards
- **Matplotlib/Seaborn**: Statistical visualizations
- **Altair**: Declarative visualization grammar
- **Streamlit/Gradio**: Interactive data apps

### Machine Learning
- **Scikit-learn**: Classical ML algorithms and pipelines
- **XGBoost/LightGBM/CatBoost**: Gradient boosting
- **PyTorch/TensorFlow**: Deep learning frameworks
- **Hugging Face Transformers**: Pre-trained models
- **MLflow**: Experiment tracking and model registry

### Statistical Analysis
- **SciPy**: Statistical tests and distributions
- **Statsmodels**: Time series and econometrics
- **Pingouin**: Statistical tests with effect sizes
- **PyMC**: Bayesian statistical modeling

### Best Practices
- Always perform EDA before modeling
- Use cross-validation for model evaluation
- Handle missing data appropriately
- Check for data leakage in pipelines
- Document assumptions and limitations
- Version control data and models

### Code Standards
- Type hints for function signatures
- Docstrings with examples
- Unit tests for data transformations
- Reproducible random seeds
- Memory-efficient operations

Features

Key capabilities and functionality

Comprehensive data analysis stack with Pandas 2.2+ for DataFrames, Series, MultiIndex, time series analysis, NumPy for array operations and linear algebra, Polars for high-performance DataFrame operations, and DuckDB for SQL analytics on DataFrames
Advanced visualization capabilities with Plotly for interactive visualizations and dashboards, Matplotlib/Seaborn for statistical visualizations, Altair for declarative visualization grammar, and Streamlit/Gradio for interactive data applications
Machine learning expertise with Scikit-learn for classical ML algorithms and pipelines, XGBoost/LightGBM/CatBoost for gradient boosting, PyTorch/TensorFlow for deep learning, Hugging Face Transformers for pre-trained models, and MLflow for experiment tracking and model registry
Statistical analysis tools including SciPy for statistical tests and distributions, Statsmodels for time series and econometrics, Pingouin for statistical tests with effect sizes, and PyMC for Bayesian statistical modeling
Best practices for data science including exploratory data analysis (EDA) before modeling, cross-validation for model evaluation, appropriate missing data handling, data leakage detection in pipelines, documentation of assumptions and limitations, and version control for data and models
Code quality standards with type hints for function signatures, docstrings with examples, unit tests for data transformations, reproducible random seeds, and memory-efficient operations
Production-ready workflows with reproducible environments, model versioning, experiment tracking, automated testing, and deployment pipelines
Data visualization and exploratory data analysis with matplotlib, seaborn, plotly, and interactive visualization tools for creating comprehensive data insights and reports

Use Cases

Common scenarios and applications

Performing comprehensive exploratory data analysis (EDA) on datasets to understand data distributions, relationships, and patterns before building models
Building and evaluating machine learning models using scikit-learn pipelines with proper cross-validation, hyperparameter tuning, and model selection
Creating interactive data visualizations and dashboards for data exploration, analysis, and presentation using Plotly, Streamlit, or Gradio
Conducting statistical analysis including hypothesis testing, regression analysis, time series analysis, and Bayesian modeling
Processing and analyzing large datasets efficiently using Pandas, Polars, or out-of-core processing with Vaex
Building end-to-end machine learning pipelines from data preprocessing to model deployment with proper versioning and experiment tracking
Developing reproducible data science workflows with proper environment management, documentation, and version control

Requirements

Prerequisites and dependencies

Create CLAUDE.md file in project root (./CLAUDE.md) or .claude/ directory (./.claude/CLAUDE.md)
Claude Code 1.0+ or Claude Desktop required for CLAUDE.md memory support and Python data science guidance
Write access to project root or .claude/ directory for rule file creation
Python 3.9+ runtime (required for modern data science libraries)
Core data science libraries: pandas 2.2+, numpy, scikit-learn, matplotlib, seaborn (install via pip or conda)
Optional but recommended: jupyter/jupyterlab for interactive analysis, plotly for interactive visualizations, streamlit/gradio for data apps
Understanding of data science fundamentals (statistics, machine learning concepts, data preprocessing, model evaluation)
Text editor with Python support (VS Code with Python extensions, PyCharm, or Jupyter) for editing code and CLAUDE.md rule file

Usage Examples

Practical code examples demonstrating common use cases and implementation patterns

Exploratory Data Analysis with Pandas

Comprehensive EDA workflow with data loading, exploration, missing value analysis, and visualization

exploratory-data-analysis-with-pandas.py

python

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Load data
 df = pd.read_csv('data.csv', parse_dates=['date'])

# Basic exploration
print(df.info())
print(df.describe())
print(df.head())

# Missing values analysis
missing_pct = df.isna().mean() * 100
print(f"Missing values:\n{missing_pct[missing_pct > 0]}")

# Data type optimization
df['category'] = df['category'].astype('category')
df['date'] = pd.to_datetime(df['date'])

# Statistical summary by group
df.groupby('category').agg({
    'value': ['mean', 'std', 'min', 'max'],
    'count': 'sum'
})

# Correlation analysis
numeric_cols = df.select_dtypes(include=[np.number]).columns
correlation_matrix = df[numeric_cols].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()

Scikit-learn ML Pipeline with Cross-Validation

Complete ML pipeline with preprocessing, hyperparameter tuning, and evaluation

scikit-learn-ml-pipeline-with-cross-validation.py

python

from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
import pandas as pd

# Load data
df = pd.read_csv('data.csv')
X = df.drop('target', axis=1)
y = df['target']

# Split data
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Define preprocessing
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object', 'category']).columns

preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(drop='first', sparse_output=False), categorical_features)
    ]
)

# Create pipeline
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))
])

# Hyperparameter tuning
param_grid = {
    'classifier__n_estimators': [100, 200, 300],
    'classifier__max_depth': [10, 20, None]
}

grid_search = GridSearchCV(
    pipeline, param_grid, cv=5, scoring='f1', n_jobs=-1
)
grid_search.fit(X_train, y_train)

# Evaluate
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
print(classification_report(y_test, y_pred))
print(f"Best CV score: {grid_search.best_score_:.4f}")

Interactive Visualization with Plotly

Interactive visualizations with Plotly for data exploration and presentation

interactive-visualization-with-plotly.py

python

import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import pandas as pd

# Load data
df = pd.read_csv('sales_data.csv', parse_dates=['date'])

# Interactive scatter plot
fig = px.scatter(
    df, x='revenue', y='profit',
    color='category', size='quantity',
    hover_data=['product', 'date'],
    title='Revenue vs Profit by Category',
    labels={'revenue': 'Revenue ($)', 'profit': 'Profit ($)'}
)
fig.update_layout(template='plotly_dark')
fig.show()

# Time series with multiple traces
fig = make_subplots(
    rows=2, cols=1,
    subplot_titles=('Revenue Over Time', 'Profit Margin Over Time'),
    vertical_spacing=0.1
)

fig.add_trace(
    go.Scatter(x=df['date'], y=df['revenue'], name='Revenue', mode='lines+markers'),
    row=1, col=1
)

fig.add_trace(
    go.Scatter(x=df['date'], y=df['profit_margin'], name='Profit Margin', mode='lines'),
    row=2, col=1
)

fig.update_layout(height=600, title_text='Sales Analytics Dashboard')
fig.show()

Statistical Analysis with SciPy and Statsmodels

Statistical analysis including hypothesis testing, regression, and time series decomposition

statistical-analysis-with-scipy-and-statsmodels.py

python

from scipy import stats
from scipy.stats import ttest_ind, chi2_contingency, pearsonr
import statsmodels.api as sm
from statsmodels.tsa.seasonal import seasonal_decompose
import pandas as pd
import numpy as np

# Load data
df = pd.read_csv('experiment_data.csv')

# T-test for comparing two groups
control = df[df['group'] == 'control']['metric']
treatment = df[df['group'] == 'treatment']['metric']

t_stat, p_value = ttest_ind(control, treatment)
print(f"T-statistic: {t_stat:.4f}, P-value: {p_value:.4f}")

# Chi-square test for categorical data
contingency_table = pd.crosstab(df['category'], df['outcome'])
chi2, p_value, dof, expected = chi2_contingency(contingency_table)
print(f"Chi-square: {chi2:.4f}, P-value: {p_value:.4f}")

# Correlation analysis
corr, p_value = pearsonr(df['x'], df['y'])
print(f"Correlation: {corr:.4f}, P-value: {p_value:.4f}")

# Linear regression
X = sm.add_constant(df[['feature1', 'feature2']])
y = df['target']
model = sm.OLS(y, X).fit()
print(model.summary())

# Time series decomposition
df_ts = pd.read_csv('time_series.csv', parse_dates=['date'], index_col='date')
decomposition = seasonal_decompose(df_ts['value'], model='additive', period=12)
decomposition.plot()
plt.show()

Data Preprocessing and Feature Engineering

Comprehensive data preprocessing and feature engineering pipeline

data-preprocessing-and-feature-engineering.py

python

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder
from sklearn.impute import SimpleImputer, KNNImputer

# Load data
df = pd.read_csv('raw_data.csv')

# Handle missing values
# For numeric columns
numeric_imputer = SimpleImputer(strategy='median')
numeric_cols = df.select_dtypes(include=[np.number]).columns
df[numeric_cols] = numeric_imputer.fit_transform(df[numeric_cols])

# For categorical columns
categorical_imputer = SimpleImputer(strategy='most_frequent')
categorical_cols = df.select_dtypes(include=['object']).columns
df[categorical_cols] = categorical_imputer.fit_transform(df[categorical_cols])

# Feature engineering
df['date'] = pd.to_datetime(df['date'])
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['day_of_week'] = df['date'].dt.dayofweek
df['is_weekend'] = df['day_of_week'].isin([5, 6]).astype(int)

# Create interaction features
df['feature_interaction'] = df['feature1'] * df['feature2']
df['feature_ratio'] = df['feature1'] / (df['feature2'] + 1e-6)

# Binning numeric features
df['age_group'] = pd.cut(df['age'], bins=[0, 25, 50, 75, 100], labels=['Young', 'Adult', 'Senior', 'Elderly'])

# Encoding categorical variables
label_encoder = LabelEncoder()
df['category_encoded'] = label_encoder.fit_transform(df['category'])

# Scaling features
scaler = RobustScaler()
df[['feature1', 'feature2']] = scaler.fit_transform(df[['feature1', 'feature2']])

Model Evaluation and Validation

Comprehensive model evaluation with metrics, cross-validation, and learning curves

model-evaluation-and-validation.py

python

from sklearn.model_selection import cross_val_score, learning_curve, validation_curve
from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score,
                             roc_auc_score, confusion_matrix, classification_report,
                             mean_squared_error, r2_score)
import matplotlib.pyplot as plt
import numpy as np

# Classification metrics
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 0, 1]
y_pred = [0, 1, 1, 0, 0, 0, 1, 1, 0, 1]

y_pred_proba = [0.1, 0.9, 0.8, 0.2, 0.4, 0.3, 0.95, 0.85, 0.15, 0.9]

print(f"Accuracy: {accuracy_score(y_true, y_pred):.4f}")
print(f"Precision: {precision_score(y_true, y_pred):.4f}")
print(f"Recall: {recall_score(y_true, y_pred):.4f}")
print(f"F1 Score: {f1_score(y_true, y_pred):.4f}")
print(f"ROC AUC: {roc_auc_score(y_true, y_pred_proba):.4f}")
print(f"\nConfusion Matrix:\n{confusion_matrix(y_true, y_pred)}")
print(f"\nClassification Report:\n{classification_report(y_true, y_pred)}")

# Cross-validation
cv_scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')
print(f"CV Accuracy: {cv_scores.mean():.4f} (+/- {cv_scores.std() * 2:.4f})")

# Learning curve
train_sizes, train_scores, val_scores = learning_curve(
    model, X, y, cv=5, n_jobs=-1,
    train_sizes=np.linspace(0.1, 1.0, 10)
)

plt.figure(figsize=(10, 6))
plt.plot(train_sizes, train_scores.mean(axis=1), 'o-', label='Training Score')
plt.plot(train_sizes, val_scores.mean(axis=1), 'o-', label='Validation Score')
plt.xlabel('Training Set Size')
plt.ylabel('Score')
plt.title('Learning Curve')
plt.legend()
plt.grid(True)
plt.show()

Reproducible Data Science Workflow

Reproducible workflow with random seeds, experiment logging, and model versioning

reproducible-data-science-workflow.py

python

import pandas as pd
import numpy as np
from datetime import datetime
import json
import pickle

# Set random seed for reproducibility
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)

# Log experiment parameters
experiment_config = {
    'timestamp': datetime.now().isoformat(),
    'random_seed': RANDOM_SEED,
    'model_type': 'RandomForest',
    'hyperparameters': {
        'n_estimators': 100,
        'max_depth': 20,
        'min_samples_split': 2
    },
    'data_version': 'v1.2.3',
    'features': ['feature1', 'feature2', 'feature3']
}

# Save configuration
with open('experiment_config.json', 'w') as f:
    json.dump(experiment_config, f, indent=2)

# Load and process data
df = pd.read_csv('data.csv')

# Data versioning
print(f"Data shape: {df.shape}")
print(f"Data hash: {pd.util.hash_pandas_object(df).sum()}")

# Train model
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(
    n_estimators=experiment_config['hyperparameters']['n_estimators'],
    max_depth=experiment_config['hyperparameters']['max_depth'],
    random_state=RANDOM_SEED
)
model.fit(X_train, y_train)

# Save model with metadata
model_metadata = {
    'model_type': 'RandomForest',
    'trained_at': datetime.now().isoformat(),
    'training_samples': len(X_train),
    'feature_names': list(X_train.columns),
    'experiment_config': experiment_config
}

with open('model.pkl', 'wb') as f:
    pickle.dump(model, f)

with open('model_metadata.json', 'w') as f:
    json.dump(model_metadata, f, indent=2)

print(f"Model saved with metadata: {model_metadata}")

Installation

Setup instructions and requirements

Configuration

Configuration settings and parameters

python-data-science.json

json

{
  "maxTokens": 8000,
  "temperature": 0.5,
  "systemPrompt": "You are a Python data science expert focused on clean, efficient, and reproducible analysis",
  "compatibleWith": [
    "Claude Code",
    "Claude Desktop",
    "Claude Web"
  ]
}

Security Best Practices

Important security considerations

Data science code and analysis scripts may expose sensitive data, API keys, database credentials, or proprietary algorithms - ensure data files and code repositories are properly secured and never commit sensitive data to version control
Machine learning models and training data may contain personally identifiable information (PII), confidential business data, or proprietary information - ensure proper data anonymization, access controls, and model security before sharing
Statistical analysis results and visualizations may reveal sensitive patterns, business metrics, or confidential insights - review outputs before sharing externally if they contain sensitive information
Experiment tracking and model registry configurations may expose model architectures, hyperparameters, or performance metrics - ensure experiment tracking systems are properly secured
Data preprocessing pipelines and feature engineering code may reveal data sources, transformation strategies, or business logic - sanitize code examples before sharing if they contain sensitive information
Jupyter notebooks and analysis scripts may contain hardcoded credentials, API keys, or sensitive data in output cells - use environment variables and clear output before sharing notebooks
CLAUDE.md rule content for Python data science may expose team-specific analysis workflows, data processing strategies, or modeling approaches - ensure rule files are kept private if they contain sensitive organizational information
Data science notebooks and analysis scripts may expose sensitive data, PII, or proprietary datasets - ensure notebooks are sanitized before committing to public repositories, use data anonymization techniques, and never commit raw datasets
Machine learning model configurations and training parameters may reveal business logic, model architectures, or proprietary algorithms - sanitize model configurations before sharing externally if they contain sensitive intellectual property

Troubleshooting

Common issues and solutions

Rule applies data science patterns to web backend
This rule focuses on data analysis, ML pipelines, and statistical computing. For Flask/FastAPI web development, use Python web framework rules instead of data science expert.
Conflicts with general Python best practices rule
Data science rule adds domain-specific patterns (vectorization, reproducibility, EDA). General Python rule covers syntax/style. Use together - data science rule extends, doesn't override.
Not getting PyTorch/TensorFlow deep learning code
Mention 'deep learning', 'neural networks', or specific framework (PyTorch/TensorFlow) in prompt. Rule defaults to classical ML (scikit-learn) - be explicit for deep learning patterns.
Code uses Pandas when Polars would be faster
Request 'Use Polars for performance-critical operations' explicitly. Rule defaults to Pandas (ubiquitous) - specify Polars/Vaex for large datasets or memory-constrained environments.
How to verify reproducibility of analysis code?
Ask 'Check reproducibility of this analysis pipeline' - rule verifies random seeds, versioned dependencies, and deterministic operations. Ensures analysis can be replicated across environments.
Python data science rule not applying to Jupyter notebooks or data analysis scripts
Verify rule scope includes Python file patterns (*.py, *.ipynb). Use explicit file references in prompts (@analysis.py, @notebook.ipynb) to ensure Claude Code includes rule context when working on data science code.
Rule suggestions for data science patterns conflicting with existing analysis workflows
Review existing data science workflow before applying rule. Use rule as enhancement guide rather than strict enforcement. Create project-specific rule variants that align with existing pandas, NumPy, or scikit-learn patterns.
Data processing and analysis patterns not being suggested for new data pipelines
Include data processing workflow patterns in rule content with explicit examples. Add pandas DataFrame operations and data cleaning patterns. Request Claude Code to explicitly consider data science best practices when building data pipelines.
Machine learning model development recommendations not being applied during model training
Add machine learning workflow patterns to rule triggers. Include model training, validation, and evaluation examples. Request Claude Code to consider ML best practices when developing and training models.

CLAUDE.md

rules

Python Data Science

Transform Claude into a data science specialist with expertise in Python, machine learning, and data analysis

JSONbored

September 15, 2025

5 views

python

data-science

machine-learning

pandas

numpy

scikit-learn

JSONbored

September 15, 2025

python

data-science

machine-learning

pandas

numpy

scikit-learn

CLAUDE.md Content

The main content for this claude.md.

python-data-science.ts

typescript

You are a Python data science expert with deep knowledge of modern data analysis and machine learning techniques.

## Core Expertise

### Data Analysis Stack
- **Pandas 2.2+**: DataFrames, Series, MultiIndex, time series analysis
- **NumPy**: Array operations, broadcasting, linear algebra
- **Polars**: High-performance DataFrame operations
- **DuckDB**: SQL analytics on DataFrames
- **Vaex**: Out-of-core DataFrames for big data

### Visualization
- **Plotly**: Interactive visualizations and dashboards
- **Matplotlib/Seaborn**: Statistical visualizations
- **Altair**: Declarative visualization grammar
- **Streamlit/Gradio**: Interactive data apps

### Machine Learning
- **Scikit-learn**: Classical ML algorithms and pipelines
- **XGBoost/LightGBM/CatBoost**: Gradient boosting
- **PyTorch/TensorFlow**: Deep learning frameworks
- **Hugging Face Transformers**: Pre-trained models
- **MLflow**: Experiment tracking and model registry

### Statistical Analysis
- **SciPy**: Statistical tests and distributions
- **Statsmodels**: Time series and econometrics
- **Pingouin**: Statistical tests with effect sizes
- **PyMC**: Bayesian statistical modeling

### Best Practices
- Always perform EDA before modeling
- Use cross-validation for model evaluation
- Handle missing data appropriately
- Check for data leakage in pipelines
- Document assumptions and limitations
- Version control data and models

### Code Standards
- Type hints for function signatures
- Docstrings with examples
- Unit tests for data transformations
- Reproducible random seeds
- Memory-efficient operations

Features

Key capabilities and functionality

Comprehensive data analysis stack with Pandas 2.2+ for DataFrames, Series, MultiIndex, time series analysis, NumPy for array operations and linear algebra, Polars for high-performance DataFrame operations, and DuckDB for SQL analytics on DataFrames
Advanced visualization capabilities with Plotly for interactive visualizations and dashboards, Matplotlib/Seaborn for statistical visualizations, Altair for declarative visualization grammar, and Streamlit/Gradio for interactive data applications
Machine learning expertise with Scikit-learn for classical ML algorithms and pipelines, XGBoost/LightGBM/CatBoost for gradient boosting, PyTorch/TensorFlow for deep learning, Hugging Face Transformers for pre-trained models, and MLflow for experiment tracking and model registry
Statistical analysis tools including SciPy for statistical tests and distributions, Statsmodels for time series and econometrics, Pingouin for statistical tests with effect sizes, and PyMC for Bayesian statistical modeling
Best practices for data science including exploratory data analysis (EDA) before modeling, cross-validation for model evaluation, appropriate missing data handling, data leakage detection in pipelines, documentation of assumptions and limitations, and version control for data and models
Code quality standards with type hints for function signatures, docstrings with examples, unit tests for data transformations, reproducible random seeds, and memory-efficient operations
Production-ready workflows with reproducible environments, model versioning, experiment tracking, automated testing, and deployment pipelines
Data visualization and exploratory data analysis with matplotlib, seaborn, plotly, and interactive visualization tools for creating comprehensive data insights and reports

Use Cases

Common scenarios and applications

Performing comprehensive exploratory data analysis (EDA) on datasets to understand data distributions, relationships, and patterns before building models
Building and evaluating machine learning models using scikit-learn pipelines with proper cross-validation, hyperparameter tuning, and model selection
Creating interactive data visualizations and dashboards for data exploration, analysis, and presentation using Plotly, Streamlit, or Gradio
Conducting statistical analysis including hypothesis testing, regression analysis, time series analysis, and Bayesian modeling
Processing and analyzing large datasets efficiently using Pandas, Polars, or out-of-core processing with Vaex
Building end-to-end machine learning pipelines from data preprocessing to model deployment with proper versioning and experiment tracking
Developing reproducible data science workflows with proper environment management, documentation, and version control

Requirements

Prerequisites and dependencies

Create CLAUDE.md file in project root (./CLAUDE.md) or .claude/ directory (./.claude/CLAUDE.md)
Claude Code 1.0+ or Claude Desktop required for CLAUDE.md memory support and Python data science guidance
Write access to project root or .claude/ directory for rule file creation
Python 3.9+ runtime (required for modern data science libraries)
Core data science libraries: pandas 2.2+, numpy, scikit-learn, matplotlib, seaborn (install via pip or conda)
Optional but recommended: jupyter/jupyterlab for interactive analysis, plotly for interactive visualizations, streamlit/gradio for data apps
Understanding of data science fundamentals (statistics, machine learning concepts, data preprocessing, model evaluation)
Text editor with Python support (VS Code with Python extensions, PyCharm, or Jupyter) for editing code and CLAUDE.md rule file

Usage Examples

Practical code examples demonstrating common use cases and implementation patterns

Exploratory Data Analysis with Pandas

Comprehensive EDA workflow with data loading, exploration, missing value analysis, and visualization

exploratory-data-analysis-with-pandas.py

python

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Load data
 df = pd.read_csv('data.csv', parse_dates=['date'])

# Basic exploration
print(df.info())
print(df.describe())
print(df.head())

# Missing values analysis
missing_pct = df.isna().mean() * 100
print(f"Missing values:\n{missing_pct[missing_pct > 0]}")

# Data type optimization
df['category'] = df['category'].astype('category')
df['date'] = pd.to_datetime(df['date'])

# Statistical summary by group
df.groupby('category').agg({
    'value': ['mean', 'std', 'min', 'max'],
    'count': 'sum'
})

# Correlation analysis
numeric_cols = df.select_dtypes(include=[np.number]).columns
correlation_matrix = df[numeric_cols].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()

Scikit-learn ML Pipeline with Cross-Validation

Complete ML pipeline with preprocessing, hyperparameter tuning, and evaluation

scikit-learn-ml-pipeline-with-cross-validation.py

python

from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
import pandas as pd

# Load data
df = pd.read_csv('data.csv')
X = df.drop('target', axis=1)
y = df['target']

# Split data
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Define preprocessing
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object', 'category']).columns

preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(drop='first', sparse_output=False), categorical_features)
    ]
)

# Create pipeline
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))
])

# Hyperparameter tuning
param_grid = {
    'classifier__n_estimators': [100, 200, 300],
    'classifier__max_depth': [10, 20, None]
}

grid_search = GridSearchCV(
    pipeline, param_grid, cv=5, scoring='f1', n_jobs=-1
)
grid_search.fit(X_train, y_train)

# Evaluate
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
print(classification_report(y_test, y_pred))
print(f"Best CV score: {grid_search.best_score_:.4f}")

Interactive Visualization with Plotly

Interactive visualizations with Plotly for data exploration and presentation

interactive-visualization-with-plotly.py

python

import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import pandas as pd

# Load data
df = pd.read_csv('sales_data.csv', parse_dates=['date'])

# Interactive scatter plot
fig = px.scatter(
    df, x='revenue', y='profit',
    color='category', size='quantity',
    hover_data=['product', 'date'],
    title='Revenue vs Profit by Category',
    labels={'revenue': 'Revenue ($)', 'profit': 'Profit ($)'}
)
fig.update_layout(template='plotly_dark')
fig.show()

# Time series with multiple traces
fig = make_subplots(
    rows=2, cols=1,
    subplot_titles=('Revenue Over Time', 'Profit Margin Over Time'),
    vertical_spacing=0.1
)

fig.add_trace(
    go.Scatter(x=df['date'], y=df['revenue'], name='Revenue', mode='lines+markers'),
    row=1, col=1
)

fig.add_trace(
    go.Scatter(x=df['date'], y=df['profit_margin'], name='Profit Margin', mode='lines'),
    row=2, col=1
)

fig.update_layout(height=600, title_text='Sales Analytics Dashboard')
fig.show()

Statistical Analysis with SciPy and Statsmodels

Statistical analysis including hypothesis testing, regression, and time series decomposition

statistical-analysis-with-scipy-and-statsmodels.py

python

from scipy import stats
from scipy.stats import ttest_ind, chi2_contingency, pearsonr
import statsmodels.api as sm
from statsmodels.tsa.seasonal import seasonal_decompose
import pandas as pd
import numpy as np

# Load data
df = pd.read_csv('experiment_data.csv')

# T-test for comparing two groups
control = df[df['group'] == 'control']['metric']
treatment = df[df['group'] == 'treatment']['metric']

t_stat, p_value = ttest_ind(control, treatment)
print(f"T-statistic: {t_stat:.4f}, P-value: {p_value:.4f}")

# Chi-square test for categorical data
contingency_table = pd.crosstab(df['category'], df['outcome'])
chi2, p_value, dof, expected = chi2_contingency(contingency_table)
print(f"Chi-square: {chi2:.4f}, P-value: {p_value:.4f}")

# Correlation analysis
corr, p_value = pearsonr(df['x'], df['y'])
print(f"Correlation: {corr:.4f}, P-value: {p_value:.4f}")

# Linear regression
X = sm.add_constant(df[['feature1', 'feature2']])
y = df['target']
model = sm.OLS(y, X).fit()
print(model.summary())

# Time series decomposition
df_ts = pd.read_csv('time_series.csv', parse_dates=['date'], index_col='date')
decomposition = seasonal_decompose(df_ts['value'], model='additive', period=12)
decomposition.plot()
plt.show()

Data Preprocessing and Feature Engineering

Comprehensive data preprocessing and feature engineering pipeline

data-preprocessing-and-feature-engineering.py

python

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, RobustScaler, LabelEncoder
from sklearn.impute import SimpleImputer, KNNImputer

# Load data
df = pd.read_csv('raw_data.csv')

# Handle missing values
# For numeric columns
numeric_imputer = SimpleImputer(strategy='median')
numeric_cols = df.select_dtypes(include=[np.number]).columns
df[numeric_cols] = numeric_imputer.fit_transform(df[numeric_cols])

# For categorical columns
categorical_imputer = SimpleImputer(strategy='most_frequent')
categorical_cols = df.select_dtypes(include=['object']).columns
df[categorical_cols] = categorical_imputer.fit_transform(df[categorical_cols])

# Feature engineering
df['date'] = pd.to_datetime(df['date'])
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['day_of_week'] = df['date'].dt.dayofweek
df['is_weekend'] = df['day_of_week'].isin([5, 6]).astype(int)

# Create interaction features
df['feature_interaction'] = df['feature1'] * df['feature2']
df['feature_ratio'] = df['feature1'] / (df['feature2'] + 1e-6)

# Binning numeric features
df['age_group'] = pd.cut(df['age'], bins=[0, 25, 50, 75, 100], labels=['Young', 'Adult', 'Senior', 'Elderly'])

# Encoding categorical variables
label_encoder = LabelEncoder()
df['category_encoded'] = label_encoder.fit_transform(df['category'])

# Scaling features
scaler = RobustScaler()
df[['feature1', 'feature2']] = scaler.fit_transform(df[['feature1', 'feature2']])

Model Evaluation and Validation

Comprehensive model evaluation with metrics, cross-validation, and learning curves

model-evaluation-and-validation.py

python

from sklearn.model_selection import cross_val_score, learning_curve, validation_curve
from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score,
                             roc_auc_score, confusion_matrix, classification_report,
                             mean_squared_error, r2_score)
import matplotlib.pyplot as plt
import numpy as np

# Classification metrics
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 0, 1]
y_pred = [0, 1, 1, 0, 0, 0, 1, 1, 0, 1]

y_pred_proba = [0.1, 0.9, 0.8, 0.2, 0.4, 0.3, 0.95, 0.85, 0.15, 0.9]

print(f"Accuracy: {accuracy_score(y_true, y_pred):.4f}")
print(f"Precision: {precision_score(y_true, y_pred):.4f}")
print(f"Recall: {recall_score(y_true, y_pred):.4f}")
print(f"F1 Score: {f1_score(y_true, y_pred):.4f}")
print(f"ROC AUC: {roc_auc_score(y_true, y_pred_proba):.4f}")
print(f"\nConfusion Matrix:\n{confusion_matrix(y_true, y_pred)}")
print(f"\nClassification Report:\n{classification_report(y_true, y_pred)}")

# Cross-validation
cv_scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')
print(f"CV Accuracy: {cv_scores.mean():.4f} (+/- {cv_scores.std() * 2:.4f})")

# Learning curve
train_sizes, train_scores, val_scores = learning_curve(
    model, X, y, cv=5, n_jobs=-1,
    train_sizes=np.linspace(0.1, 1.0, 10)
)

plt.figure(figsize=(10, 6))
plt.plot(train_sizes, train_scores.mean(axis=1), 'o-', label='Training Score')
plt.plot(train_sizes, val_scores.mean(axis=1), 'o-', label='Validation Score')
plt.xlabel('Training Set Size')
plt.ylabel('Score')
plt.title('Learning Curve')
plt.legend()
plt.grid(True)
plt.show()

Reproducible Data Science Workflow

Reproducible workflow with random seeds, experiment logging, and model versioning

reproducible-data-science-workflow.py

python

import pandas as pd
import numpy as np
from datetime import datetime
import json
import pickle

# Set random seed for reproducibility
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)

# Log experiment parameters
experiment_config = {
    'timestamp': datetime.now().isoformat(),
    'random_seed': RANDOM_SEED,
    'model_type': 'RandomForest',
    'hyperparameters': {
        'n_estimators': 100,
        'max_depth': 20,
        'min_samples_split': 2
    },
    'data_version': 'v1.2.3',
    'features': ['feature1', 'feature2', 'feature3']
}

# Save configuration
with open('experiment_config.json', 'w') as f:
    json.dump(experiment_config, f, indent=2)

# Load and process data
df = pd.read_csv('data.csv')

# Data versioning
print(f"Data shape: {df.shape}")
print(f"Data hash: {pd.util.hash_pandas_object(df).sum()}")

# Train model
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(
    n_estimators=experiment_config['hyperparameters']['n_estimators'],
    max_depth=experiment_config['hyperparameters']['max_depth'],
    random_state=RANDOM_SEED
)
model.fit(X_train, y_train)

# Save model with metadata
model_metadata = {
    'model_type': 'RandomForest',
    'trained_at': datetime.now().isoformat(),
    'training_samples': len(X_train),
    'feature_names': list(X_train.columns),
    'experiment_config': experiment_config
}

with open('model.pkl', 'wb') as f:
    pickle.dump(model, f)

with open('model_metadata.json', 'w') as f:
    json.dump(model_metadata, f, indent=2)

print(f"Model saved with metadata: {model_metadata}")

Installation

Setup instructions and requirements

Configuration

Configuration settings and parameters

python-data-science.json

json

{
  "maxTokens": 8000,
  "temperature": 0.5,
  "systemPrompt": "You are a Python data science expert focused on clean, efficient, and reproducible analysis",
  "compatibleWith": [
    "Claude Code",
    "Claude Desktop",
    "Claude Web"
  ]
}

Security Best Practices

Important security considerations

Data science code and analysis scripts may expose sensitive data, API keys, database credentials, or proprietary algorithms - ensure data files and code repositories are properly secured and never commit sensitive data to version control
Machine learning models and training data may contain personally identifiable information (PII), confidential business data, or proprietary information - ensure proper data anonymization, access controls, and model security before sharing
Statistical analysis results and visualizations may reveal sensitive patterns, business metrics, or confidential insights - review outputs before sharing externally if they contain sensitive information
Experiment tracking and model registry configurations may expose model architectures, hyperparameters, or performance metrics - ensure experiment tracking systems are properly secured
Data preprocessing pipelines and feature engineering code may reveal data sources, transformation strategies, or business logic - sanitize code examples before sharing if they contain sensitive information
Jupyter notebooks and analysis scripts may contain hardcoded credentials, API keys, or sensitive data in output cells - use environment variables and clear output before sharing notebooks
CLAUDE.md rule content for Python data science may expose team-specific analysis workflows, data processing strategies, or modeling approaches - ensure rule files are kept private if they contain sensitive organizational information
Data science notebooks and analysis scripts may expose sensitive data, PII, or proprietary datasets - ensure notebooks are sanitized before committing to public repositories, use data anonymization techniques, and never commit raw datasets
Machine learning model configurations and training parameters may reveal business logic, model architectures, or proprietary algorithms - sanitize model configurations before sharing externally if they contain sensitive intellectual property

Troubleshooting

Common issues and solutions

Rule applies data science patterns to web backend
This rule focuses on data analysis, ML pipelines, and statistical computing. For Flask/FastAPI web development, use Python web framework rules instead of data science expert.
Conflicts with general Python best practices rule
Data science rule adds domain-specific patterns (vectorization, reproducibility, EDA). General Python rule covers syntax/style. Use together - data science rule extends, doesn't override.
Not getting PyTorch/TensorFlow deep learning code
Mention 'deep learning', 'neural networks', or specific framework (PyTorch/TensorFlow) in prompt. Rule defaults to classical ML (scikit-learn) - be explicit for deep learning patterns.
Code uses Pandas when Polars would be faster
Request 'Use Polars for performance-critical operations' explicitly. Rule defaults to Pandas (ubiquitous) - specify Polars/Vaex for large datasets or memory-constrained environments.
How to verify reproducibility of analysis code?
Ask 'Check reproducibility of this analysis pipeline' - rule verifies random seeds, versioned dependencies, and deterministic operations. Ensures analysis can be replicated across environments.
Python data science rule not applying to Jupyter notebooks or data analysis scripts
Verify rule scope includes Python file patterns (*.py, *.ipynb). Use explicit file references in prompts (@analysis.py, @notebook.ipynb) to ensure Claude Code includes rule context when working on data science code.
Rule suggestions for data science patterns conflicting with existing analysis workflows
Review existing data science workflow before applying rule. Use rule as enhancement guide rather than strict enforcement. Create project-specific rule variants that align with existing pandas, NumPy, or scikit-learn patterns.
Data processing and analysis patterns not being suggested for new data pipelines
Include data processing workflow patterns in rule content with explicit examples. Add pandas DataFrame operations and data cleaning patterns. Request Claude Code to explicitly consider data science best practices when building data pipelines.
Machine learning model development recommendations not being applied during model training
Add machine learning workflow patterns to rule triggers. Include model training, validation, and evaluation examples. Request Claude Code to consider ML best practices when developing and training models.

Resources

View on GitHub Documentation

CLAUDE.md Details

Temperature

0.5

Source

claudepro

Quick Actions

Related CLAUDE.mds

Python Data Science Expert

Transform Claude into a data science specialist with expertise in Python, machine learning, and data analysis

Code Review Expert

Comprehensive code review rules for thorough analysis and constructive feedback

API Design Expert

Transform Claude into a comprehensive API design specialist focused on RESTful APIs, GraphQL, OpenAPI, and modern API architecture patterns

Hire Claude Developers

Growing community of AI engineers actively building with Claude

Active community1,700/month

Growth rateMonth 2

Specialized AI talent pool

30-day featured visibility

Early-stage pricing advantage

View Pricing & Post Job

Live in 5 minutes • Growing community

Resources

View on GitHub Documentation

CLAUDE.md Details

Temperature

0.5

Source

claudepro

Quick Actions

Hire Claude Developers

Growing community of AI engineers actively building with Claude

Active community1,700/month

Growth rateMonth 2

Specialized AI talent pool

30-day featured visibility

Early-stage pricing advantage

View Pricing & Post Job

Live in 5 minutes • Growing community

Python Data Science

Exploratory Data Analysis with Pandas

Scikit-learn ML Pipeline with Cross-Validation

Interactive Visualization with Plotly

Statistical Analysis with SciPy and Statsmodels

Data Preprocessing and Feature Engineering

Model Evaluation and Validation

Reproducible Data Science Workflow

Reviews (0)

Python Data Science

Exploratory Data Analysis with Pandas

Scikit-learn ML Pipeline with Cross-Validation

Interactive Visualization with Plotly

Statistical Analysis with SciPy and Statsmodels

Data Preprocessing and Feature Engineering

Model Evaluation and Validation

Reproducible Data Science Workflow

Reviews (0)

Category

Temperature

Source

Python Data Science Expert

Code Review Expert

API Design Expert

Hire Claude Developers