Common Workflows

Learn efficient workflows for using the SQLStream interactive shell.

Data Exploration Workflow

Step-by-Step

Launch shell with file:
```
sqlstream shell data.csv
```
Check schema (F2 to toggle schema browser):
See all columns and types
Check row counts
Run exploratory queries in separate tabs:
Tab 1: SELECT * FROM data LIMIT 10
Tab 2: SELECT COUNT(*) FROM data
Tab 3: SELECT DISTINCT category FROM data
Use query history (Ctrl+Up/Down) to refine queries
Export results when satisfied (Ctrl+X)

Multi-File Analysis Workflow

Joining Multiple Files

Launch shell without file:
```
sqlstream shell
```
Open file browser (Ctrl+O)
Navigate and load first file
Repeat for additional files
Check schemas (F2) for all loaded files

Write JOIN query:

SELECT *
FROM 'customers.csv' c
JOIN 'orders.csv' o ON c.id = o.customer_id
WHERE o.amount > 1000

Toggle to DuckDB backend (F5) for better JOIN performance
Filter and export results

Report Generation Workflow

Creating Analysis Reports

Tab 1: Summary statistics

SELECT
    COUNT(*) as total_records,
    SUM(amount) as total_revenue,
    AVG(amount) as avg_order_value
FROM sales

Tab 2: Breakdown by category

SELECT category, COUNT(*) as count, SUM(amount) as revenue
FROM sales
GROUP BY category
ORDER BY revenue DESC

Tab 3: Top performers

SELECT name, SUM(amount) as total
FROM sales
GROUP BY name
ORDER BY total DESC
LIMIT 10

Export each result to different formats (CSV, JSON)
State persists - reopen shell later to continue work

Data Quality Checking Workflow

Validating Data

Check for nulls:

SELECT COUNT(*) FROM data WHERE important_field IS NULL

Check for duplicates:

SELECT id, COUNT(*) as count
FROM data
GROUP BY id
HAVING count > 1

Validate ranges:

SELECT * FROM data
WHERE age < 0 OR age > 120

Use filter (Ctrl+F) to explore problematic records
Export issues for further investigation

Performance Optimization Workflow

Optimizing Slow Queries

Run query with Python backend (default)
Check execution time in status bar
View query plan (F4) to understand execution
Try Pandas backend (F5):
Good for large files, simple queries
Try DuckDB backend (F5 again):
Best for complex SQL
Compare times and choose best backend
Refine query based on plan:
Add WHERE filters early
Select only needed columns
Use appropriate indexes

Iterative Development Workflow

Developing Complex Queries

Tab 1: Start simple
```
SELECT * FROM data LIMIT 10
```
Refine incrementally using history (Ctrl+Up):
Add WHERE clause
Add GROUP BY
Add ORDER BY

Tab 2: Test subquery separately

SELECT category, AVG(amount) as avg_amount
FROM data
GROUP BY category

Tab 3: Combine into final query

WITH category_avg AS (
    SELECT category, AVG(amount) as avg_amount
    FROM data
    GROUP BY category
)
SELECT d.*, c.avg_amount
FROM data d
JOIN category_avg c ON d.category = c.category
WHERE d.amount > c.avg_amount

Save state (Ctrl+S) at checkpoints

Tips for Efficient Workflows

Speed Up Your Work

Use tabs for context: Keep different analyses in separate tabs
Leverage history: Press Ctrl+Up instead of retyping queries
Toggle layout (Ctrl+L): More editor space for complex queries
File browser (Ctrl+O): Quickly switch between data files
Filter results (Ctrl+F): Narrow down without re-running query
Auto-save: Your work persists between sessions

Minimize mouse usage with keyboard shortcuts
F2/F3 for sidebars, F4 for plans, F5 for backends
Ctrl+Tab to switch tabs quickly
Ctrl+Enter to execute without reaching for mouse