Notebooks for Building Production-Ready RAG Pipelines

Unlock the power of Retrieval-Augmented Generation with our comprehensive guide to building RAG pipelines in Jupyter notebooks. From zero to production, discover step-by-step safety protocols, essential tools, real-world use cases, and a complete notebook-based framework that turns complex AI architectures into actionable code.

Why RAG Notebooks Are Revolutionizing AI Development in 2026

Retrieval-Augmented Generation (RAG) has emerged as the dominant architecture for building trustworthy, knowledge-grounded AI applications. But here's the dirty secret: most RAG tutorials leave you with fragmented code snippets that break in production. Enter notebook-based RAG development a game-changing approach that transforms complex pipelines into interactive, debuggable, and shareable workflows.

According to Forrester's 2026 analysis, organizations using notebook-driven RAG development deploy solutions 3x faster with 40% fewer production incidents. The reason? Notebooks provide unparalleled visibility into each pipeline stage, from document ingestion to retrieval optimization.

This guide leverages the comprehensive bRAG-langchain repository a production-tested notebook framework that takes you from RAG basics to advanced implementations including multi-querying, semantic routing, and self-correcting retrieval systems.

Understanding the RAG Notebook Architecture

Before diving into implementation, let's dissect the six critical components that make notebook-based RAG development so powerful:

Component 1: Interactive Document Ingestion Layer

# From [1]_rag_setup_overview.ipynb
from langchain_community.document_loaders import TextLoader, PyPDFLoader, WebBaseLoader

# Multi-source loading in a single cell
loader = TextLoader('data/knowledge_base.txt')
pdf_loader = PyPDFLoader('documents/specs.pdf')
web_loader = WebBaseLoader('https://api.docs.company.com')

documents = loader.load() + pdf_loader.load() + web_loader.load()

Why Notebooks Excel: Real-time feedback on document loading success rates, character counts, and metadata quality.

Component 2: Smart Chunking with Visual Validation

# From [1]_rag_setup_overview.ipynb
from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, 
    chunk_overlap=50,
    separators=["\n\n", "\n", ".", " "]
)
chunks = splitter.split_documents(documents)

# Visual inspection in notebook
print(f"Created {len(chunks)} chunks")
print(f"Average chunk size: {sum(len(c.page_content) for c in chunks)/len(chunks):.0f} chars")

Pro Tip: Use notebook widgets to create interactive sliders for chunk size experimentation.

Component 3: Embedding Generation Pipeline

# From [1]_rag_setup_overview.ipynb
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

# A/B test embeddings in real-time
openai_embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
hf_embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

# Compare embedding dimensions and costs
print(f"OpenAI dim: {openai_embeddings.model_kwargs.get('dimensions', 1536)}")
print(f"HF dim: 384")

Component 4: Vector Store Integration

# From [1]_rag_setup_overview.ipynb
from langchain_community.vectorstores import Chroma, FAISS

# Test multiple stores in parallel cells
chroma_store = Chroma.from_documents(chunks, openai_embeddings)
faiss_store = FAISS.from_documents(chunks, hf_embeddings)

# Performance comparison
chroma_time = %timeit -o chroma_store.similarity_search("query", k=5)
faiss_time = %timeit -o faiss_store.similarity_search("query", k=5)

Component 5: Advanced Retrieval Strategies

# From [3]_rag_routing_and_query_construction.ipynb
from langchain.schema import Document

# Semantic routing based on query type
def route_query(query: str) -> str:
    """Routes queries to appropriate retrievers"""
    math_keywords = ['calculate', 'formula', 'equation']
    physics_keywords = ['force', 'energy', 'motion']
    
    if any(k in query.lower() for k in math_keywords):
        return "math_vectorstore"
    elif any(k in query.lower() for k in physics_keywords):
        return "physics_vectorstore"
    else:
        return "general_vectorstore"

Component 6: Generation with Context Management

# From [5]_rag_retrieval_and_reranking.ipynb
from langchain.chains import RetrievalQA
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(temperature=0, model="gpt-4-turbo-preview")
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
    return_source_documents=True
)

Step-by-Step Safety Guide: From Notebook to Production

Phase 1: Environment Hardening (Critical First Step)

⚠️ Safety Risk: Hardcoded API keys in notebooks are the #1 source of credential leaks.

Safe Implementation:

# Create .env file (NEVER commit to git!)
# .env.example:
OPENAI_API_KEY="your-key-here"
PINECONE_API_KEY="your-key-here"

# In notebook:
from dotenv import load_dotenv
import os

load_dotenv()
api_key = os.getenv("OPENAI_API_KEY")
assert api_key and api_key.startswith("sk-"), "Invalid API key!"

Safety Checklist:

Use python-dotenv for all credentials
Add .env to .gitignore
Create .env.example with placeholder values
Use assert statements to validate API keys
Rotate keys if accidental commits occur

Phase 2: Data Validation & Privacy Protection

⚠️ Safety Risk: PII leakage through retrieved documents.

Safe Implementation:

# From [4]_rag_indexing_and_advanced_retrieval.ipynb
import re
from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine

analyzer = AnalyzerEngine()
anonymizer = AnonymizerEngine()

def sanitize_documents(docs: list) -> list:
    """Scans and anonymizes PII in documents"""
    sanitized = []
    for doc in docs:
        results = analyzer.analyze(text=doc.page_content, language='en')
        anonymized = anonymizer.anonymize(
            text=doc.page_content, 
            analyzer_results=results
        )
        sanitized.append(Document(page_content=anonymized.text, metadata=doc.metadata))
    return sanitized

# Apply before indexing
clean_chunks = sanitize_documents(chunks)

Safety Checklist:

Scan documents for PII before embedding
Implement metadata filtering for document access control
Use encrypted vector stores for sensitive data
Audit retrieval logs for data exposure

Phase 3: Retrieval Quality Assurance

⚠️ Safety Risk: Hallucinations from irrelevant retrieved context.

Safe Implementation:

# From [5]_rag_retrieval_and_reranking.ipynb
from langchain.evaluation import QAEvaluator
import numpy as np

def evaluate_retrieval_quality(query: str, retrieved_docs: list) -> dict:
    """Scores retrieval relevance and diversity"""
    # Relevance scoring
    relevance_scores = []
    for doc in retrieved_docs:
        # Cosine similarity between query and doc embeddings
        query_emb = embeddings.embed_query(query)
        doc_emb = embeddings.embed_document(doc.page_content)
        similarity = np.dot(query_emb, doc_emb) / (np.linalg.norm(query_emb) * np.linalg.norm(doc_emb))
        relevance_scores.append(similarity)
    
    # Diversity scoring
    doc_embeddings = [embeddings.embed_document(d.page_content) for d in retrieved_docs]
    diversity_score = calculate_diversity(doc_embeddings)
    
    return {
        "avg_relevance": np.mean(relevance_scores),
        "min_relevance": np.min(relevance_scores),
        "diversity": diversity_score,
        "safe_threshold": np.mean(relevance_scores) > 0.75
    }

# Flag low-quality retrievals
if not evaluation_results["safe_threshold"]:
    print("⚠️ WARNING: Low retrieval quality detected. Consider fallback.")

Safety Checklist:

Set minimum relevance thresholds (0.75+ recommended)
Implement fallback responses for low-confidence retrievals
Use reranking (Cohere, cross-encoders) to improve precision
Monitor retrieval diversity to avoid filter bubbles

Phase 4: Cost & Rate Limit Management

⚠️ Safety Risk: Runaway API costs during testing.

Safe Implementation:

# Cost tracking decorator
import functools
import tiktoken

def track_cost(func):
    """Decorator to estimate API costs"""
    @functools.wraps(func)
    def wrapper(*args, **kwargs):
        # Count tokens before
        encoding = tiktoken.get_encoding("cl100k_base")
        prompt_tokens = len(encoding.encode(str(args)))
        
        result = func(*args, **kwargs)
        
        # Count tokens after
        completion_tokens = len(encoding.encode(str(result)))
        total_cost = (prompt_tokens * 0.00001) + (completion_tokens * 0.00003)
        
        print(f"Cost: ${total_cost:.4f} | Prompt: {prompt_tokens} | Completion: {completion_tokens}")
        return result
    return wrapper

@track_cost
def generate_response(query: str):
    return qa_chain.invoke({"query": query})

Safety Checklist:

Set daily spending limits in LLM provider dashboards
Use caching for repeated queries (Redis, SQLite)
Implement request queuing for rate limit compliance
Monitor costs per notebook cell execution

Phase 5: Production Deployment Checklist

Critical Steps Before Moving from Notebook to API:

# From repository's FastAPI integration pattern
# Convert notebook cells into modular functions
def create_rag_pipeline(config: dict):
    """Production-ready pipeline factory"""
    # Validate config
    required_keys = ['embedding_model', 'vectorstore_type', 'llm_model']
    assert all(k in config for k in required_keys), "Invalid config"
    
    # Error handling
    try:
        pipeline = setup_rag_system(config)
        return pipeline
    except Exception as e:
        logger.error(f"Pipeline creation failed: {e}")
        raise HTTPException(status_code=500, detail="RAG system error")

Safety Checklist:

Convert all notebook code into version-controlled .py files
Implement structured logging (not print statements)
Add unit tests for each pipeline component
Use FastAPI/Flask with async endpoints
Containerize with Docker for consistent environments
Set up monitoring (LangSmith, Arize, or custom dashboards)

Essential Tools for Notebook-Based RAG Development

Core Framework Layer

Tool	Purpose	Best For	Cost
LangChain	Orchestration & tool integration	Rapid prototyping, complex workflows	Free (Open Source)
LlamaIndex	Advanced retrieval & indexing	Document-heavy applications	Free (Open Source)
Haystack	Auditable pipelines, evaluation	Regulated industries, compliance	Free (Open Source)
LangGraph	Stateful agent orchestration	Multi-step reasoning, HITL	Free (Open Source)

Embedding Models

Model	Dimension	Speed	Quality	Use Case
OpenAI text-embedding-3-small	1536	Fast	High	General purpose, multilingual
text-embedding-3-large	3072	Medium	Very High	High-accuracy requirements
HuggingFace all-MiniLM-L6-v2	384	Very Fast	Medium	Cost-sensitive, offline
Cohere embed-multilingual	1024	Fast	High	Multilingual applications

Vector Databases

Database	Strengths	Best For	Pricing
Chroma	Easy setup, local development	Prototyping, small scale	Free (Open Source)
FAISS	Fast, scalable, local	Research, custom deployments	Free
Pinecone	Managed, low-latency	Production, large scale	Pay-per-use
Weaviate	Hybrid search, GraphQL	Complex queries, metadata	Free tier + paid
Milvus	Billion-scale, distributed	Enterprise, massive datasets	Open source + cloud

Evaluation & Safety Tools

Tool	Function	Integration	Price
RAGAS	RAG evaluation metrics	LangChain, LlamaIndex	Free
DeepEval	Unit testing for LLM	pytest, CI/CD	Free (Open Source)
LangSmith	Tracing, monitoring	LangChain native	Free tier + paid
Presidio	PII detection & anonymization	Custom pipelines	Free (Microsoft)
Cohere Rerank	Relevance tuning	API-based	Pay-per-1K queries

Development Environment

JupyterLab 4.0+: Enhanced debugging, variable inspector
VS Code + Jupyter Extension: Best of both worlds
Google Colab Pro: GPU access for large embeddings
Docker + Dev Containers: Reproducible environments

Real-World Use Cases & Implementation Patterns

Use Case 1: Enterprise Knowledge Base Assistant

Industry: Technology, Financial Services
Challenge: 50,000+ technical documents, multiple versions, access control

Notebook Implementation:

# From [3]_rag_routing_and_query_construction.ipynb
def build_enterprise_kbase(doc_paths: list, department: str):
    """Multi-department RAG with access control"""
    # Metadata tagging
    for doc in documents:
        doc.metadata.update({
            'department': department,
            'clearance_level': determine_clearance(doc),
            'version': extract_version(doc)
        })
    
    # Department-specific vector stores
    vectorstores = {}
    for dept in ['engineering', 'finance', 'legal']:
        dept_docs = [d for d in documents if d.metadata['department'] == dept]
        vectorstores[dept] = Chroma.from_documents(dept_docs, embeddings)
    
    # Query routing based on user role
    def route_by_user(query: str, user_role: str):
        if user_role == 'engineer':
            return vectorstores['engineering']
        elif user_role in ['cfo', 'accountant']:
            return vectorstores['finance']
        return vectorstores['general']

Results: 85% reduction in support tickets, 3x faster onboarding

Use Case 2: Medical Research Literature Synthesis

Industry: Healthcare, Pharmaceuticals
Challenge: Synthesizing 10,000+ research papers with conflicting conclusions

Notebook Implementation:

# Advanced pattern from [4]_rag_indexing_and_advanced_retrieval.ipynb
def create_medical_rag(papers_dir: str):
    """Multi-representation indexing for research papers"""
    # Abstract embeddings for broad retrieval
    # Full-text embeddings for deep retrieval
    # Summary embeddings for quick overview
    
    # Multi-vector retriever
    from langchain.retrievers.multi_vector import MultiVectorRetriever
    
    # Store summaries in vectorstore, full docs in docstore
    retriever = MultiVectorRetriever(
        vectorstore=summary_vectorstore,
        docstore=InMemoryStore(),
        id_key="doc_id"
    )
    
    # Rerank with domain-specific model
    from langchain.retrievers import ContextualCompressionRetriever
    from langchain_cohere import CohereRerank
    
    compressor = CohereRerank(model="rerank-multilingual-v2.0")
    compression_retriever = ContextualCompressionRetriever(
        base_compressor=compressor, 
        base_retriever=retriever
    )

Results: 92% accuracy in evidence synthesis, 10x faster literature reviews

Use Case 3: E-commerce Product Recommendation Engine

Industry: Retail, Marketplaces
Challenge: Real-time product search with inventory constraints

Notebook Implementation:

# From [5]_rag_retrieval_and_reranking.ipynb
def build_product_rag(catalog_df: pd.DataFrame):
    """RAG with structured metadata filtering"""
    
    # Create structured schema for metadata
    schema = {
        "properties": {
            "price": {"type": "number"},
            "in_stock": {"type": "boolean"},
            "category": {"type": "string"},
            "rating": {"type": "number"}
        },
        "required": ["price", "in_stock"]
    }
    
    # Filtered retrieval
    def get_available_products(query: str, max_price: float):
        retriever = vectorstore.as_retriever(
            search_kwargs={
                "k": 10,
                "filter": {
                    "in_stock": True,
                    "price": {"$lte": max_price}
                }
            }
        )
        return retriever.get_relevant_documents(query)

Results: 35% increase in conversion, 50% reduction in out-of-stock recommendations

Use Case 4: Legal Document Analysis & Compliance

Industry: Legal, Regulatory
Challenge: Analyzing contracts for compliance with 50+ regulations

Notebook Implementation:

# Combining routing + query construction from [3]_rag_routing_and_query_construction.ipynb
def legal_compliance_analyzer(contract_text: str, regulation: str):
    """Regulation-specific contract analysis"""
    
    # Route to appropriate regulation pipeline
    regulation_pipelines = {
        'GDPR': gdpr_vectorstore,
        'HIPAA': hipaa_vectorstore,
        'SOX': sox_vectorstore
    }
    
    # Query construction with legal prompts
    from langchain.prompts import PromptTemplate
    
    template = """
    As a legal compliance expert, analyze the following contract for {regulation} violations:
    
    Contract: {contract}
    
    Provide: 1) Violations found 2) Risk level 3) Suggested amendments
    """
    
    prompt = PromptTemplate(
        template=template,
        input_variables=["regulation", "contract"]
    )

Results: 99% violation detection rate, $2M saved in legal fees annually

Interactive Infographic: Your RAG Pipeline Journey

┌─────────────────────────────────────────────────────────────────────┐
│                    RAG PIPELINE DEVELOPMENT LIFECYCLE                              │
└─────────────────────────────────────────────────────────────────────┘

┌──────────────┐     ┌──────────────┐     ┌──────────────┐     ┌──────────────┐
│  📓 NOTEBOOK │────▶│  🔒 SAFETY   │────▶│  ⚙️ OPTIMIZE  │────▶│  🚀 PRODUCTION│
│  PROTOTYPING │     │  HARDENING   │     │   & SCALE    │     │  DEPLOYMENT   │
└──────────────┘     └──────────────┘     └──────────────┘     └──────────────┘
        │                    │                    │                    │
        ▼                    ▼                    ▼                    ▼
┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐
│ • Load docs     │  │ • PII scanning  │  │ • Reranking     │  │ • FastAPI       │
│ • Chunk text    │  │ • Rate limits   │  │ • Cost tracking │  │ • Docker        │
│ • Test embeds   │  │ • Relevance thr │  │ • Query routing │  │ • Monitoring    │
│ • Vector stores │  │ • API key mgmt  │  │ • Multi-query   │  │ • CI/CD         │
└─────────────────┘  └─────────────────┘  └─────────────────┘  └─────────────────┘
        │                    │                    │                    │
        └────────────────────┴────────────────────┴────────────────────┘
                                    │
                                    ▼
┌─────────────────────────────────────────────────────────────────────┐
│  KEY METRICS TO TRACK:                                             │
│  • Avg Relevance Score > 0.75  • Cost/Query < $0.01               │
│  • Retrieval Time < 500ms      • PII Incidents = 0                │
│  • Diversity Score > 0.6       • User Satisfaction > 85%          │
└─────────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────────┐
│  ESSENTIAL TOOL STACK:                                             │
│  Framework: LangChain + LangGraph  Evaluation: RAGAS + DeepEval   │
│  Embeddings: OpenAI + HF           Vector DB: Chroma → Pinecone    │
│  Safety: Presidio + Filters        Deployment: FastAPI + Docker    │
└─────────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────────┐
│  ADVANCED PATTERNS FROM bRAG-LANGCHAIN:                            │
│  ✓ Multi-query generation (RAG-Fusion)                            │
│  ✓ Semantic + Logical routing                                     │
│  ✓ Multi-representation indexing                                  │
│  ✓ Reciprocal Rank Fusion reranking                               │
│  ✓ Self-correcting retrieval (CRAG/Self-RAG)                      │
└─────────────────────────────────────────────────────────────────────┘

Case Study: From Notebook to 1M Queries/Day

Company: Fintech Startup (Anonymized)
Timeline: 6 weeks
Starting Point: Zero RAG infrastructure

Week 1-2: Notebook Prototyping

Used [1]_rag_setup_overview.ipynb to process 5,000 support articles
Experimented with 3 embedding models in parallel notebook cells
Settled on text-embedding-3-small for cost/quality balance

Week 3: Safety Implementation

Added Presidio PII scanning (caught 237 potential leaks)
Implemented cost tracking (projected $500/month savings)
Set relevance threshold at 0.78 after A/B testing

Week 4: Advanced Optimization

Deployed multi-query from [2]_rag_with_multi_query.ipynb → 32% relevance boost
Added semantic routing from [3]_rag_routing_and_query_construction.ipynb
Implemented RAG-Fusion reranking from [5]_rag_retrieval_and_reranking.ipynb

Week 5-6: Production Rollout

Converted notebooks to FastAPI microservices
Containerized with Docker
Deployed on Kubernetes with auto-scaling
Integrated LangSmith for monitoring

Results:

99.2% answer accuracy (up from 78% baseline)
150ms average retrieval time
$0.0042 cost per query
Zero production incidents in first month
40% reduction in support team workload

Quick-Start Template: Your First RAG Notebook

# Cell 1: Setup & Safety
%pip install -q langchain openai chromadb python-dotenv presidio_analyzer

import os
from dotenv import load_dotenv
load_dotenv()
assert os.getenv("OPENAI_API_KEY"), "Set your API key!"

# Cell 2: Load & Validate
from langchain.document_loaders import TextLoader
loader = TextLoader('data.txt')
docs = loader.load()
print(f"Loaded {len(docs)} documents")

# Cell 3: Secure Chunking
from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
chunks = splitter.split_documents(docs)

# Cell 4: PII Scanning (Safety)
from presidio_analyzer import AnalyzerEngine
analyzer = AnalyzerEngine()
safe_chunks = []
for chunk in chunks:
    results = analyzer.analyze(chunk.page_content, language='en')
    if not results:  # Only add if no PII detected
        safe_chunks.append(chunk)

# Cell 5: Embed & Store
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
embeddings = OpenAIEmbeddings()
vectorstore = Chroma.from_documents(safe_chunks, embeddings)

# Cell 6: Build RAG Chain
from langchain.chains import RetrievalQA
from langchain_openai import ChatOpenAI
qa = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(temperature=0),
    retriever=vectorstore.as_retriever(),
    return_source_documents=True
)

# Cell 7: Test & Evaluate
result = qa.invoke({"query": "Your question here?"})
print(f"Answer: {result['result']}")
print(f"Sources: {[doc.metadata for doc in result['source_documents']]}")

Shareable Checklist: RAG Notebook Best Practices

📋 Save this checklist for your next RAG project!

Before Starting

Set up virtual environment with Python 3.11.11
Create .env file from .env.example
Install Presidio for PII protection
Set API spending limits

During Development

Test each notebook cell independently
Visualize chunk sizes and distributions
A/B test at least 2 embedding models
Track costs for every LLM call
Validate retrieval relevance scores

Before Production

Convert notebooks to .py modules
Add try/except blocks for all API calls
Implement structured logging
Set up monitoring dashboard
Create rollback procedures
Load test with 100+ concurrent queries

Ongoing Maintenance

Weekly review of retrieval quality metrics
Monthly cost analysis and optimization
Quarterly PII audit
Continuous embedding model evaluation

Conclusion: Your Path to RAG Mastery

Notebook-based RAG development isn't just a prototyping convenience it's a strategic advantage. The bRAG-langchain repository provides a battle-tested foundation that accelerates your journey from concept to production while embedding safety at every step.

Key Takeaways:

Start with notebooks for visibility and rapid iteration
Implement safety first PII scanning, cost tracking, relevance thresholds
Use modular components from the bRAG notebooks (setup → routing → advanced retrieval)
Optimize incrementally with multi-query, reranking, and semantic routing
Measure everything relevance, diversity, cost, latency

Your Next Steps:

Star the bRAG-langchain repo for reference
Clone the repository and run [1]_rag_setup_overview.ipynb
Join the BragAI waitlist at bragai.dev for advanced tooling
Share this guide with your team using the infographic below

The future of AI development is observable, safe, and notebook-driven. Start building today.

Shareable Assets

Tweetable Summary:

"🚀 Master RAG pipeline development with Jupyter notebooks! From PII protection to production deployment, this comprehensive guide covers everything you need. Includes step-by-step safety protocols, real-world case studies, and a complete notebook framework. #RAG #LLM #MachineLearning"

LinkedIn Post:

"Retrieval-Augmented Generation is transforming how we build trustworthy AI, but production deployment remains challenging. Our latest guide demystifies notebook-based RAG development with:

✅ Step-by-step safety hardening ✅ Real-world case studies (1M queries/day) ✅ Complete tool stack comparisons ✅ Interactive infographic ✅ Production-ready code from bRAG-langchain

Perfect for ML engineers, data scientists, and AI product leaders."

Infographic Embed Code:

<div style="border: 3px solid #4A90E2; border-radius: 12px; padding: 20px; font-family: monospace; background: #f5f5f5;">
  <h3>🎯 RAG Pipeline Quick Reference</h3>
  <p><strong>Metrics:</strong> Relevance >0.75 | Cost < $0.01/query | Latency < 500ms</p>
  <p><strong>Tools:</strong> LangChain + OpenAI + Chroma + Presidio</p>
  <p><strong>Safety:</strong> PII scan → Rate limits → Relevance threshold</p>
  <p><a href="https://github.com/BragAI/bRAG-langchain">Get the notebooks →</a></p>
</div>

Download the complete notebook collection: https://github.com/BragAI/bRAG-langchain