LLM Virtual Keys

llmwiki

Concepts Log Index

Agent Architecture

A2A Task
A2A vs MCP
ADK Agent Types
ADK Evaluation Framework
AG-UI Protocol (Agent User Interaction)
AG-UI Protocol
Agent Card
Agent Cards
Agent Execution Risk
Agent-Grade Document Output
Agent-grade Output for AI
Agent-Grade Output
Agent Interoperability
Agent Lifecycle Hooks
Agent Marketplace Interoperability
Agent Marketplace
Agent Payment Safeguards
Agent Runner Protocol
Agent-to-Agent Protocol (A2A)
Agent-to-Platform Provisioning Protocol
Agent Tool Integration Trade-offs
Agent-UI State Synchronization
Agent User Interaction Event Types
Agentic Commerce Protocol
Agentic Service Discovery
Agents Payment Protocol (Google)
Agents Payment Protocol
AI Agent System Design
AI Dependency Injection
Architectural Metapatterns
Autogenesis Protocol (AGP)
Autogenesis Protocol
Autogenesis System (AGS)
Backend Injection at Runtime
BentoML Runner
Bidirectional State Management in CopilotKit
B=MAP Model (Fogg Behavior Model)
Chatbot Architecture for Enterprise
Code Agent
CodeAgent
Colang DSL
Computer Use Sandbox
Deep Agents Architecture
Delegated Account Provisioning
Dependency Injection in AI Agents
Directional vs. Unified Observation Modes
Docker-based Sandboxed Execution for AI Agents
Enterprise Chatbot Architecture
Environment Snapshots
Event-Driven Agent-Frontend Communication
FastLanguageModel API
Gemini Live API Integration
Gemini Live API
GitHub PR-Comment Integration for Agents
hermes-agent-camel
Hermes Agent Core Architecture
Hermes Loop
Hierarchical Multi-Agent Systems
Layered Architecture Family
LiteRT Interpreter
LiteRT
Local LLM Inference
Local RAG Stack
maestro
Map of System Topologies
MCP Host-Client-Server Architecture
MCP Primitives (Tools, Resources, Prompts)
MCP Primitives
MCP Transport Layer
MCP Transport Mechanisms
Micro-latency Agent Instantiation
Model-Agnostic Agent Interface
Model Context Protocol (MCP) Architecture
Model Context Protocol (MCP)
Modulith (Modular Monolith)
Moltbook
Monolithic System Topologies
Multi-model Serving in Ollama
Multi-User Agent Session Isolation
Multi-User Session Isolation in AI Agents
Multimodal AI Agents
Native Multi-modal Agent Support
Obsidian
Offline Use in Ollama
Ollama API Endpoints
Ollama Model Library
Ollama Modelfile
Omnichannel AI Agent Deployment
Parallel Slots in llama.cpp
Performance Comparison of Local LLMs
Plugin Architecture Family
Privacy and Offline Use of Local LLMs
Progressive Disclosure in Agents
Progressive Disclosure Loading
ReAct (Reason + Act)
Resource Substrate Protocol Layer (RSPL)
Role-Based Agent Design
Role-based Agents in CrewAI
Rollback Mechanisms in AGP
Sandbox Evaluation Environment
Sandbox Execution in Agents
Sandboxed Evaluation Environment
Scrum Team Agent Architecture
Self Evolution Protocol Layer (SEPL)
Self-Improvement Lifecycle (AGP)
Self-Improving Agents
SLERP (Spherical Linear Interpolation)
Stateless Agent Stateful Sessions
Terminal-in-Container Sandbox
Three-Dimensional Coordinate Space (Abstractness-Subdomain-Sharding)
ToolCallingAgent
Tools as Code
Transport-Agnostic Protocol
Transport-Agnostic Tool Discovery
Transport-Agnostic Tooling
Type-safe AI I/O
Voice AI Agents
Voice-to-Voice AI
WebSocket Event Protocol for AI Streaming
WebSocket Streaming for AI Agents

Agent Frameworks

Agent2Agent (A2A) Framework
Agent2Agent (A2A) Protocol
Agentforce Partner Network
Agentforce
Agentic AI Foundation (AAIF)
Agents in LangChain
Agno (formerly Phidata)
Agno
AI Model Aggregator Platforms
AI Service Aggregators
AI Worker Support in Orkes Conductor
AI Worker Support in Orkes
C-API for Custom Language Bindings
Chainlit Overview
Chainlit
Clipmart (Company Templates)
Codex App Server Protocol
CrewAI
DeepSpeed-Chat
Google Agent Development Kit (ADK)
Hermes Agent Framework
Hermes Ecosystem Plugins
icarus-plugin
Kimi K2.6
LangGraph
Lightweight Agent Frameworks
LiteLLM
Llama.cpp Server
llama.cpp
LLM Provider Proxy Server
Ollama
OpenAI Agents SDK
OpenAI-compatible API in Ollama
OpenAI-compatible Interface for LLM Providers
OpenAI-Compatible REST API
OpenAI-compatible REST Server
OpenAI Swarm
OpenClaw
OpenRouter
Pydantic AI Integration
Pydantic AI
pydantic-deep Framework
pydantic-deep
Semantic Kernel Agent Framework
Semantic Kernel
SmolAgents
Vertex AI Agent Builder
Vertex AI Agent Engine
vLLM
whisper.cpp

Agent Memory

Agent Memory Architecture
Agent Memory
CacheBlend
Chainlit Data Persistence
Checkpointing in LangGraph
Co-evolving Narrative Layers
Cognee
Compilation Step
Context Coherence
Context Compression in Context Engineering
Context Compression Triggers and Best Practices
Context Engineering Principles
Context Engineering
Context Offloading Pattern
Context Precision
Context Pruning
Context Recall
Context Window Management Strategies
Context Window Management Techniques
Contextual Retrieval
CrewAI Memory Systems
Deep Agents SDK Context Management
Dialectic Reasoning (AI Memory)
Domain-specific Knowledge Curation
Episodic Memory (AI Agents)
Episodic Memory in AI Agents
Graph View in Obsidian
HelixDB
Hermes Memory Offloading Patterns
Honcho Memory
In-Context Memory (Working Memory)
LLM Context Components
LLM Wiki Compiler
LLM Wiki
Local Memory Offloading
Mem0
Memify pass
Memory Consolidation (AI Agents)
Memory in LangChain
Memory Management Strategies
Memory Recall Modes (Hybrid, Context, Tools)
Multi-Agent User Profiles (Isolation)
Obsidian Clippings Management
Obsidian Vault Integration
PagedAttention Algorithm
PagedAttention
Prefix-Aware KV Caching
Prefix Caching
Procedural Memory (AI Agents)
Procedural Memory in AI Agents
Selective Context Compression
Semantic Caching for LLM Calls
Semantic Caching in LiteLLM
Semantic Kernel Memory
Semantic Memory (AI Agents)
Sensory Memory (AI Agents)
Session-Scoped Context Injection
Shared Application State in CopilotKit
Structured Summarization for Agent Memory
Task Arithmetic
Three-Store Architecture (Memory)
TIES Merging (TRIM-ELECT-SIGN-MERGE)
TIES Merging
Tools for Context Engineering
Working Memory (In-Context)
Zep

Agent Orchestration

Agent-Assisted Setup
Agent Delegation
Agent Handoffs
Agent Heartbeats
Agent Teams
Agentic Workflows
Agno Agent Teams
Crew Process Types
CrewAI Flow
Cross-Model Code Review (Claude + Codex)
DeferredToolRequests Pattern
Fork/Join Pattern in Workflow Orchestration
Goal Ancestry Tracking
Graph-based execution in LangGraph
Handoff Architecture Patterns
Hermes Agent Ecosystem
Hermes Gateway Process
Hermes Gateway
Hierarchical Process in Multi-Agent Systems
Human-in-the-loop in LangGraph
Human Task Integration in Orkes Conductor
Human Task Integration in Workflows
Issue Tracker-Based Agent Orchestration
Multi-agent support in LangGraph
Multi-party Settlement in Agents
Multi-party Settlement
Orchestrator Platform Pattern
Orchestrator State Machine
Paperclip Orchestration Framework
Paperclip Ticket System
Polyglot AI Orchestration
Realtime API Event Protocol
Realtime API (OpenAI)
Runner.run_sync
Semantic Kernel Process Framework
Symphony (OpenAI Codex Orchestration Spec)
Task-Driven Agent Orchestration
Task Polling Worker Architecture
Tool Registry Aggregation
Visual Workflow Designer in Orkes Conductor
Visual Workflow Designer
Workflow Compensation Logic
Workflow Compensation
Workflow Observability in Orkes
WORKFLOW.md Repository Contract

Agent Skills

Agent Knowledge Base Curation
Agent Skills Format
Agent Skills
Agent Training & Fine-tuning
Agentic Compliance Checking
agentskills.io Standard
agentskills.io
AI-Driven Conflict Detection
AI Testing Models
Approval Gates in Agentic Commerce
Approval Gates
Atlas Reasoning Engine
Automatic Prompt Optimization (APO)
Autonomous Code Testing
Bidirectional Audio Streaming
Code-First Tool Use
Constrained Self-Improvement
Constraint Enforcement in Action Selection
Constraint Enforcement in Decision Making Systems
Constraint Enforcement in NBA Systems
Constraint Verification in Image Generation
Content Faithfulness Benchmarking
Content Faithfulness
Contextual Bandits in NBA Systems
Contextual Personalisation in AI
Contextual Personalization in NBA
Conversational Prosody
Conversational Turn-Taking Optimization
Decision Rationale Generation
Deepgram Aura (Text-to-Speech)
Deepgram Aura
Delegated Credentials
Dialectic User Modeling in Hermes
Document OCR for AI Agents
Few-shot Prompting
Function Calling in Realtime Voice Sessions
Functional QR Code Generation
Genetic-Pareto Prompt Evolution (GEPA)
GPT Image 2 Thinking Mode
Grammar-Constrained Generation in llama.cpp
Group Relative Policy Optimisation (GRPO)
GRPO (Group Relative Policy Optimisation)
Handlebars and Liquid Templates in AI
Hermes Android Bridge
Hermes Learning Loop
Hermes Skill Development
hermes-skill-factory
Hosted Tools for AI Agents
Hybrid Rule Execution in AI
In-Process Tool Calling
In-process Tool Execution
Instruction-Response Pairs
LiteRT LLM API
LiteRT LLM Inference
Local Speech Synthesis
Local TTS Inference
Multi-objective Optimisation
Multi-objective Optimization in NBA
Multi-objective Optimization in Personalization
Multi-step Agentic UI
Multi-turn Dialogue Management
Multi-turn Image Editing with Context Memory
Multiturn Dialogue Systems
Next Best Action Approaches Comparison
On-device Machine Learning
On-Device Speech Recognition
On-device Training in LiteRT
On-device Transfer Learning
ONNX Runtime for Speech Synthesis
OpenAI Realtime API
OpenAI TTS API
OpenAI Whisper
Opus Review Loop
Parallel Function Execution
Parallel Tool Calls in AI Models
Parallel Tool Calls
PEFT Adapters (VeRA, DoRA, LoftQ)
Performance Feedback Loops in Agents
PR-Pack Context File
Preference Alignment Methods (DPO/PPO/KTO)
Primacy and Recency Effects in Prompting
Proactive AI Insights
Reasoning Budget
Reasoning Effort Configuration
Reasoning with LLMs in Next Best Action Systems
Response Distillation
Retry with Validation Feedback in Agents
RLAIF (Reinforcement Learning from AI Feedback)
RLHF (Reinforcement Learning from Human Feedback)
Role Prompting
Runtime Skill Injection
Sakana Conductor AI-managing-AI
Sakana Conductor
Semantic Duplicate Detection
Semantic Kernel Multi-model Support
Semantic Kernel Planners
Semantic Kernel Plugins
Semantic Search Techniques
Semantic Search
Server-side Voice Activity Detection (VAD)
Server-side Voice Activity Detection
Skill Activation Stage
Skill Collections
Skill Discovery Stage
SKILL.md Format
SKILL.md
Skills & Knowledge Bases for AI Agents
Slot-fill Templates
Smart Formatting in STTConstants
Speaker Diarisation
Speaker Diarization
Stateless Tool Invocation
Stateless Tool Provider
Static JSON Tool Manifests
Streamed Structured Validation
Streaming Speech-to-Text API
Streaming Text-to-Speech
Structured Context Formatting
Structured Output Prompting
Structured Product APIs
Sub-250ms Time-to-First-Audio
Summarization Quality Metrics
Supervised Fine-Tuning (SFT)
Time-to-First-Audio
Time-to-First-Token (TTFT)
Todo Progress Tracking in Agents
Tool Call Transparency
Tool Integration in Chatbots
Tool Use in Conversational AI
TTFT (Time-to-First-Token) Reduction
tts-1 vs tts-1-hd
TTS Model Optimization Tiers
TTS Voice Persona Selection
TTS Voice Selection Guide
VITS
Voice Agent Latency Pipeline
Voice Fingerprinting
Vosk
Whisper Diarization Extensions
Whisper Model Sizes
Whisper Timestamp Generation
Whisper Translation to English
Word Error Rate (WER) in Whisper
Word-level Timestamps

AI Infrastructure

AI Sandbox
Authentication in Chainlit
Azure CycleCloud
Azure ML Compute Clusters
Community GPU Marketplace
CoreWeave Network Storage (CWS)
CoreWeave
DeepSpeed
Direct Provider vs Aggregator Model Economics
Google Cloud Platform (GCP) for ML
Google Kubernetes Engine (GKE) for ML
GPU-First Cloud Architecture
GPU Pods (RunPod)
GPU Pods
In-Process Library
Kubeflow
Kubernetes-Native Infrastructure
Lambda Stack
LiteLLM Proxy Server
Managed Jobs in SkyPilot
Massively Parallel Processing (MPP) Architecture
Meta Llama Licence
Modal App and Functions
Modal Platform
Modal Volumes
Modal
ONNX Runtime Deployment
OpenAI-Microsoft Partnership Restructuring
Pre-Quantized Model Distribution
RunPod Network Storage
Service-Based Architecture Patterns
Unified-Dimension Quantization (UD-GGUF)
Vertex AI Feature Store
Vertex AI Integration
Vertex AI Model Garden
Vertex AI Search
Vertex AI

Cloud AI Platforms

A3 Mega and Ultra VMs
Amazon SageMaker
Azure Machine Learning (Azure ML)
Azure Machine Learning
Azure-Native RAG Pipelines
Azure OpenAI Service
Azure Spot Instances for ML Workloads
BentoCloud
EC2 Capacity Blocks for ML
EC2 Capacity Blocks
EC2 Spot Instances for ML
EC2 UltraClusters
Elastic Fabric Adapter (EFA)
Google AI Studio
Google Vertex AI
La Plateforme
Lambda Labs GPU Cloud
Lambda Labs
LangGraph Cloud
OpenAI Batch API
RunPod
SageMaker Async Inference
SageMaker Canvas
SageMaker Clarify
SageMaker Feature Store
SageMaker HyperPod
SageMaker Inference Endpoints
SageMaker JumpStart
SageMaker Model Registry
SageMaker Pipelines
SageMaker Training Jobs
SUNK Cost Model

Compute Optimization

Adaptive Batching in BentoML
AMD Hipfire Inference Engine
AWS Inferentia (inf2)
AWS Inferentia
AWS Trainium (trn1)
AWS Trainium
AWS UltraClusters
Azure GPU Virtual Machine Families
Azure Maia 100 AI Accelerator
Azure Maia 100
Cold Starts in Serverless GPUs
Compression in Context Engineering
CPU Auto-Dispatch
Custom CUDA Kernels in Fine-tuning
DeepSpeed-FastGen
DeepSpeed ZeRO-1/2/3
Dynamic Batching
Edge TPU Integration
FP8 Training
GGUF Model Optimization
GGUF Quantization
Google TPU v8 Architecture Split
H100 SXM5 GPU
Hardware Acceleration in LiteRT
InfiniBand Networking for Distributed AI Training
InfiniBand Networking in Cloud AI
InfiniBand Networking
InfiniBand RDMA for Distributed Training
IQ4_NL Quantization
JAX on GCP
Knowledge Distillation
KV Cache Fragmentation (vLLM)
KV Cache Fragmentation
KV Cache in llama.cpp
LLM Model Quantization
LLMLingua
Luce DFlash Speculative Decoding
Mixed Precision Training in DeepSpeed
Model Conversion Latency vs Accuracy
Model Quantisation and Management in Ollama
Model Quantization in LiteRT
Model Quantization Techniques in LiteRT
ND-series A100/H100 VMs
NVLink Multi-GPU Interconnect
Ollama GPU Acceleration
QLoRA Fine-tuning
QLoRA (Quantised LoRA)
QLoRA (Quantized Low-Rank Adaptation)
QLoRA
RabitQ Quantization
Sequence Parallelism
Serverless GPU Computing
Speculative Decoding in llama.cpp
Speculative Decoding
Strix Halo Systems
Tensor Processing Unit (TPU)
TensorRT Engine Conversion
TensorRT-LLM
TensorRT Model Optimization
TPU v6e (Trillium)
vLLM Continuous Batching
vLLM Speculative Decoding
vLLM Tensor and Pipeline Parallelism
ZeRO-Offload
ZeRO (Zero Redundancy Optimizer)

Data Infrastructure

AI-Native Graph and Vector Databases
Approximate Nearest Neighbor (ANN) Search in Pinecone
Auto-embedding in Vector Databases
Automated Metadata Extraction
Azure Cosmos DB Vector Search
Azure ML Model Registry
ChromaDB Collections
ChromaDB
Cognify Pipeline
Collections in Vector Databases
Common Data Stack for AI Analytics
Cosmos DB NoSQL API Vector Support
Cross-Instance KV Sharing
Cypher Query Language
Data Version Control (DVC)
Dataflow
Dataset Curation from Production Traces
DiskANN Indexing
DiskANN
Document Ingestion Timestamp
Dual Indexing (Vector-Graph)
Feast (Feature Store)
Feast
Feature Materialization
Feature Service
Feature Store
Global Distributed Vector Search
GSQL
Helix Query Language (HQL)
HNSW and DiskANN Index Algorithms
HNSW + Flat Indexing
HNSW Index in Redis
HNSW Indexing in Vector Search
HQL (Helix Query Language)
Hybrid Operational-Vector Database Architecture
Knowledge Ingestion Workflow
LlamaCloud
LlamaIndex
LlamaParse
LM Cache
Local-first Database
Metadata Filtering in Vector-based Queries
Native Graph Storage
Neo4j
neosemantics (n10s)
OCR Engines
Online vs Offline Feature Stores
Operational and Vector Data Co-location
Persistent and In-Memory Storage Modes
Pinecone Inference API
Pinecone Namespaces
Pinecone Pod-based Indexing
Pinecone Serverless Architecture
Pinecone
Point-in-Time Correctness
Proxima Vector Search Engine
Reading Order Reconstruction
Redis Semantic Cache Threshold Tuning
Redis Semantic Caching
RediSearch
RedisJSON
Semantic Cache Threshold Tuning
Source Management System
TigerGraph vs Neo4j Comparison
TigerGraph
Token-Level Cache Granularity
Trace-to-Dataset Curation
Unified Graph-Vector Search
Vector Database Inference API
Vector Store Solutions
Vector Stores for AI Search
Vectoriser Modules
Weaviate
Write-ahead Logging (WAL)
Zvec Concurrent Access
Zvec Vector Database

Deployment and Orchestration

Azure ML Managed Online Endpoints
Customer-Managed Compute
Daytona
Declarative Image Builder
Declarative ML Task Definitions
Decorator-based Infrastructure-as-Code
Decorator-based Serverless Deployment
Durable Execution in Orkes Conductor
Durable Execution
GPU Cloud Provisioning
Hermes Agent Deployment Patterns
Hermes Agent Docker Deployment Strategies
hermes-alpha
Hermes Docker Compose Configuration
Hermes Multi-Agent Container Architecture
Hermes Nix Installation
Hermes VPS Deployment Options
Human-in-the-Loop Workflows
InferenceService (KServe)
KServe
LLM Prompt Management with Deployment Labels
Local LLM Deployment Strategies
Netflix Conductor Architecture
NVIDIA Triton Inference Server
OpenRouter Spawn
Orkes Conductor Overview
Orkes Platform
Saga Pattern in Workflow Orchestration
Self-hosted Workflow Platforms
Serverless Cold Start
Sky Serve
SkyPilot
Temporal Activities
Temporal Workflow Orchestration
TFLite Converter
Transformer Sidecar (KServe)

AI Modeling

Andrej Karpathy
Approximate Nearest Neighbor (ANN) Search
Arxiv Source for Concepts
Bandit Algorithms in AI
Batch Embedding Processing
Causal Masking in Transformer Inference
Chain-of-Thought Distillation
Entity-Relationship Extraction (LLM)
Evaluation Metrics for Prediction Models
Evol-Instruct
Extractive Summarization
Faithfulness Metric
Faithfulness (RAG)
Feature Distillation
Flash Attention 2 Integration
Flux Model
FLUX.1 [schnell] & [dev]
Gecko Embedding Model
Gemini 2.5 Flash
Gemini 2.5 Pro
Gemini 2.5 Series
Gemini AI Model Family
Gemini Embedding 2
Gemma 4 series
Generative Modules in Weaviate
GLM-5.1
GLM-OCR
Gradient Boosting in Prediction Systems
Map-reduce Summarization Pattern
Matryoshka Representation Learning (MRL)
Mean Opinion Score (MOS) in TTS
Mean Opinion Score (MOS)
Mechanical Slop Scorer
mergekit
Microsoft GraphRAG
Mixture of Experts (MoE) in Mixtral
Mixture of Experts (MoE)
ML Evaluation Metrics
Model Efficiency vs. Scale in AI
Model Ensemble Pipelines
Model Ensembling in Triton
Model Fine-Tuning
Model-Graded Evaluation
Model Merging
Model Self-Review Ceiling
Model Soup
Modular RAG
Multi-format OCR Support
Multi-head Latent Attention (MLA)
Multi-hop Reasoning in RAG
Multi-image Coherent Batching
Multi-model Inference Pipelines
Multi-Token Prediction (MTP)
Multichannel Audio Transcription
Multilingual Speech Synthesis
Multilingual Text-to-Speech
Named Entity Recognition in OCR/NLP
Native Multimodality
Neural Time-Series Models
Neural Time-series Prediction Models
OCR for Handwriting Recognition
OCR-NLP Document Pipeline
OCR-NLP Pipeline
Omnivoice
Open Model
OpenAI Embeddings API
OpenAI text-embedding-3 Models
Reference-Free Evaluation
Reference-Free RAG Evaluation
Two-Stage Recommendation Pipeline
Two-Tower Neural Networks for Recommendations
Types of Graph RAG
Vector Embeddings in Semantic Search
Web-grounded Image Generation

Large Language Models

Abstractive Summarization
Direct Preference Optimisation (DPO)
GPT-4o
GPT-5.5
GPT-Image-2
Llama 3.x Series
Llama Fine-Tuning Ecosystem
Llama Guard 3
Llama (Large Language Model Meta AI)
LLM Text and Code Generation
Logit Distillation
LoRA Adapter Merging
LoRA (Low-Rank Adaptation)
LoRA Serving in vLLM
LoRA Techniques
OpenAI GPT Models (Closed Source)
Recency Bias in LLMs
Rejection Sampling in LLM Inference
Rotary Position Embedding (RoPE)
Sliding Window Attention (SWA)
Soft Probabilities in Distillation
Standardized Dataset Formats (Alpaca/ShareGPT)
SwiGLU Activation
text-embedding-3 series
text-embedding-ada-002
Tongyi Qianwen
Xiaomi MiMo-V2.5 Open-Source Release
Xiaomi MiMo-V2.5

Multimodal AI

Chainlit Multi-modal Capabilities
Chainlit Multi-modal Input Handling
Diffusion Models for Image Generation
GPT-4o Audio Modality
GPT-Image-2 and Multimodal AGI Progress
Interleaved Multimodal Input
Multi-modal AI Generation
Multi-modal Vector Database
Multimodal Embeddings
Pixtral Large
Qwen2-VL
Text-to-Video Retrieval

Reasoning and Retrieval

Advanced Prompt Engineering Techniques
Advanced RAG
Agentic RAG
AgentIR Reasoning-Embedded Retrieval
Answer Correctness (RAGAS)
Answer Relevancy Metric
Anthropic Contextual Retrieval
Auto-merging Retrieval
Chain-of-Thought (CoT)
Cohere Embed v3
Cohere Rerank API
Community Detection in GraphRAG
Community Detection in Knowledge Graphs
Concept Prompt Engineering
Corrective RAG (CRAG)
Cosine Similarity in Embeddings
Cross-Encoder Re-ranking in Hybrid Search
Cross-Encoder Re-ranking
Cross-lingual Information Retrieval (CLIR)
Cross-lingual Retrieval
Cross-lingual Semantic Search
Deep Link Analysis
Deep Think Mode
Dense and Sparse Vector Support
Dense Retrieval
Dense Vector Retrieval
Embedding Models in Search
Entity-Relationship Extraction for GraphRAG
Global Search in GraphRAG
Graph RAG
Graph-Vector Hybrid Retrieval
Grouped Query Attention (GQA)
Hierarchical Summarization
Hybrid Search Alpha Parameter
Hybrid Search Architecture
Hybrid Search Implementation
Hybrid Search in Information Retrieval
Hybrid Search in Zvec
Hybrid Search System Architecture
Hybrid Search Techniques
Hybrid Search Tuning Parameters
Hybrid Search with Dense and Sparse Retrieval
Hybrid Search
HyDE (Hypothetical Document Embeddings)
Implementation of Hybrid Search Systems
Input Type Parameterization
input_type Parameter
Key Graph Databases
Knowledge Graph QA
LangChain Summarisation Chains
Leiden Algorithm
LLM-as-Judge Evaluation
LLM-as-Judge in RAGAS
LLM-as-judge Scoring
LLM-as-Judge
LLM Reasoning in Recommendations
LLM Text Descriptors
Local Search in GraphRAG
Local vs Global Search in GraphRAG
Long-Context RAG
Lost-in-the-Middle Mitigation
Multilingual RAG
Multimodal RAG
Naive RAG
OpenAI o-Series Reasoning Models
OpenAI Reasoning Models (o1/o3/o4-mini)
Parent Document Retrieval
PropertyGraphIndex
Query-focused Summarization
QwQ-32B
QwQ Reasoning Model
RAG Evaluation Metrics
RAG-grounded Answering in Chatbots
RAG Pipeline
RAG Pipelines
RAG Quality Factors
RAG System
RAGAS Core Metrics
RAGAS Framework
RAGAS
Re-ranking in AI Search Systems
Re-ranking with Cross-Encoder Models
Reciprocal Rank Fusion (RRF)
Recursive Retrieval
Refine Summarization Pattern
Relation of Context Engineering to RAG and Memory Systems
Relevance in LLM Contexts
Relevance over Volume in Context Engineering
Response Synthesizers
Retrieval-Augmented Generation in Chatbots
Retrieval-Augmented Generation (RAG)
Retrieval Rails
Root Cause Analysis with AI
Router Query Engine
Self-RAG
Self-Taught Reasoner (STaR)
Small-to-big Retrieval
Sparse Retrieval
Speculative RAG
Step-back Prompting
Sub-Question Query Engine
SubQuestion Query Engine
Text-to-SQL
Thinking Budget in LLMs
Thinking Toggle
Traditional Rule Engines
Tuning Parameters for Hybrid Search
Zero-shot Prompting

Specialized AI Models

ACE-Step 1.5
Brand Voice Adaptation Using Fine-Tuned Models
Brand Voice Adaptation
Business Rule Extraction from Policies
Business Rules Modelling and Execution with AI
Chroma
Codestral
Cold-Start Problem in Recommendation Systems
Collaborative Filtering
Comparison of Approaches in NBA
Connectionist Temporal Classification (CTC)
Contract Clause Extraction
CTC Decoder (Connectionist Temporal Classification)
Custom PII Recognizers
Custom Vocabulary (STT)
DAIL-SQL
DARE (Drop And REscale)
Deep Learning for Multivariate Sequences
Deepgram Nova-2 STT
Deepgram Nova-2
DeepSeek-R1
DeepSeek-V3
DeepSeek-V3.1
DeepSeek-V3.2
DeepSeek
Defog SQLCoder
Document Classification in OCR/NLP
Document Classification
GPT-4o-mini
Gradient Boosting Models
Handwriting Recognition in OCR
Imagen 3
Instant Mode vs Thinking Mode
KenLM Language Model Integration
KenLM
Klein 9B
Kokoro TTS
Layout-aware Parsing in OCR/NLP
Layout-aware Parsing
LLM-enhanced Feature Engineering
LLM-Rule Engine Hybridization
LTX-2.3
Machine Learning Prediction Systems
Minimax-M2.7
Mistral 7B
Mistral AI
Mistral Large 2
Moonshot Kimi K2.6
Mozilla DeepSpeech
NSFW Content Generation Models
Opus 4.6
ParseBench for Document Parsing Agents
ParseBench
PrismML Bonsai
Qwen 2.5 Series
Qwen 3.5 Series
Qwen Models
Qwen2.5-Coder
Qwen2.5-Math
Qwen3-TTS
Qwen3.5 Series
Qwen3.6-35B
Recommendation Systems in AI
Rule Conflict and Redundancy Detection
SQL Generation Models
Statistical Forecasting Methods
Statistical Forecasting Techniques
Structured Output Generation
Synthetic Data Generation with LLMs
Synthetic Data Generation
Tabular Data Prediction
Time-Series Forecasting Models
XTTS-v2
Z-Image
Zero-shot Speaker Adaptation
Zeta Chroma

AI Operations

Agno Platform
AI Impact Analytics
Batch and Real-Time Prediction Serving
Chainlit Human Feedback Mechanism
Chainlit Human Feedback
Continuous Batching
Continuous Fine-tuning in CI/CD
EvidentlyAI
Explainable AI Decisions in Business Rules
GenAI Semantic Conventions
GLiNER Integration
Hermes Agent Deployment Services
LLM Benchmarking
Metric Presets in Monitoring
ML Observability Test Suites
Model Drift Monitoring
Model Monitoring in Vertex AI
Model Performance Monitoring
OpenAI Evals
OpenInference Instrumentation
OpenLLM Telemetry
OpenLLMetry (Traceloop)
OpenTelemetry for LLM Observability
OpenTelemetry (OTEL) for AI
OpenTelemetry (OTEL) Native
Regression Testing for LLM Applications
Regression Testing for LLMs
Regression Testing in LLMs
Shape Up Methodology
Stack Migration Services
Usage-Based Billing for AI Coding Tools
Usage-Based Pricing for AI Coding Tools
User-Level Analytics in AI Applications
User-level LLM Analytics
Vendor-Neutral LLM Observability
Vertex AI Model Monitoring

Cost Management

AI Cost Audit
AI ROI in Engineering
AI Stack Optimization
Cost-Aware Agent Evaluation
Cost Management in LiteLLM
Cost Management in LLM Usage
Cost-Optimized Model Routing
Credit Rollover and Banking in AI Subscriptions
DeepSeek KV Cache Price Reduction
Embedding Price-Performance Tradeoffs
Hermes Token Efficiency Optimization
LLM Cost Attribution via Telemetry
Off-Peak AI Pricing
Per-Second Billing for AI Inference
Per-second Cloud Billing
Request Quota Systems in AI Platforms
Reserved GPU Instances
Spot GPU Pricing
Token Credit Pricing in AI Services
TPS (Tokens Per Second) Tiering

Monitoring and Observability

Arize Phoenix
Auto-instrumentation
Data Drift Detection
Data Drift Monitoring
DORA Metrics in AI Analytics
Engineering Analytics Taxonomy
Engineering Intelligence
Engineering Management Platform (EMP) AI
Hierarchical Tracing in LLMs
LangSmith Automatic Tracing
LLM Auto-Instrumentation
LLM Production Monitoring
LLM Text Evaluation
LLM Tracing
Local-first AI Observability
Logfire
Observability in Orkes Conductor
Step & Action Tracing in Chainlit
Streaming in LangGraph
Structured Logging in Python
Trace-based LLM Evaluation
Training-Serving Skew

Safety and Governance

Audit Trails in AI-Driven Rule Systems
Automated Quality Gates for LLMs
Automatic PII Scrubbing
Bidirectional Safety Classification
CaMeL Trust Boundary
Change Space Constraints
Change Space
CodeShield
Constitutional AI in Prompts
Customizable Safety Taxonomy
Data Fidelity as Execution Risk
Diff-based AI Detection
Einstein Trust Layer
Hazard Categories in AI Moderation
Human Escalation in Chatbot Interactions
Human-in-the-loop Escalation
Human Review Queue for Agent Changes
Indirect Injection Defense
Indirect Prompt Injection
Input and Output Rails
Input-Output Guardrails for Agents
Jailbreak Resistance in Guardrails
Jailbreak Resistance in LLMs
Jailbreak Resistance
Llama Firewall (Meta)
Llama Firewall
Llama Guard
Llamaguard
LLM Input/Output Rails
LLM Virtual Keys
NVIDIA NeMo Guardrails
Off-Hours Review Hallucination
Per-Issue Workspace Isolation
PII Anonymization Operators
PII Scrubbing in LLM Pipelines
Prompt Injection Detection
Purple Llama
PurpleLlama Project
PurpleLlama
Quality Controls in AI Content Generation
Quality Controls in Automated Content Generation
Safety Guardrails in AI Chatbots
Safety Guardrails in LLM Chatbots
Safety Red-Teaming in Evals
Safety Red-Teaming
Safety Taxonomy Customization
Sandboxed Credentials
Spending Envelopes
Topical Rails
Wallet Delegation

Scalability and Reliability

AI Workflow Durability with Temporal
Inference Request Throttling
LLM Load Balancing and Fallbacks
Load Balancing in LiteLLM
Spot Instance Failover in SkyPilot
Spot Instance Failover

AI Tooling

AI-Assisted Code Analytics
AI Code Rework Rate
AI Coding Agent Pricing Models
AI Coding Agent Pricing Tiers
AI Coding Agent Subscription Models
AI Coding CLI Tools
Bento Package Format
Bento (Packaging Format)
BentoML
Chainlit Authentication Features
Claude Code
Config-First LLM Fine-tuning
CopilotKit
CopilotTextarea
Coqui STT
Coqui TTS
Declarative Agent Builder
Deepgram Client SDK
Direct AI Service Providers
Fair-Code License
faster-whisper
Fine-Tuning Toolkits
Flat Buffer Format for LiteRT
Function Decorators for LLM Tools
GGUF Export and Ollama Deployment
GGUF Format in Ollama
GGUF Quantisation in llama.cpp
Instructor Library
Katib
KPipeline
Kubeflow Central Dashboard
Kubeflow Notebooks
Kubeflow Training Operator
LangChain Framework
LangChain Integrations
Langfuse
LangSmith
MCP vs. Tools as Code Trade-offs
Microsoft Presidio
ML Reproducibility with DVC
Modelfile in Ollama
n8n AI Nodes
n8n Code Nodes
n8n Credentials Management
n8n Error Handling Features
n8n Fair-code License
n8n Trigger Nodes
n8n Visual Workflow Builder
n8n Webhook Triggers
n8n Workflow Automation Platform
Neo4j Graph Data Science (GDS)
Netflix Conductor
Oaieval CLI
on_message Decorator
OpenCode
Opportunity Solution Tree
Orkes Workflow SDKs
Pod Templates
Presidio Analyzer Engine
Presidio Anonymizer Engine
Presidio Image Redactor
Prompt Flow
Trace Explorer
Unified API in LiteLLM
Universal Tool Calling Protocol (UTCP)
Unsloth
Unstructured.io
useCoAgent hook
UTCP JSON Manifest
UTCP (Universal Tool Calling Protocol)
Vanna.ai
Vercel AI SDK
Vertex AI Studio Training and Tuning
Visualizations in AI Systems
W&B Artifacts
W&B Reports
W&B Sweeps
Weave (W&B)
Weights & Biases (W&B)

AI Development Tools

Amazon SageMaker Studio
AutoML
AWS Neuron SDK
Axolotl
Distilabel
Docling
DVC (Data Version Control)
DVC Experiments
DVC vs MLflow Comparison
Human Annotation in LangSmith
Hyperparameter Tuning
LangSmith Prompt Hub
LLaMA-Factory
LlamaBoard
Low-Code RAG Orchestration
Streamlit for AI Prototyping
Streamlit
YAML-Configured Training
Zero-Cost Local Prototyping

AI Integration and Automation

AI-to-AI CLI Bridging
LiteLLM Proxy Mode
LiteLLM SDK Mode
N×M Integration Problem
State Delta Patching
Stripe Projects Integration

AI Pipelines and Workflows

Azure ML Pipelines
Distributed Inference Chaining
Document Processing Pipeline
DVC Pipelines
Kubeflow Pipelines (KFP)
LCEL (LangChain Expression Language)
SkyPilot YAML Task Definitions

AI User Interfaces

Chainlit Copilot Mode
Chainlit Instant Chat UI
Chatbot UI Frameworks
Embedded Analytics
Hermes Client Web UI
LLM Data Narration
SSE (Server-Sent Events) in AG-UI
Streaming Support in Chainlit

AI Use Cases

Claude.ai
Customer Support Deflection
Elvis Saravia (omarsar0)
Enterprise Use Cases for AI Search
Generative AI in Content Creation
LiteRT Use Cases
ML Prediction Systems in Various Industries
ML Prediction Workflow
Multi-Channel Action Delivery
Narrative Reporting with LLMs
Natural Language Policy Translation in AI
Natural Language Queries in AI Search
Natural Language Queries in Search
Next Best Action Systems
Privacy-First Speech Recognition
Real-time Audio Streaming in TTS
Real-time Scoring for NBA
Real-time Scoring for Next Best Action
Real-Time Scoring in Next Best Action
Real-time Streaming Speech-to-Text
Real-time Streaming Transcription
Technology Adoption Life Cycle (Chasm)
Use Cases for AI in Prediction Systems
Use Cases for Graph RAG
Use Cases for OCR/NLP in Document Processing
Use Cases for Orkes Conductor
Visual Code Testing

Business Automation

Agentic Commerce
AI Business Automation Consulting
Internal Helpdesk Chatbots
Invoice Processing Automation
LLM-powered Chatbots in Enterprise
LLM-powered Chatbots
Tier-1 Support Deflection

Content Generation

Adversarial Editing
Agentic Content Creation Pipelines
Personalized Content at Scale
Personalized Content Generation
Template Fill Pattern for AI Personalization
ThoughtSpot Sage

Predictive Analytics

Trend Identification in AI Analytics

Specialized Domains

AI Advisor for Engineering Managers
AI-Driven Document Classification
AI Integration Patterns in Rule Systems
AI-Powered Analytics
AI-Powered Content Pipelines
AI-powered Enterprise Document Search
AI-Powered Root Cause Analysis
AI Use Cases in Search
Anomaly Detection in AI Systems
ASR Smart Formatting
Automated Lead Enrichment
Automated Reporting with LLMs
Automatic Speech Recognition (ASR)
Autonomous AI Companies
Autonomous Game Development
Autonomous Novel Writing Pipeline
Graph RAG Use Cases
Jellyfish Assistant
Machine-to-Machine OCR Standards

Home›AI Operations›Safety and Governance›LLM Virtual Keys