1.流式处理
流式处理(Stream Processing)是指实时处理数据流的技术。这些数据流可能来源于用户点击、传感器数据、日志文件等。流式处理的特点是数据一到就被处理,能提供实时的结果和响应。常见的流式处理框架有Apache Kafka、Apache Flink、Apache Storm等。
2.批量处理
批量处理(Batch Processing)则是指在一个时间窗口内处理大量数据的技术。它通常处理存储在数据库或文件系统中的大批数据,并生成离线分析报告或结果。批量处理的特点是处理大量数据时性能优越。常见的批量处理框架有Apache Hadoop、Apache Spark等。
3.流批一体的定义
流批一体(Unified Stream and Batch Processing)是将流式处理和批量处理的优势结合在一个统一的框架中进行数据处理。其目标是通过一个系统同时支持实时数据流处理和离线数据处理,提供更加灵活和高效的数据处理能力。