2026年logstash教程

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

Logstash 简介

Logstash 核心架构

环境准备与安装

- 3.1 系统要求

- 3.2 安装步骤（Linux/Windows）

- 3.3 验证安装

Logstash 基础配置（核心）

- 4.1 配置文件结构（Input → Filter → Output）

- 4.2 第一个 Demo：标准输入 → 标准输出

- 4.3 常用 Input 插件配置

- 4.4 常用 Filter 插件配置（Grok 解析日志）

- 4.5 常用 Output 插件配置（Elasticsearch）

实战案例

- 5.1 案例 1：采集本地日志文件到 Elasticsearch

- 5.2 案例 2：接收 Filebeat 采集的分布式日志

Logstash 运维与优化

- 6.1 查看 Logstash 日志

- 6.2 性能优化（线程、内存配置）

- 6.3 常见问题排查

附录：常用插件参考

Logstash 是 Elastic Stack（ELK Stack：Elasticsearch、Logstash、Kibana）的核心组件之一，定位为 开源日志采集与数据处理引擎，主要功能：

数据采集：从文件、数据库、消息队列、网络端口等多种来源获取数据；

数据处理：对原始数据进行过滤、清洗、转换（如日志解析、字段提取、格式统一）；

数据输出：将处理后的数据发送到 Elasticsearch、Kafka、文件等目标存储。

适用场景：日志集中管理、数据格式标准化、多源数据聚合（如将应用日志、服务器日志、数据库日志统一导入 Elasticsearch 分析）。

Logstash 基于 管道（Pipeline） 工作，每个管道由三部分组成，流程为：Input → Filter → Output，且三部分均通过插件扩展功能。

组件作用常用插件示例 Input 采集数据，从外部数据源读取原始数据到 Logstash 管道 file（文件）、beats（接收 Filebeat）、stdin（标准输入）、kafka（消息队列） Filter 处理数据，对 Input 采集的原始数据进行清洗、转换、提取字段（可选环节） grok（日志解析）、mutate（字段修改）、date（时间格式化）、json（JSON 解析） Output 输出数据，将 Filter 处理后的结构化数据发送到目标存储 elasticsearch（Elasticsearch）、stdout（标准输出）、file（本地文件）、kafka

注意：Filter 是可选的（若无需处理数据，可直接 Input → Output）；一个 Logstash 实例可配置多个 Pipeline（多管道并行工作）。

3.1 系统要求

操作系统：Linux（推荐 CentOS/Ubuntu）、Windows、macOS；

Java 环境：Logstash 依赖 JDK，需安装 JDK 11+（与 Elasticsearch 版本兼容，建议统一使用 Elastic 官方 JDK）；

资源配置：最低 2C 4G（生产环境建议 4C 8G 以上，根据日志量调整）。

3.2 安装步骤（以 Linux 为例，CentOS 7）

步骤 1：安装 JDK（若未安装）

步骤 2：安装 Logstash（以 8.10.0 版本为例）

3.2.2 Windows 安装步骤

下载 Logstash 压缩包（官网下载地址）；

解压到本地目录（如 D:logstash-8.10.0）；

配置 JAVA_HOME 环境变量（指向 JDK 11+ 目录）；

打开命令提示符（CMD），进入 D:logstash-8.10.0bin 目录，执行后续命令。

3.3 验证安装

通过 标准输入 → 标准输出 的简单命令验证 Logstash 是否正常运行：

-e：表示 “临时配置”，直接在命令行写简单的 Pipeline 配置，无需单独创建配置文件；

执行后，终端会提示 Successfully started Logstash API endpoint，此时输入任意内容（如 hello logstash），Logstash 会将输入内容以结构化格式输出（默认 JSON 格式），示例：

按 Ctrl + C 退出验证。

Logstash 生产环境中需通过 配置文件 定义 Pipeline（而非 -e 临时配置），配置文件为 UTF-8 编码的文本文件，语法遵循 Ruby 风格（键值对用 => 分隔，字符串用单引号 / 双引号）。

4.1 配置文件结构

一个完整的 Pipeline 配置文件包含 Input、Filter（可选）、Output 三部分，示例框架：

4.2 第一个 Demo：标准输入 → 标准输出（配置文件版）

步骤 1：创建配置文件

在 Logstash 的 config 目录下创建 logstash-stdin.conf 文件：

步骤 2：启动 Logstash 并加载配置文件

启动成功后，输入任意内容（如 test config file），Logstash 会输出包含 source_type: manual_input 字段的结构化数据，说明配置生效。

4.3 常用 Input 插件配置

4.3.1 File 插件（采集本地文件日志）

用于采集服务器本地日志文件（如 Nginx 访问日志、应用程序日志），核心参数：

关键说明：sincedb_path 用于记录每个文件的读取进度（如已读取到第几行），Logstash 重启后会从上次中断的位置继续读取，避免重复采集；若需重新读取所有文件，可删除 sincedb 文件后重启。

4.3.2 Beats 插件（接收 Filebeat 采集的日志）

当日志分布在多台服务器时，通常用 Filebeat（轻量级采集器）在每台服务器采集日志，再发送到 Logstash 处理（Filebeat 资源占用远低于 Logstash，适合分布式场景）。Logstash 配置 Beats 插件接收数据：

对应 Filebeat 配置（参考）：

4.4 常用 Filter 插件配置（核心：Grok 解析日志）

Filter 是 Logstash 数据处理的核心，其中 Grok 插件 用于解析非结构化日志（如 Nginx 日志、Tomcat 日志），将其转换为结构化字段（便于后续在 Kibana 中筛选、聚合）。

4.4.1 Grok 基础：预定义模式与自定义模式

Grok 通过 “模式匹配” 提取日志中的字段，Elastic 提供了大量 预定义模式（如 %{IP} 匹配 IP 地址、%{NUMBER} 匹配数字、%{COMBINEDAPACHELOG} 匹配 Apache/Nginx 访问日志），完整预定义模式可参考 Grok 模式库。

示例 1：解析 Nginx 访问日志

Nginx 访问日志默认格式（在 nginx.conf 中定义）：

对应的 Grok 配置（用预定义模式 %{COMBINEDAPACHELOG} 直接匹配）：

解析后生成的结构化字段：remote_addr（客户端 IP）、remote_user（远程用户）、request（请求内容，如 GET /index.html HTTP/1.1）、status（HTTP 状态码）、body_bytes_sent（发送字节数）等。

示例 2：自定义 Grok 模式（解析自定义日志）

若日志格式为自定义（如 2025-09-17 10:30:00 [INFO] user=zhangsan action=login），需自定义 Grok 模式：

4.4.2 常用 Filter 插件：Mutate（完整示例）

Mutate 插件是 Logstash 最灵活的 Filter 之一，支持对字段进行多种修改操作，以下是常见用法的综合示例：

关键说明：Mutate 插件的操作按配置顺序执行，建议先做 “类型转换” 和 “重命名”，再做 “添加 / 删除字段”，避免后续操作依赖的字段不存在。

4.4.3 常用 Filter 插件：JSON（解析 JSON 格式日志）

若日志本身是 JSON 格式（如应用程序输出的结构化日志），无需用 Grok 手动解析，直接用 JSON 插件即可自动提取字段，示例：

优势：相比 Grok，JSON 插件解析效率更高，且无需编写复杂的匹配模式，适合结构化日志场景。

4.5 常用 Output 插件配置

Output 插件决定 Logstash 处理后的数据流向，以下是生产环境中最常用的 2 种 Output 配置：

4.5.1 Elasticsearch 插件（核心输出目标）

将结构化数据写入 Elasticsearch，是 ELK Stack 的标准流程，支持集群、认证、按日期分片索引等功能，完整配置：

索引模板示例（nginx-template.json）：

提前定义字段类型（如 client_ip 为 IP 类型、status 为整数类型），避免 ES 自动识别错误：

4.5.2 File 插件（输出到本地文件）

适合无需实时分析、仅需本地备份日志的场景（如非核心日志的归档），配置示例：

5.1 案例 1：采集本地 Nginx 日志到 Elasticsearch

场景描述

某服务器上运行 Nginx，需将 Nginx 访问日志（非结构化）通过 Logstash 解析为结构化数据，最终写入 Elasticsearch，便于在 Kibana 中查看访问量、错误率等指标。

步骤 1：确认 Nginx 日志格式

Nginx 配置文件（nginx.conf）中定义的访问日志格式（默认 combined 格式）：

步骤 2：编写 Logstash 配置文件（nginx-access.conf）

步骤 3：启动 Logstash 并验证

5.2 案例 2：接收 Filebeat 采集的分布式应用日志

场景描述

多台应用服务器（如 Tomcat 服务器）输出 JSON 格式的应用日志，需用 Filebeat 在每台服务器采集日志，发送到 Logstash 处理后写入 Elasticsearch，实现分布式日志集中管理。

步骤 1：配置 Filebeat（每台应用服务器）

Filebeat 配置文件（filebeat.yml），负责采集本地日志并发送到 Logstash：

步骤 2：编写 Logstash 配置文件（tomcat-app.conf）

Logstash 接收 Filebeat 数据，解析 JSON 日志并写入 Elasticsearch：

步骤 3：启动服务并验证

6.1 查看 Logstash 日志（排查问题核心）

Logstash 日志默认存储在 $LOGSTASH_HOME/logs 目录下，关键日志文件：

logstash-plain.log：主日志文件，包含启动信息、错误信息、Pipeline 运行状态（最常用）；

logstash-slowlog-plain.log：慢日志文件，记录处理耗时超过阈值的事件（默认关闭，需手动开启）。

常用日志查看命令

开启慢日志（优化性能瓶颈）

在 Logstash 主配置文件（$LOGSTASH_HOME/config/logstash.yml）中添加以下配置，开启慢日志：

使用场景：当 Logstash 处理延迟过高时，通过慢日志定位耗时环节（如 Grok 解析复杂日志、Elasticsearch 写入超时），针对性优化。

6.2 性能优化（生产环境必看）

Logstash 性能瓶颈多集中在 Filter 解析 和 Output 写入 环节，需从资源配置、插件参数、架构设计三方面优化：

6.2.1 资源配置优化（JVM 与进程）

JVM 内存配置（核心）

Logstash 基于 JVM 运行，内存不足会导致频繁 GC，严重影响性能。修改 $LOGSTASH_HOME/config/jvm.options：

注意：32G 内存服务器建议设置 -Xms16g -Xmx16g，不要超过 31G（JVM 对 32G 以上内存管理效率下降）。

Worker 线程配置

Logstash 用 “Worker 线程” 并行处理事件，修改 logstash.yml 调整线程数：

原理：pipeline.workers × pipeline.batch.size 决定 Logstash 单次并行处理的最大事件数，需避免过大导致内存溢出。

6.2.2 插件级优化（针对性提升效率）

Filter 优化（减少解析耗时）

- 优先用 JSON 插件替代 Grok：JSON 解析效率是 Grok 的 3~5 倍，若应用能输出 JSON 日志，尽量避免用 Grok；

- Grok 模式优化：避免使用复杂正则（如 .* 贪婪匹配），优先用预定义模式（如 %{IP} 替代自定义 IP 正则）；

- 添加条件过滤：用 if 语句跳过无需处理的日志（如仅处理 ERROR 级日志），减少无效计算：

Output 优化（提升写入吞吐量）

- Elasticsearch 批量写入：在 elasticsearch 插件中配置 flush_size 和 idle_flush_time（参考 4.5.1 配置），避免单条写入；

- 禁用 Output 重试：生产环境建议关闭 retry_on_conflict（默认 1），减少重试开销，若需保证数据不丢失，可配合 dead_letter_queue（死信队列）：

6.2.3 架构优化（分布式场景）

当日志量超过单台 Logstash 处理能力时，需通过 “多实例 + 负载均衡” 扩展：

部署多 Logstash 实例：在多台服务器部署 Logstash，均配置相同的 Pipeline（如接收 Filebeat 数据）；

Filebeat 负载均衡：修改 Filebeat 配置，将日志分发到多台 Logstash：

避免单点故障：多 Logstash 实例接入同一 ES 集群，任一 Logstash 宕机不影响整体流程。

6.3 常见问题排查（实战经验）

问题现象可能原因解决方案 Logstash 启动失败，日志报 Address already in use 5044 端口被占用（Beats 插件默认端口） 1. 用 `netstat -tuln Grok 解析失败，日志报 grok_parse_failed 1. 日志格式与 Grok 模式不匹配；2. 日志包含特殊字符（如中文） 1. 用 Grok Debugger 验证模式（输入日志和模式，查看匹配结果）；2. 确保日志编码为 UTF-8，在 Filebeat 中配置 encoding: utf-8 Elasticsearch 写入失败，日志报 401 Unauthorized 1. ES 用户名 / 密码错误；2. 用户无索引写入权限 1. 验证 ES 账号密码（用 curl -u 用户名:密码 http://es-node1:9200 测试）；2. 给用户添加写入权限（如通过 Kibana 角色管理，或执行 ES API：PUT /_security/role/logstash_writer { "indices": [{"names": ["*"], "privileges": ["create", "write"]}] }） Logstash 处理延迟高，慢日志显示 Filter 耗时久 1. Grok 模式复杂；2. Worker 线程数不足 1. 简化 Grok 模式，或改用 JSON 解析；2. 增加 pipeline.workers 线程数（不超过 CPU 核心数的 2 倍）

7.1 Input 插件速查

插件名称用途核心参数适用场景 stdin 标准输入无调试、测试 file 本地文件采集 path（文件路径）、sincedb_path（进度记录）单服务器日志采集（如 Nginx 日志） beats 接收 Filebeat 数据 port（监听端口）、ssl（是否启用 SSL）分布式日志采集（多服务器 → Logstash） kafka 从 Kafka 消费数据 bootstrap_servers（Kafka 地址）、topics（消费主题）高吞吐场景（如实时日志流）

7.2 Filter 插件速查

插件名称用途核心参数示例 grok 非结构化日志解析 match（字段与模式映射）、tag_on_failure（失败标签） match => { "message" => "%{COMBINEDAPACHELOG}" } mutate 字段修改 rename（重命名）、convert（类型转换）、remove_field（删除字段） convert => { "status" => "integer" } json JSON 日志解析 source（JSON 来源字段）、target（嵌套目标字段） source => "message" date 时间格式化 match（原始时间格式）、target（目标时间字段） match => { "log_time" => "yyyy-MM-dd HH:mm:ss" } drop 丢弃日志无 if [log_level] == "INFO" { drop {} }

7.3 Output 插件速查

插件名称用途核心参数适用场景 stdout 标准输出 codec（输出格式，如 rubydebug）调试、测试 elasticsearch 写入 ES hosts（ES 地址）、index（索引名）、user/password（认证） ELK Stack 标准流程 file 写入本地文件 path（文件路径）、gzip（是否压缩）日志本地归档 kafka 写入 Kafka bootstrap_servers（Kafka 地址）、topic（写入主题）日志转发到 Kafka 供其他系统消费 dead_letter_queue 死信队列 path（存储路径）、max_bytes（最大容量）存储处理失败的日志，避免数据丢失

Logstash 作为 Elastic Stack 的 “数据处理中枢”，核心价值在于将多源非结构化数据转为结构化数据，并灵活分发到目标存储。学习 Logstash 的关键是：

掌握 Pipeline 核心流程：Input（采集）→ Filter（处理）→ Output（输出），理解各环节插件的作用；

重点突破 Filter 解析：Grok（非结构化）和 JSON（结构化）是最常用的解析插件，需熟练使用；

重视运维优化：生产环境需通过 JVM 配置、线程调整、架构扩展提升性能，避免因配置不当导致瓶颈；

结合实战练习：通过 “采集 Nginx 日志”“接收 Filebeat 数据” 等案例，加深对配置的理解。

建议后续结合 Kibana 学习（如用 Kibana 查看 Logstash 写入 ES 的日志，制作可视化图表），完整掌握 ELK Stack 的应用流程。

3.1 系统要求

3.2 安装步骤（以 Linux 为例，CentOS 7）

步骤 1：安装 JDK（若未安装）

步骤 2：安装 Logstash（以 8.10.0 版本为例）

3.2.2 Windows 安装步骤

3.3 验证安装

4.1 配置文件结构

4.2 第一个 Demo：标准输入 → 标准输出（配置文件版）

步骤 1：创建配置文件

步骤 2：启动 Logstash 并加载配置文件

4.3 常用 Input 插件配置

4.3.1 File 插件（采集本地文件日志）

4.3.2 Beats 插件（接收 Filebeat 采集的日志）

4.4 常用 Filter 插件配置（核心：Grok 解析日志）

4.4.1 Grok 基础：预定义模式与自定义模式

4.4.2 常用 Filter 插件：Mutate（完整示例）

4.4.3 常用 Filter 插件：JSON（解析 JSON 格式日志）

4.5 常用 Output 插件配置

4.5.1 Elasticsearch 插件（核心输出目标）

4.5.2 File 插件（输出到本地文件）

5.1 案例 1：采集本地 Nginx 日志到 Elasticsearch

场景描述

步骤 1：确认 Nginx 日志格式

步骤 2：编写 Logstash 配置文件（nginx-access.conf）

步骤 3：启动 Logstash 并验证

5.2 案例 2：接收 Filebeat 采集的分布式应用日志

场景描述

步骤 1：配置 Filebeat（每台应用服务器）

步骤 2：编写 Logstash 配置文件（tomcat-app.conf）

步骤 3：启动服务并验证

6.1 查看 Logstash 日志（排查问题核心）

常用日志查看命令

开启慢日志（优化性能瓶颈）

6.2 性能优化（生产环境必看）

6.2.1 资源配置优化（JVM 与进程）

6.2.2 插件级优化（针对性提升效率）

6.2.3 架构优化（分布式场景）

6.3 常见问题排查（实战经验）

7.1 Input 插件速查

7.2 Filter 插件速查

7.3 Output 插件速查

相关推荐