Spring Boot 整合 Apache Spark 进行日志分析?

经验文章nimo972024-12-23 9:46:5414A⁺A^-

通过Apache Spark对日志进行分析，可以实现很多复杂的日志分析操作，例如对日志解析、对系统异常的检测、还可以提取到日志中的关键词提取等。通过这些操作可以更好的了解系统的运行情况。下面我们就来看看利用SpringBoot整合Apache Spack如何实现系统日志分析操作。

项目搭建

第一步、引入Apache Spark的客户端依赖，如下所示。

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.12</artifactId>
    <version>3.2.0</version>
</dependency>

第二步、可以通过一个控制器来调用Apache Spark的API接口来进行日志处理分析操作，如下所示。

@RestController
public class LogAnalysisController {

    @Autowired
    private SparkSession sparkSession;

    @GetMapping("/analyzeLogs")
    public String analyzeLogs() {
        // 读取日志文件
        JavaSparkContext sparkContext = JavaSparkContext.fromSparkContext(sparkSession.sparkContext());
        JavaRDD<String> logs = sparkContext.textFile("logs.txt");

        // 执行日志分析操作
        long numberOfLines = logs.count();

        return "Number of lines in log file: " + numberOfLines;
    }
}

第三步、在SpringBoot的主启动类中添加SparkSesssion Bean，用来管理Apache Spark的会话信息。如下所示。

@SpringBootApplication
public class SpringBootSparkIntegrationApplication {

    public static void main(String[] args) {
        SpringApplication.run(SpringBootSparkIntegrationApplication.class, args);
    }

    @Bean
    public SparkSession sparkSession() {
        return SparkSession.builder()
                .appName("SpringBootSparkIntegration")
                .master("local[*]") // 在本地模式下运行
                .getOrCreate();
    }
}

在上面的的代码中，我们演示了如何从logs.txt中读取文件来进行数据的分析操作，当然在实际场景中，也可以指定目录来进行读取，或者是从前端传入指定的目录来进行日志读取分析。下面我们就来看看具体的操作。

实现对于日志的解析操作

日志的解析其实就是按照日志的格式对日志进行分析，提取出来有用的信息进行存储以便进行后续的分析操作，如下所示。

2022-04-01 10:15:30 INFO User logged in
2022-04-01 10:20:45 ERROR Database connection failed
2022-04-01 10:25:12 DEBUG Request received

在这个日志中包含了时间戳、日志级别和日志内容等信息。而我们的目的就是解析这个日志文件从中提取出时间戳、日志级别、日志内容等信息，如下所示。

@RestController
public class LogAnalysisController {

    @Autowired
    private SparkSession sparkSession;

    @GetMapping("/analyzeLogs")
    public String analyzeLogs() {
        // 读取日志文件
        JavaSparkContext sparkContext = JavaSparkContext.fromSparkContext(sparkSession.sparkContext());
        JavaRDD<String> logs = sparkContext.textFile("logs.txt");

        // 解析日志并提取信息
        JavaRDD<LogEntry> logEntries = logs.map(LogEntry::parseFromLogLine);

        // 输出解析后的日志信息
        logEntries.foreach(System.out::println);

        return "Log analysis completed. Please check console for results.";
    }

    // 日志实体类
    public static class LogEntry {
        private String timestamp;
        private String level;
        private String message;

        public LogEntry(String timestamp, String level, String message) {
            this.timestamp = timestamp;
            this.level = level;
            this.message = message;
        }

        public String getTimestamp() {
            return timestamp;
        }

        public String getLevel() {
            return level;
        }

        public String getMessage() {
            return message;
        }

        // 解析日志行并创建 LogEntry 实例
        public static LogEntry parseFromLogLine(String logLine) {
            // 使用正则表达式解析日志行
            Pattern pattern = Pattern.compile("(\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}) (\\w+) (.+)");
            Matcher matcher = pattern.matcher(logLine);

            if (matcher.find()) {
                String timestamp = matcher.group(1);
                String level = matcher.group(2);
                String message = matcher.group(3);
                return new LogEntry(timestamp, level, message);
            } else {
                throw new IllegalArgumentException("Invalid log line: " + logLine);
            }
        }

        @Override
        public String toString() {
            return "LogEntry{" +
                    "timestamp='" + timestamp + '\'' +
                    ", level='" + level + '\'' +
                    ", message='" + message + '\'' +
                    '}';
        }
    }
}

在上面的实现中通过LogEntry定义了一个日志解析的实体类，包含了时间戳、日志级别、日志内容等属性信息，然后定义了一个parseFromLogLine方法对日志进行解析，然后根据解析的结果来创建LogEntry的实例对象，然后通过Spark的Map来将其映射成LogEntry对象并且输出，在这里我们也可以对日志进行存储。

实现对于日志中的异常检测

要实现日志异常检测，首先需要做的事情就是从日志中分析出来异常的信息，并且对异常信息进行分析和检测。如下所示。

@RestController
public class LogAnalysisController {

    @Autowired
    private SparkSession sparkSession;

    @GetMapping("/detectExceptions")
    public String detectExceptions() {
        // 读取日志文件
        JavaSparkContext sparkContext = JavaSparkContext.fromSparkContext(sparkSession.sparkContext());
        JavaRDD<String> logs = sparkContext.textFile("logs.txt");

        // 提取异常信息
        JavaRDD<String> exceptions = logs.filter(LogEntry::containsException);

        // 输出异常信息
        exceptions.foreach(System.out::println);

        return "Exception detection completed. Please check console for results.";
    }

    // 日志实体类
    public static class LogEntry {
        private String message;

        public LogEntry(String message) {
            this.message = message;
        }

        public String getMessage() {
            return message;
        }

        // 检测日志中是否包含异常信息
        public static boolean containsException(String logLine) {
            // 在实际应用中，你可以根据日志的具体格式和异常信息的特征进行匹配
            return logLine.contains("Exception") || logLine.contains("ERROR");
        }
    }
}

还是跟上面的日志分析一样，通过定义一个日志实体类并且指定了相关的采集对象信息，通过containsException方法来检测日志信息中是否包含异常或者是错误信息，在实际使用的过程中对这个异常的处理要比这里处理的更加精细。然后处理完成之后，通过Spark的Filter过滤器来将日志中包含异常信息的数据过滤出来进行输出。

实现对于关键字的提取

对于关键字的分析提取需要我们对日志内容进行分词，然后从分词结果中提取出关键字来，如下所示。

@RestController
public class LogAnalysisController {

    @Autowired
    private SparkSession sparkSession;

    @GetMapping("/extractKeywords")
    public String extractKeywords() {
        // 读取日志文件
        JavaSparkContext sparkContext = JavaSparkContext.fromSparkContext(sparkSession.sparkContext());
        JavaRDD<String> logs = sparkContext.textFile("logs.txt");

        // 提取关键字
        JavaRDD<String> keywords = logs.flatMap(LogEntry::extractKeywords)
                                        .distinct();

        // 输出关键字
        List<String> keywordList = keywords.collect();
        return "Keywords extracted: " + keywordList;
    }

    // 日志实体类
    public static class LogEntry {
        private String message;

        public LogEntry(String message) {
            this.message = message;
        }

        public String getMessage() {
            return message;
        }

        // 提取关键字
        public static Iterable<String> extractKeywords(String logLine) {
            // 在实际应用中，你可以使用更复杂的分词工具或算法来提取关键字
            String[] words = logLine.split("\\s+"); // 简单地按空格分词
            return Arrays.asList(words);
        }
    }
}

在上面的代码中，与之前类似定义日志操作的实体类，然后通过extractKeywords方法来对日志行信息进行分析提取出其中的关键字，当然在实际使用场景中，我们可以利用更加复杂的分析工具来进行关键字的提取。然后我们通过Spark提供的flatMap操作来对每个日志中的关键字集合进行展开去重，最终将关键字列表反馈给客户端。

总结

以上的操作中，我们展示了如何进行日志分析、如何进行异常的采集、如何进行日志关键字提取，当然在实际开发场景中可以进行操作的内容远远不止这些，但是我们也发现了三种操作方式的模式都是一样的，通过对于日志实体类的定义、然后读取日志行信息，然后利用Spark进行分析，唯一不同的就是分析的过程有所不同，在实际操作过程中需要根据实际的情况来进行不同的调整。

点击这里复制本文地址以上内容由nimo97整理呈现，请务必在转载分享时注明本文地址！如对内容有疑问，请联系我们，谢谢！

apache的日志分析工具

上一篇：程序中的日志查询和分析工具

下一篇：LINUX 日志功能

Spring Boot 整合 Apache Spark 进行日志分析?

项目搭建

实现对于日志的解析操作

实现对于日志中的异常检测

实现对于关键字的提取

总结

相关文章