使用 Java 搭配 Apache Commons Lang3 和 Natty 库,实现灵活高效的日期解析与格式化。
一、背景
将不同格式的日期统一成一个格式。日期格式可能有以下几种类型:
- 标准格式:
2024-02-28
、14/05/2022
、2002年5月6日
- 非英文月份缩写:
02 NIS 2018
、26 AGO 2018
(西班牙语) - 自然语言:
next Monday
、two days ago
二、依赖介绍
使用的版本是 jdk8。使用以下两个日期解析库:
1. Apache Commons Lang3
Apache Commons Lang3 提供了丰富的工具类,能够严格地解析各种标准日期格式。
<dependency><groupId>org.apache.commons</groupId><artifactId>commons-lang3</artifactId><version>3.12.0</version>
</dependency>
2. Natty
Natty 是一个专门用于解析自然语言日期的 Java 库,支持英文描述的各种日期表达方式。
<dependency><groupId>com.joestelmach</groupId><artifactId>natty</artifactId><version>0.13</version>
</dependency>
三、核心实现代码
定义一个工具类,提供统一的日期解析方法:
完整代码示例:
import org.apache.commons.lang3.time.DateUtils;
import com.joestelmach.natty.Parser;
import org.apache.log4j.Level;import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.*;/**** @title* @author shijiangyong* @date 2025/5/14 14:18**/
public class SmartDateParser {// 允许解析的日期格式private static final String[] DATE_PATTERNS = {"yyyy-MM-dd", "yyyy/M/d", "dd/MM/yyyy", "yyyy年M月d日","dd MMM yyyy", "MMM dd yyyy", "dd MM yyyy","yyyyMMdd", "yyyy.MM.dd", "yyyy年MM月dd日", "d MMM yyyy","EEE, dd MMM yyyy"};// 处理非标准月份缩写(主要针对西班牙语、法语等)private static final Map<String, String> MONTH_CORRECTIONS = new HashMap<>();static {MONTH_CORRECTIONS.put("NIS", "APR"); // 可能是 AprilMONTH_CORRECTIONS.put("ABR", "APR"); // 西班牙语 AprilMONTH_CORRECTIONS.put("AGO", "AUG"); // 西班牙语 August}/*** 解析日期并转换为 yyyy-M-d 格式*/public static String parseDate(String input) {if (input == null || input.trim().isEmpty()) {return "Invalid Date";}input = input.trim().replaceAll("[,,]", "");// 修正月份缩写for (Map.Entry<String, String> entry : MONTH_CORRECTIONS.entrySet()) {if (input.contains(entry.getKey())) {input = input.toUpperCase().replace(entry.getKey(), entry.getValue());}}// 1. 明确格式优先处理for (String pattern : DATE_PATTERNS) {try {SimpleDateFormat sdf = new SimpleDateFormat(pattern, Locale.ENGLISH);// 严格校验日期sdf.setLenient(false);Date date = sdf.parse(input);return formatToStandard(date);} catch (ParseException ignored) {}}// 1. 使用 Apache Commons Lang3 解析try {Date date = DateUtils.parseDateStrictly(input, Locale.ENGLISH, DATE_PATTERNS);return formatToStandard(date);} catch (ParseException ignored) {}// 2. 使用 Natty 解析 (适用于 `next Monday`, `19 AUG 2019`)try {Parser parser = new Parser();List<com.joestelmach.natty.DateGroup> groups = parser.parse(input);if (!groups.isEmpty()) {List<Date> dates = groups.get(0).getDates();if (!dates.isEmpty()) {return formatToStandard(dates.get(0));}}} catch (Exception ignored) {}return "Unrecognized: " + input;}/*** 统一转换日期为 yyyy-MM-dd 格式*/private static String formatToStandard(Date date) {Calendar cal = Calendar.getInstance();cal.setTime(date);int year = cal.get(Calendar.YEAR);int month = cal.get(Calendar.MONTH) + 1;int day = cal.get(Calendar.DAY_OF_MONTH);return String.format("%04d-%02d-%02d", year, month, day);}public static void main(String[] args) {org.apache.log4j.Logger.getRootLogger().setLevel(Level.ERROR);List<String> testDates = Arrays.asList("02 NIS 2018", "2028-4-219", "19 AUG 2019", "2019-8-19","2002年5月6日", "2005/02/03", "03 SEP 1985", "14/05/2022","20 FEB 1991", "26 AGO 2018", "08 ABR 1975", "01 09 1988","next Monday", "yesterday", "two days ago", "2024.02.28","Wed, 19 Aug 2019");for (String dateStr : testDates) {System.out.println("输入: " + dateStr + " → 解析: " + parseDate(dateStr));}}
}
解析结果:
输入: 02 NIS 2018 → 解析: 2018-04-02
输入: 2028-4-219 → 解析: 2028-04-21
输入: 19 AUG 2019 → 解析: 2019-08-19
输入: 2019-8-19 → 解析: 2019-08-19
输入: 2002年5月6日 → 解析: 2002-05-06
输入: 2005/02/03 → 解析: 2005-02-03
输入: 03 SEP 1985 → 解析: 1985-09-03
输入: 14/05/2022 → 解析: 2022-05-14
输入: 20 FEB 1991 → 解析: 1991-02-20
输入: 26 AGO 2018 → 解析: 2018-08-26
输入: 08 ABR 1975 → 解析: 1975-04-08
输入: 01 09 1988 → 解析: 1988-09-01
输入: next Monday → 解析: 2025-05-19
输入: yesterday → 解析: 2025-05-13
输入: two days ago → 解析: 2025-05-12
输入: 2024.02.28 → 解析: 2024-02-28
输入: Wed, 19 Aug 2019 → 解析: 2019-08-19
要求的日期格式都正确解析了。