平台Java方法来删除文件名特殊字符?

我正在制作一个跨平台的应用程序,根据在线检索的数据重命名文件。 我想清理从当前平台的Web API中获取的字符串。

我知道不同平台有不同的文件名要求,所以我想知道是否有跨平台的方式来做到这一点?

编辑:在Windows平台上,你不能有问号'?' 在文件名中,而在Linux中,您可以。 文件名可能包含这些字符,我希望支持这些字符的平台保留它们,否则将它们除去。

另外,我更喜欢不需要第三方库的标准Java解决方案。


正如其他地方所建议的,这通常不是你想要做的。 通常最好使用File.createTempFile()等安全方法创建临时文件。

你不应该白名单做这个,只保留'好'字符。 如果文件仅由中文字符组成,那么您将会将所有内容都删除。 由于这个原因我们不能使用白名单,我们必须使用黑名单。

Linux几乎可以让任何事情变成真正的痛苦。 我只是将Linux限制在与限制Windows相同的列表中,以便您在将来节省自己的麻烦。

在Windows上使用这个C#代码片段,我产生了一个在Windows上无效的字符列表。 这个列表中有不止一个字符比你想像的还要多(41),所以我不建议尝试创建你自己的列表。

        foreach (char c in new string(Path.GetInvalidFileNameChars()))
        {
            Console.Write((int)c);
            Console.Write(",");
        }

这是一个简单的Java类,它清理文件名。

public class FileNameCleaner {
final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47};
static {
    Arrays.sort(illegalChars);
}
public static String cleanFileName(String badFileName) {
    StringBuilder cleanName = new StringBuilder();
    for (int i = 0; i < badFileName.length(); i++) {
        int c = (int)badFileName.charAt(i);
        if (Arrays.binarySearch(illegalChars, c) < 0) {
            cleanName.append((char)c);
        }
    }
    return cleanName.toString();
}
}

编辑:正如斯蒂芬建议你可能也应该验证这些文件访问只发生在你允许的目录内。

以下答案具有示例代码,用于在Java中建立自定义安全上下文,然后在该“沙箱”中执行代码。

你如何创建一个安全的JEXL(脚本)沙箱?


或者只是这样做:

String filename = "A20/B22b#öABC#Ä$%ld_ma.la.xps";
String sane = filename.replaceAll("[^a-zA-Z0-9._]+", "_");

结果: A20_B22b_A_BC_ld_ma.la.xps

说明:

[a-zA-Z0-9._]匹配az大写或小写字母,数字,圆点和下划线的字母

[^a-zA-Z0-9._]是相反的。 即与第一个表达式不匹配的所有字符

[^a-zA-Z0-9._]+是与第一个表达式不匹配的一系列字符

因此,每个字符序列不包含az,0-9或。 _将被替换。


这是基于Sarel Botha接受的答案,只要您没有遇到基本多语言平面以外的任何角色,这些答案都可以正常工作。 如果您需要完整的Unicode支持(以及谁不支持?),请使用此代码,而不是Unicode安全代码:

public class FileNameCleaner {
  final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47};

  static {
    Arrays.sort(illegalChars);
  }

  public static String cleanFileName(String badFileName) {
    StringBuilder cleanName = new StringBuilder();
    int len = badFileName.codePointCount(0, badFileName.length());
    for (int i=0; i<len; i++) {
      int c = badFileName.codePointAt(i);
      if (Arrays.binarySearch(illegalChars, c) < 0) {
        cleanName.appendCodePoint(c);
      }
    }
    return cleanName.toString();
  }
}

这里关键的变化:

  • 使用codePointCount icw length而不是length
  • 使用codePointAt而不是charAt
  • 使用appendCodePoint而不是append
  • 不需要将charint 。 事实上,你不应该对char处理,因为它们在BMP之外的任何东西基本上都是坏的。
  • 链接地址: http://www.djcxy.com/p/54637.html

    上一篇: platform Java method to remove filename special chars?

    下一篇: How to open an std::fstream (ofstream or ifstream) with a unicode filename?