iTextSharp生成损坏的PDF文件

2018-06-16 12:24:44

我正尝试从HTML字符串和外部css文件生成PDF文件并将PDF保存到磁盘。正如你可以从这个例子看到的，我使用了非常简单的html。我知道通过查看intellisense，css文件正在读入ccsResolver。

这里是我使用的代码：

internal string Create(PdfDocumentDefinition documentDefinition)
{
    MemoryStream output = new MemoryStream();
    MemoryStream input = new MemoryStream(Encoding.UTF8.GetBytes("<html><head></head><body>Hello, World!</body></html>"));

    string pathName = @WebConfigurationManager.AppSettings["StagingPath"] + documentDefinition.DocumentName + ".pdf";
    Document document = new Document(PageSize.A4, 30, 30, 30, 30);
    PdfWriter writer = PdfWriter.GetInstance(document, output);

    using (output)
    {
        using (document)
        {
            document.Open();

            CssResolverPipeline pipeline = SetCssResolver(documentDefinition.CssFiles, document, writer);

            XMLWorker worker = new XMLWorker(pipeline, true);

            XMLParser parser = new XMLParser(worker);
            parser.Parse(input);

            output.Position = 0;
        }

        Byte[] data = output.ToArray();
        File.WriteAllBytes(pathName, data);
    }

    return pathName;
}

private CssResolverPipeline SetCssResolver(List<String> cssFiles, Document     document, PdfWriter writer)
{            
    var htmlContext = new HtmlPipelineContext(null);
htmlContext.SetTagFactory(iTextSharp.tool.xml.html.Tags.GetHtmlTagProcessorFactory());
    ICSSResolver cssResolver = XMLWorkerHelper.GetInstance().GetDefaultCssResolver(false);
    if (cssFiles != null)
    {
        foreach (String cssFile in cssFiles)
        {
             //cssResolver.AddCssFile(cssFile, true);
        }
    }

    return new CssResolverPipeline(cssResolver, new HtmlPipeline(htmlContext, new PdfWriterPipeline(document, writer)));            
}

这是在NotePad ++中查看的输出：

2 0 obj
<</Length 117/Filter/FlateDecode>>stream
xœ+ä*ä2Ð³P€á¢t.c 256U0·0R(JåJã
ÄªÊÜÒXÏÔHÁÌBÏÌBÁÐPÏ¢Ø@!¨¤Å)¤ÌÂÐH!$(¬khbè»*€„Ò¸4<RsròuÂó‹rR5C²€Š@JC€ú¼i!*
endstream
endobj
4 0 obj
<</Type/Page/MediaBox[0 0 595 842]/Resources<</Font<</F1 1 0 R>>>>/Contents 2 0 R/Parent 3 0 R>>
endobj
1 0 obj
<</Type/Font/Subtype/Type1/BaseFont/Helvetica/Encoding/WinAnsiEncoding>>
endobj
3 0 obj
<</Type/Pages/Count 1/Kids[4 0 R]>>
endobj
5 0 obj
<</Type/Catalog/Pages 3 0 R>>
endobj
6 0 obj
<</Producer(iTextSharp’ 5.5.7 ©2000-2015 iText Group NV (AGPL-version))/CreationDate(D:20151026102026-05'00')/ModDate(D:20151026102026-05'00')>>
endobj
xref
0 7
0000000000 65535 f 
0000000311 00000 n 
0000000015 00000 n 
0000000399 00000 n 
0000000199 00000 n 
0000000450 00000 n 
0000000495 00000 n 
trailer
<</Size 7/Root 5 0 R/Info 6 0 R/ID [<055082e8139638e35ce08dedae069690><055082e8139638e35ce08dedae069690>]>>
%iText-5.5.7
startxref
657
%%EOF

我一直在为此工作了大约4个小时。任何人都可以看到它为什么不生成有效的PDF？

尝试它

我将OP的原始代码简化为

[Test]
public void ResetStreamPositionAtEndOfUsing()
{
    string outputFilePath = @"test-resultsmiscresetStreamPosition.pdf";
    Directory.CreateDirectory(@"test-resultsmisc");

    MemoryStream output = new MemoryStream();

    Document document = new Document(PageSize.A4, 30, 30, 30, 30);
    PdfWriter writer = PdfWriter.GetInstance(document, output);

    using (output)
    {
        using (document)
        {
            document.Open();
            document.Add(new Paragraph("Test"));
            output.Position = 0;
        }

        Byte[] data = output.ToArray();
        File.WriteAllBytes(outputFilePath, data);
    }
}

运行它会产生一个与OP粘贴到问题中的PDF文件几乎相同的无效PDF文件。特别是PDF头缺失。

正如Chris Haas所建议的那样，我删除了虚线

            output.Position = 0;

事实上，现在输出PDF是有效的，特别是它的头部。

分析

在MemoryStream output会发生什么？

    MemoryStream output = new MemoryStream();

output被创建为空。

    Document document = new Document(PageSize.A4, 30, 30, 30, 30);
    PdfWriter writer = PdfWriter.GetInstance(document, output);

新的PdfWriter仅仅被实例化，没有任何东西被写入， output仍然是空的。

    using (output)
    {
        using (document)
        {
            document.Open();

document通知writer文档构建已经开始，所以writer首先编写PDF序言，即标题行和“二进制”注释; output现在包含％PDF-1.4 n％ÓÓ n，当前流位置在最后。

            document.Add(new Paragraph("Test"));

新的段落被添加到当前（第一个）页面，但仅在内存中，组成当前页面内容的对象将仅在新页面启动或文档完成时写入。 output仍然包含％PDF-1.4 n％Ó n，当前流的位置仍然在最后。

            output.Position = 0;

流位置重置。 output仍然包含％PDF-1.4 n％ n，但是当前的流位置现在处于开始状态 ！

这是using (document)的代码块的结尾。因此，调用文档的Dispose方法。其中document告诉writer文档创建完成。 writer ，因此，目前仍然在内存中写入所有文档对象，然后添加PDF文件结尾（交叉引用，拖车，...）。

由于流位置现在位于流的开始处， 现有内容将被覆盖 ！ output现在包含2 0 obj ... %% EOF，即完整的PDF只是丢失了PDF序言。

感谢mkl的提示，我能够解决这个问题，但是，这样做似乎并不正确。一定会有更好的办法。但解决方案是刷新输出到一个数组以获得前15个字节，然后关闭文档并刷新到另一个数组以获得前15个字节后的所有内容（就我所见，输出流从不包含所有字节），然后创建第三个数组并将第一个2复制到它。以下是完整的代码：

internal string Create(PdfDocumentDefinition documentDefinition)
{
    string pathName = @WebConfigurationManager.AppSettings["StagingPath"] + documentDefinition.DocumentName + ".pdf";

    MemoryStream input = new MemoryStream(Encoding.UTF8.GetBytes(documentDefinition.Source));

    Document document = new Document(PageSize.A4, 30, 30, 30, 30);
    MemoryStream output = new MemoryStream();
    using (output)
    { 
        PdfWriter writer = PdfWriter.GetInstance(document, output);
        document.Open();

        CssResolverPipeline pipeline = SetCssResolver(documentDefinition.CssFiles, document, writer);

        XMLWorker worker = new XMLWorker(pipeline, true);

        XMLParser parser = new XMLParser(worker);
        parser.Parse(input);

        output.Position = 0;

        Byte[] firstBytes = output.ToArray();

        document.Close();

        Byte[] lastBytes = output.ToArray();
        Byte[] allBytes = new Byte[firstBytes.Length + lastBytes.Length];

        firstBytes.CopyTo(allBytes, 0);
        lastBytes.CopyTo(allBytes, firstBytes.Length);
        File.WriteAllBytes(pathName, allBytes);
    }

    return pathName;
}

private CssResolverPipeline SetCssResolver(List<String> cssFiles, Document document, PdfWriter writer)
{            
    var htmlContext = new HtmlPipelineContext(null);
       htmlContext.SetTagFactory(iTextSharp.tool.xml.html.Tags.GetHtmlTagProcessorFactory());
    ICSSResolver cssResolver = XMLWorkerHelper.GetInstance().GetDefaultCssResolver(false);
    if (cssFiles != null)
    {
        foreach (String cssFile in cssFiles)
        {
            cssResolver.AddCssFile(cssFile, true);
        }
    }
    return new CssResolverPipeline(cssResolver, new HtmlPipeline(htmlContext, new PdfWriterPipeline(document, writer)));            
}

链接地址: http://www.djcxy.com/p/46757.html

上一篇: iTextSharp generates corrupted PDF file

下一篇: How to make version compatible of a pdf file through itextsharp in c#.net