Using pdfbox, why text can be extracted, but not image(使用pdfbox,为什么可以提取文本,但不能提取图像)
本文介绍了使用pdfbox,为什么可以提取文本,但不能提取图像的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我正在使用pdfbox从pdf中提取图像和文本。我有以下提取文本的代码: PDFTextStripper p = new PDFTextStripper();
String thistext=p.getText(document);
,它正确地提取文本。然而,当我尝试使用ExtractImages
类从同一个pdf中提取图像时,生成的图像是pdf的所有页面,而不是实际的图像。这是因为pdf可能是扫描的副本吗?如果这是真的,为什么提取文本?
推荐答案
我认为它被扫描这一事实是您的问题。虽然我见过扫描的PDF检测文本(并使其可突出显示),但它仍然是一幅图像。要检验这一假设,我会尝试使用已知良好的PDF,例如this one。
这篇关于使用pdfbox,为什么可以提取文本,但不能提取图像的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
织梦狗教程
本文标题为:使用pdfbox,为什么可以提取文本,但不能提取图像


基础教程推荐
猜你喜欢
- Struts2 URL 无法访问 2022-01-01
- Spring AOP错误无法懒惰地为此建议构建thisJoinPoin 2022-09-13
- RabbitMQ:消息保持“未确认"; 2022-01-01
- REST Web 服务返回 415 - 不支持的媒体类型 2022-01-01
- 修改 void 函数的输入参数,然后读取 2022-01-01
- 使用堆栈算法进行括号/括号匹配 2022-01-01
- 如何对 Java Hashmap 中的值求和 2022-01-01
- 问题http://apache.org/xml/features/xinclude测试日志4j 2 2022-01-01
- 存储 20 位数字的数据类型 2022-01-01
- 无法复制:“比较方法违反了它的一般约定!" 2022-01-01