在安卓系统中从捕获的图像中提取信息
这是我的图像: 我使用此链接(tessaract)捕获和处理图像: 但这是问题,如果扫描了整个区域,则回报值是一些垃圾值,而不是准确的.但是,如果我扫描V516990、2653和日期.结果是正确的. 我的目的是一次扫描V516990和2653,而无需用户两次使用相机.欢迎任何评论! 解决方案 让用户仅拍摄一个图像 您可以将其存储在内存中,并将感兴趣的区域设置为顶部,然后提取它 使用cvsetimageroi https://github.com/github.com/mintuhouse/finman/finman/blob/master/src/unix/imp.cpp 检查行337,当您通过IPLIMAGE到TESSERACT 在图像上设置感兴趣的区域(在您的情况下的顶部或底部) 在此处检查297 https://github.com/github.com/mintuhouse/finman/blob/master/src/unix/main.c
2 2024-02-04
编程技术问答社区
从文件中刮取HTML标签中的文本
我有一个要从中提取日期的文件,它是一个HTML源文件,因此它充满了我不需要的代码和短语.我需要提取包裹在特定html标签的日期的每个实例: abbr title ="((这是我需要的文本))" data-utime =" 实现这一目标的最简单方法是什么? 解决方案 如果您使用的是Excel VBA,请将参考(工具 - 引用)设置为MSHTML库(参考菜单中的Microsoft HTML Object Library有名) Sub ScrapeDateAbbr() Dim hDoc As MSHTML.HTMLDocument Dim hElem As MSHTML.HTMLGenericElement Dim sFile As String, lFile As Long Dim sHtml As String 'read in the file lFile = FreeFile sFile = "C:/
6 2024-01-26
编程技术问答社区
如何使用PDF文件的Amazon Textract
我已经可以使用the the trextract,但是使用jpeg文件.我想将其与PDF文件一起使用. 我有代码: import boto3 # Document documentName = "Path to document in JPEG" # Read document content with open(documentName, 'rb') as document: imageBytes = bytearray(document.read()) # Amazon Textract client textract = boto3.client('textract') documentText = "" # Call Amazon Textract response = textract.detect_document_text(Document={'Bytes': imageBytes}) #print(response) # Print det
4 2024-01-25
编程技术问答社区
PDF文本提取问题-字体/大小写不一致
我正在尝试从PDF书籍中提取文本,并继续运行一个问题,其中复制的文本部分将粘贴到文本文档中时无法保留适当的资本化属性.我有权复制这本书,并获得使用所有必要字体的许可.起初,我认为问题是由未嵌入的字体引起的,但是我检查了所有字体,所有字体似乎都嵌入了子集.在PDF中,使用了100多个字体,具有以下属性之一: truetype编码:ANSI TrueType(CID)编码:Identity-H 类型1(CID)编码:Identity-H 类型1编码:自定义 本书中的语言包括英语,德语,西班牙语和意大利语.在德国资本化中绝对至关重要.它倾向于丢失大写属性,而不是较低的特性. 错误的一个示例是:焊缝 - >焊缝 我真的在这里做什么.我要求该书的所有者嵌入了他作为子集的字体,但问题仍在继续.我已经尝试将PDF文件作为后录保存,然后通过Distiller将其运行,该蒸馏器正确地将其运行,但是在某些情况下,文本被以不同的字符或数字替换为头骨.我知道CID字体可能会导致该问题,但
4 2024-01-19
编程技术问答社区
用regex选择HTML文本元素?
我想在HTML文档中查找©,并且基本上获得版权归因于. 版权线显示了几种不同的方式: © 2011 The New York Times Company 或 © 2011 The New York Times Company 或 Published since 1996 Copyright © CounterPunch All rights reserved. 我想忽略日期和中间标签,而只是获得"纽约时报公司"或"反击". 我无法找到与JavaScript或JQuery一起使用Regex的太多,尽管我的印象是它
4 2024-01-14
编程技术问答社区
通过批处理文件从XML文件中提取文本
我必须通过批处理文件从XML文件中提取某些文本.我需要提取的部分之一是在字符串标签(example1)之间,另一个是在数据标签(example2)之间.有什么想法吗?预先感谢! 解决方案 @echo OFF del output.txt for /f "delims=" %%i in ('findstr /i /c:"" xml_file.xml') do call :job "%%i" goto :eof :job set line=%1 set line=%line:/=% set line=%line:=+% set line=%line:*+string+=% set line=%line:+=&rem.% echo.%line%>>output.txt :eof 使用OP的输入文件输出 - D:\>draft.bat
0 2023-12-21
编程技术问答社区
php。从html-simplehtmldom或php strip_tags获取纯文本?
我正在考虑从HTML获取纯文本.我应该选择哪一个,php strip_tags 或 simplehtmldom plaintext提取? SimpleHtmldom的一个Pro是对无效HTML的支持,这本身就足够了吗? 解决方案 您可能应该使用smiplehtmldom,因为您提到的原因,strip_tags也可能会留下您的非文本元素,例如javaScript或script/style block中包含的css或CSS 您还可以从不显示的元素(inline style = display:none) 过滤文本 也就 其他解决方案 strip_tags 足够. 其他解决方案 从HTML提取文本很棘手,因此最好的选择是使用诸如HTML2Text之类的库.它是专门用于此目的的. 使用作曲家安装: composer require html2text/html2text 基本用法: $html = new \Html2Text\Html2
0 2023-12-01
编程技术问答社区
Scrapy 在提取标题时工作不正常
在此代码中,我想在链接中刮擦标题,字幕和数据,但是有第1页和2以上的页面上的问题仅获得1个项目. import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector import Selector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from urlparse import urljoin from delhivery.items import DelhiveryItem class criticspider(CrawlSpider): name = "delh" allowed_domains = ["consumercomplaints.in"] start_urls = ["http://www.consumercomplaints.i
0 2023-11-30
编程技术问答社区
如何用Vim提取与regex匹配的文本?
我想从带有vim的文本中提取一些数据.输入看起来像: 72" title="(168,72)" onmouseover="posizione('(168,72)');" onmouseout="posizione('(-,-)');">> 72" title="(180,72)" onmouseover="posizione('(180,72)');" onmouseout="posizione('(-,-)');">> 72" title="(192,72)" onmouseover="posizione('(192,72)');" onmouseout="posizione('(-,-)');">> 72" title="(204,72)" onmouseover="posizione('(204,72)');" onmouseout="posizione('(-,-)');">> 我需要提取的数据包含在输入的title="(168,72)"部分中.特别是,我有兴趣在括号中
14 2023-11-19
编程技术问答社区
在Vim中删除除'<'&'>,'之间的所有字符-从Gmail "To "字段中提取电子邮件地址
我有一个逗号限制的电子邮件地址列表,每个实际地址(来自gmail)备用的每个实际地址.这是一个例子: Fred Flintstone , Wilma Flintstone , Barney Rubble , Bamm-Bamm Rubble , 转换为: fred@flintstone.org, wilma@flintstone.org, barney@rubble.org, bammbamm@rubble.org, 背景信息:我正在尝试将联系人列表粘贴到Webex邀请中,该邀请只能接受电子邮件地址. 删除除vim in vim in vim 以外的所有内容在这种情况下,所有电子邮件地址都在一行. 解决方案 您是否尝试过? :s/.\{-}\%(\(,\s*\)\|
2 2023-11-19
编程技术问答社区
如何用Vim提取一个文件中所有匹配的regex?
考虑以下示例: case Foo: ... break; case Bar: ... break; case More: case Complex: ... break: ... 说,我们想检索正则case \([^:]*\):的所有匹配项(整个匹配的文本,甚至更好的是\(和\)之间的零件),这应该给我们(最好在新的缓冲区中)类似的东西: Foo Bar More Complex ... 用例的另一个示例是提取HTML文件的某些片段,例如图像URL. 是否有一种简单的方法来收集所有正则匹配项并将它们带到vim中的单独缓冲区? 中 注意:它类似于" 如何提取匹配文本使用vim?的正则是.但是,与该问题的设置不同,我也有兴趣删除与不匹配的线路,最好是没有严重复杂的正则是. 解决方案 有一种一般的收集图案匹配的方法 一条文字.该技术利用了替代品 具有:substitute命令的表达功能(请参阅 :help s
10 2023-11-19
编程技术问答社区
从Powerpoint中提取文本到Excel
我需要将一些文本从PowerPoint提取到Excel中,这是为了工作.我可以手动做,但我敢肯定有一种更好,更快的方法. 我实际上没有编码,我确实在Python和VBA上做了一些课程,但我并没有真正熟练.我在网上找到了一些代码 sigma代码试图运行它,有一个错误,即用户定义的类型未定义. 有人可以看一下 >将我指向正确的方向?如果我可以提取并将每个文本框发送到Excel文件中的单独列中,那将很棒. 'Declare our Variables Dim PPTPres As Presentation Dim PPTSlide As Slide Dim PPTShape As Shape Dim PPTTable As Table Dim PPTPlaceHolder As PlaceholderFormat 'Declare Excel Variables. Dim xlApp As Excel.Application Dim xlBook As Excel.Wor
4 2023-11-16
编程技术问答社区
从众多文本文件中提取单个数据行,然后导入到Excel中 - 具有不同的字符串长度
我不想劫持线程,但是我正在使用此OP的应用程序:从众多文本文件中提取单个数据行,然后导入到Excel 那里的解决方案令人惊奇,适用于他的应用: Sub ExtractGPS() Dim filename As String, nextrow As Long, MyFolder As String Dim MyFile As String, text As String, textline As String, posGPS As String MyFolder = "C:\Users\Desktop\Test\" MyFile = Dir(MyFolder & "*.txt") Do While MyFile "" Open (MyFolder & MyFile) For Input As #1 Do Until EOF(1) Line Input #1, tex
6 2023-11-16
编程技术问答社区
使用Beautiful Soup和正则表达式提取10-K Edgar填充物中的文本
我想从大约10000个文件中自动提取"1A.风险因素"部分,然后将其写入TXT文件. 可以找到带有文件的示例URL 所需的部分是在"项目1A风险因素"和"项目1B"之间.问题是"项目"," 1A"和" 1B"在所有这些文件中看起来都不同,并且可能存在于多个位置 - 不仅是我感兴趣的最长,最合适的一个.因此,应该使用一些正则表达式,因此: 提取了" 1a"和" 1b"之间的最长部分(否则,目录将出现和其他无用元素) 表达式的不同变体被考虑 我试图在脚本中实现这两个目标,但是由于这是我在python的第一个项目,我只是随机排序的表达式,我认为可能有效,而且显然是错误的(我敢肯定我应该迭代) " "元素,将每个提取的"部分"添加到列表中,然后选择最长的元素并将其写入文件,尽管我不知道如何实现此想法). 编辑:当前我的方法返回1A和1B之间的数据很少(我认为是页码),然后停止...(?) 我的代码: import requests import re import
2 2023-11-09
编程技术问答社区
在java中获取URL参数并从该URL中提取特定文本
我有一个URL,我需要从此URL获取V的值. 这是我的URL:http://www.youtube.com/watch?v=_RCIP6OrQrE 我该怎么做? 解决方案 我认为,最简单的方法之一就是解析 url.getquery() as public static Map getQueryMap(String query) { String[] params = query.split("&"); Map map = new HashMap(); for (String param : params) { String name = param.split("=")[0]; String value = param.split("=")[1]; map.put(name, va
6 2023-11-09
编程技术问答社区
如何从.doc和.docx文件中只提取纯文本?
任何人都知道他们可以推荐的任何东西,以便从.doc或.docx>? 中提取纯文本 我找到了 this - 想知道是否还有其他建议? 解决方案 如果您想要纯纯文本(我的要求),那么您需要的只是 unzip -p some.docx word/document.xml | sed -e 's/]\{1,\}>//g; s/[^[:print:]]\{1,\}//g' 我在命令行fu 它解压缩了DOCX文件并获取实际文档,然后将所有XML标签绑定.显然所有格式都丢失了. 其他解决方案 libreoffice 一个选项是 libreoffice /openoffice /openoffice在无头模式下(确保所有其他libreoffice的实例首先关闭): libreoffice --headless --convert-to "txt:Text (encoded):UTF8" mydocument.doc 有关更多详细信息,请参见例如
8 2023-11-08
编程技术问答社区
如何读取亚洲语言(中文、日文、泰文等)的PDF文件,并在python中存储为一个字符串
我正在使用PYPDF2读取Python中的PDF文件.虽然它对英语和欧洲语言的语言(带有英语的字母)效果很好,但图书馆未能阅读日语和中文等亚洲语言.我尝试了encode('utf-8'),decode('utf-8'),但似乎没有任何作用.它只是在提取文本的提取时打印一个空白字符串. 我尝试了其他图书馆,例如Textract和pdfminer,但尚无成功. 当我从PDF复制文本并将其粘贴到笔记本上时,字符会变成一些随机格式文本(可能在其他编码中). def convert_pdf_to_text(filename): text = '' pdf = PyPDF2.PdfFileReader(open(filename, "rb")) if pdf.isEncrypted: pdf.decrypt('') for page in pdf.pages: text = text + page.extractTex
8 2023-11-06
编程技术问答社区
从一个小的文本内容(如推文)生成标签
我已经问了一个类似的问题我有很大的限制:我正在处理诸如用户推文之类的小文本集以生成标签(关键字). 似乎已公认的建议(点数相互信息算法)旨在处理更大的文档. 使用此约束(在少量文本上工作),我该如何生成标签? 问候 解决方案 多字标签的两个阶段方法 您可以池中所有的推文进入一个较大的文档,然后从整个推文中提取 N .然后,您可以返回并使用其中发生的搭配标记每个推文.使用这种方法, n 将是将为整个数据集生成的多字标签的总数. 在第一阶段,您可以使用NLTK代码发布在这里.第二阶段可以通过在所有推文上简单地进行循环来完成.但是,如果您有速度,您可以使用 单字标签的推文级别PMI 也建议在这里,您可以计算 point-wise noreferrer"> point-wise相互信息每个单独的单词和推文本身,即 PMI(term, tweet) = log [ P(term, tweet) / (P(term)*P(tweet)) 再次,
8 2023-10-28
编程技术问答社区
ColdFusion从文本文件中提取数值
技术细节 我想从包含参数名称和值的文本文件中提取值.对于以" request.config"开头的每行. (我不想从中提取任何内容的空线,带有评论等的行)我想提取这些值(以粗体): : request.config. my_param_1 = "一些随机字符串" ; 我认为这样做的最佳方法可能是使用正则表达式,但是我该怎么做? 我以为会有一个正则表达式会提取2个值request.config.${1} = ${2};并为每行检索$ {1}和$ {2},但前提是它匹配. . 我尝试进行实验,但没有起作用:
8 2023-10-19
编程技术问答社区