为什么以下评估对true? if(preg_match_all('%.*?.*?.*?
%ims', $contents, $x)===FALSE) {...} $contents,使用file_get_contents()从 简化了以解决问题的问题.我实际使用的代码是: if(preg_match( '%Areas of Study:
.*?
(.*?).*?.*?
%ims', $contents, $course_list) ) { if(preg_match_all('%.*?.*?(.*?).*? .*?.*? .*?.*?(.*?).*? .*?
以下是关于 html-parsing 的编程技术问答
我正在使用html简单的DOM Parser和PHP来获取网站的标题,描述和图像.我面临的问题是我要获得我不想要的HTML以及如何排除这些HTML标签.以下是解释. 这是正在解析的样品HTML结构.
Some text
value 1
value 2
value 3
// the div I dont want
Some Text
我正在使用以下PHP脚本进行解析, foreach($html->find('div#product_description') as $description) { echo $description->outertext ; echo "
"; } 上面的代码用ID
我目前需要解析大量.phtml文件,获取特定的HTML标签,然后向其添加自定义数据属性. 我正在使用Python Beautifulsoup来解析整个文档并添加标签,并且此部分工作正常. 问题在于,在视图文件(PHTML)上也有一些标签也可以解析.以下是输入输出的示例 输入 getData('sideBarCoStars', []); if (!$stars) return; $sideBarCoStarsCount = $this->getData('sideBarCoStarsCount'); $title = $this->getData('sideBarCoStarsTitle'); $viewAllUrl = $this->getData('sideBarCoStarsViewAllUrl'); $isDomain = $this->getData('isDomain'); $lazy_load = $lazy
我正在使用一些代码从HTML页面挑选所有标签: $dom = new DOMDocument; $dom->loadHTML($html); foreach ($dom->getElementsByTagName('td') as $node) { $array_data[ ] = $node->nodeValue; } 这将数据存储在我的数组中. 正在查看的HTML数据IS: DATA 1 DATA 2 DATA 3
$array_data返回: Array([0])=>DATA 1 [1]=>DATA 2 [2]=> DATA 3) 我所需的输出是从与页面上关联的标签中获取代码.所需的输出: Array([0])=>DATA 1 [1]=>12345 [2]=>DATA 2 [3]=> DATA 3) 我认
我正在做以下操作: 这样我就可以摆脱
标签并在字符串的末端放置一个空间(这是用于页面的样式). 这完全适用于"
Something
". 但是,带有以下文字:
Section 1.10.32 of "de Finibus Bonorum et Malorum", written by Cicero in 45 BC
"Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vi
我在MySQL表中存储以下内容:
First paragraph
Second paragraph
Third paragraph
Some paragraph here
Specs:
Weight: 10kg
LxWxH: 5mx1mx40cm
This is the paragraph I am trying to remove with regex.
我正在尝试删除表中每个行上的最后一段标签和内容.我可以很容易地用php循环循环,但是我的正则是我陷入困境的. 我在stackoverflow上发现的每个preg_match都会给我一个" preg_match():未知修饰符"错误,或者var
有人知道为什么这不起作用吗? foreach($html->find('tbody.result') as $article) { // get retail $item['Retail'] = trim($article->find('span.price', 0)->plaintext); // get soldby $item['SoldBy'] = trim($article->find('img', 0)->getAttribute('alt')); $articles[] = $item; } print_r($articles); 解决方案 尝试以下方法: $html = file_get_html('http://www.amazon.com/gp/offer-listing/B002UYSHMM'); $articles = array(); foreach($html->find('table tbody
我正在使用Simple_html_dom Parser. 以下代码是返回垃圾输出: $opts = array( 'http'=>array( 'method'=>"GET", 'header'=> "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\n". "Accept-Encoding: gzip, deflate\r\n". "Accept-language: en-US,en;q=0.5\r\n" . "User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.1.6) Gecko
使用DomDocument,我正在尝试阅读HTML文件的一部分,并使用以下代码在不同的HTML页面上显示它.我要访问的DIV部分具有多个
标签.问题是当DOM解析文件时,它仅在
标签 - strips标签之间获取文本内容,并且丢失了段落格式.它将文本合并并显示为一段.如何保持HTML格式化,以便在源文件中显示段落? html代码
Title
Lorem ipsum dolor sit amet, consectetur adipiscing eli. Lorem ipsum dolor sit amet, consectetur adipiscing eli.
Lorem ipsum dolor sit amet, consectetur adipiscing eli. Lorem ipsum dolor sit amet, consectetur adip
我应该使用什么? 我将获取链接,图像,文本等 您建议使用什么? XML解析器或正则 我一直在使用正直,但从来没有任何问题害怕使用XML解析器并更喜欢Regex(并且可以很好地服务于目的) 所以,如果一切都与Regex运行良好,为什么我在这里问您要使用什么?好吧,我认为,即使到目前为止一切都很好,也不意味着它也会在将来,所以我只是想知道在Regex上使用XML解析器的良好是什么?表演是否有任何改进,较少的错误,更好的支持,其他光泽功能等? 如果您建议使用XML解析器,则建议将其与PHP一起使用 我绝对想知道为什么你会选择一个? 解决方案 我应该使用什么? 您应该使用 a xml parser . 如果您建议使用XML解析器,则建议将其与PHP一起使用 请参阅: php . > 其他解决方案 如果您正在处理现实世界(x)html,则您需要一个HTML解析器而不是XML解析器,因为XML解析器需要在遇到良好的错误错误后立即停止解
我需要在字符串中用\xD9\xA0,\xD9\xA1,\xD9\xA2,...,\xD9\xA9替换字符0,1,2,...,9.该字符串来自CKEditor,因此它可能包含HTML标签.使用以下代码 $body = str_replace("1", "\xD9\xA1", $body); 它用\xD9\xA1代替每个1,因此它会影响标签
以及
,而我只需要替换体内的数字而不是标签. 包含数字的标签为
和cellspacing和cellpadding和cellpadding和border table标签. 我如何将数字替换为上述符号,而它不会影响
和cellspacing和cellpadding和border? 解决方案 您不应该使用正则义务来处理HTML,但是,如果您仍然想使用正则票据,则可以使用以下等级的丢弃模
我正在尝试应该非常简单的事情,但是我无法正常工作.这让我想知道我是否正在使用正确的工作流程. 我有一个简单的HTML页面,我将其作为帮助文件中加载在桌面应用程序中.此页面不仅菜单. 在我的网站上,我想拥有一个更复杂的帮助系统.因此,我想使用一个PHP文件,该文件将显示菜单,面包屑和标头和页脚. 为了不复制我的帮助内容,我想加载原始的HTML帮助文件并将其身体内容添加到我的增强帮助页面. 我正在使用此代码提取标题: function getURLContent($filename){ $url = realpath(dirname(__FILE__)) . DIRECTORY_SEPARATOR . $filename; $doc = new DOMDocument; $doc->preserveWhiteSpace = FALSE; @$doc->loadHTMLFile($url); return $doc; } functi