如何高效提取HTML 标签中的数据并按段落分组?
解析 html 段落标签中的数据
问题:如何从 html 中的
标签中提取数据并按
标签分组,例如:
["第四章 医学微生物学(助理不考)", "第一节 微生物的基本概念"]
解答:
为了解析 html 并提取特定元素中的数据,您可以使用第三方库或直接通过正则表达式进行解析。
立即学习“前端免费学习笔记(深入)”;
使用第三方库:
推荐使用功能强大的库,例如 querylist,它可以轻松地从 html 中提取和分组数据。
以下示例展示了如何使用 querylist 解析给定 html 中
标签:
use qlquerylist;$html = '<p>第四章 医学微生物学(助理不考)</p><p>第一节 微生物的基本概念</p>';$data = querylist::html($html)->rules([ 'paragraphs' => ['p', 'text']])->query()->getdata();print_r($data['paragraphs']);
输出:
["第四章 医学微生物学(助理不考)", "第一节 微生物的基本概念"]
使用正则表达式:
如果您不希望使用第三方库,也可以使用正则表达式来解析 html:
preg_match_all('/<p>(.*?)</p>/s', $html, $matches);$data = $matches[1];
输出:与上面相同