Existem vários métodos para manipular arquivos XML grandes. Quando digo grandes, são realmente grandes, 10, 20, 30 mega. Se fossemos abrir um arquivo desses em um servidor comum, certamente a operação ia terminar com um “time-out”. Isso porque geralmente usamos as funcoes da extensão SimpleXML. Esta extensão tem um “Tree-based parser”, assim como o “DOM Parser”. Funcionam perfeitamente em arquivos pequenos. Estes jogam o conteúdo do XML em memória, e dali você manipula. Mas quando os arquivos são muito grandes, o negócio é procurar um Stream-based Parser. São mais eficientes pois fazem a leitura do arquivo sob demanda, é mais rápido e não mastiga a memória do servidor.
Dentre os Stream-based Parsers, temos o SAX e o XMLReader. Vou demostrar como fazer a leitura de um XML utilizando o XMLReader, pois é mais fácil de implementar e de execução mais rápida, como podem acompanhar neste link.
O XMLReader é uma extensão habilitada e incluída por padrão a partir da versao 5.1 do PHP, surgiu através da derivação da API do XmlTextReader em C# e é baseada na biblioteca libxml2. Antes disso, a extensão XMLReader era disponível apenas na PECL. O XMLReader suporta namespaces e validações, incluindo DTD e Relax NG (REgular LAnguage for XML Next Generation)
Bom, vamos ao código. Meu XML de exemplo tem a seguinte estrutura:
[cc lang=”xml”]
.
.
.
[/cc]
Código em PHP:
[cc lang=”php”]
$vendedores = new XMLReader();
$vendedores->open(‘vendedores.xml’);
while ($vendedores->read()) {
switch ($vendedores->nodeType) {
case (XMLReader::ELEMENT):
if ($vendedores->localName == “vendedor”) {
$node = $vendedores->expand();
$dom = new DomDocument();
$n = $dom->importNode($node,true);
$dom->appendChild($n);
$simple_xml = simplexml_import_dom($n);
$codigo = $simple_xml[‘codigo’];
$nome = $simple_xml->nome;
$endereco = $simple_xml->endereco;
// Código customizado… insert, update, etc.
}
}
}
[/cc]
Percebam que em um determinado momento eu transformo o bloco de leitura atual, ou seja, a tag vendedores em um objeto SimpleXML, tornando a leitira extremamente fácil. Desta maneira voce pode tranquilamente trabalhar com arquivos XML de 5, 10, 50 mega sem detonar a memória do servidor. Meu próximo passo será melhorar essa rotina e transforma-la em uma library pro framework CodeIgniter. A quem possa interessar, toda ajuda é bem vinda!