HTML - 4. Codificação UTF-8


Os arquivos de HTML em geral devem ser codificados em ISO-8859-1, Europeu Ocidental, ou ANSI (quando se utiliza o Bloco de Notas do Windows), porém este formato de arquivo limita muito o uso de caracteres estendidos, como em sites que utilizam outros caracteres em outros idiomas, como os caracteres chineses.

Para fazer com que um código HTML fosse interpretado por todos os navegadores na Internet, deve-se adotar a informação de qual código de página o arquivo foi codificado, usando a tag meta para isto.
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" />
Repare que aqui temos o atributo http-equiv, que informa ao navegador como deverá tratar o conteúdo do tipo "Content-Type", e no atributo content, traz o conteúdo para este elemento. Isto irá configurar o MIME-Type do documento, assim como definir qual charset o documento se encontra.

Atualmente usa-se em geral o formato UTF-8, e este padrão começou a ser adotado a partir de 2001 em diante, para facilitar o uso de sites com vários idiomas, e tornar universal o uso de caracteres de outros idiomas. Quando um documento é baseado em ISO-8859-1, nos limitamos aos caracteres do Ocidente, mas no Oriente e continente Asiático, os caracteres são diferentes, e para adotar um mapa de caracteres maior, o UTF-8 passou a ser uma alternativa ao Unicode.

Unicode é um tipo de mapa de caracteres que comporta praticamente todos os caracteres existentes no mundo, mas para cada caractere, ele precisa ocupar 2 bytes, ou seja, tudo o que você escreve, precisa 2 vezes mais espaço para transportar, o que era um problema na época de internet discada, afinal, com 32 Kbps de internet, ao acessar um site em Unicode, era como se tivesse 16 Kbps de velocidade.

O UTF-8 é diferente, já que todo caractere especial possui 2, 3 ou 4 bytes de forma flexível, enquanto que os caracteres mais tradicionais, são tratados apenas com 1 byte. Então é certo dizer que o UTF-8 foi uma forma de economizar o espaço ocupado e ainda suportar todos os caracteres disponíveis em qualquer idioma.

Por padrão, os navegadores passaram a adotar o UTF-8 como um padrão, assim como editores de HTML simples, como o Adobe Dreamweaver e semelhantes, para tornar a Web mais fácil para qualquer lugar no mundo, mas tanto a codificação do documento deve ser alterada, como a tag meta.

Para informar ao navegador que o HTML é baseado em UTF-8, deve-se informar:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
Repare que, não é só alterar a meta, o arquivo também deve ser codificado neste formato.

Há uma outra forma de definir a codificação usando o atributo charset diretamente na tag meta.
<meta charset="utf-8" />
E deverá funcionar da mesma forma que a notação anterior.

Para saber se um arquivo foi realmente codificado neste formato, abra o arquivo no bloco de notas, e salve uma nova versão. Irá aparecer a codificação do arquivo logo abaixo do campo, e permite alterar o mesmo. Vários editores de HTML possuem estas configurações em outros lugares, e geralmente indicam quando o arquivo está em UTF-8 em algum lugar.

Se utiliza algum framework para desenvolver HTML, em geral, tudo pode estar em UTF-8, ou então é convertido para este formato em algum momento.

Comentários