Google : L’Unicode (UTF-8) utilisé sur presque 50% du Web !
Cet Article est la traduction d'une annonce officielle publiée par Google.
Il y a environ 18 mois, nous avons publié un graphique montrant que l’Unicode (ou UTF-8) venait de détrôner tous les autres encodages sur le Web. Depuis, la croissance a été exponentielle.
Les pages Web peuvent utiliser différents protocoles d’encodages de caractères, comme ASCII, Latin-1, Windows 1252 ou Unicode. La plupart des encodages ne peuvent représenter que quelques langues, sauf l’Unicode qui peut en représenter des milliers : de l’arabe au chinois en passant par le zoulou. Nous utilisons depuis longtemps l’Unicode en interne pour tous les textes que nous recherchons : tous les autres encodages sont d’abord convertis en Unicode avant d’être traités.
Ce graphe a été produit par Google, basé sur les pages que nous indexons, et pourraient donc varier par rapport aux données d’autres moteurs de recherche. Cependant, la tendance est plutôt claire, et la croissance de l’Unicode rend le traitement des langues que nous prenons en charge encore plus facile.
A la recherche de “nancials” ?
L’Unicode est non seulement de plus en plus utilisé, mais couvre aussi de plus en plus de caractères. Nous avons récemment procédé à la mise à jour vers la dernière version d’Unicode, la version 5.2 (via ICU et CLDR). Cette nouvelle version ajoute 6600 nouveaux caractères : certains sont réservés à la recherche, comme les hiéroglyphes égyptiens, mais de nombreux autres font parti de langues bien vivantes.
Nous améliorions constamment notre prise en charge des caractères existants. Par exemple, les caractères “fi” peuvent soit représenter deux lettres (“f” et “i”), ou bien un affichage spécial de “fi”. Une recherche Google sur les termes [financials] et [office] ne considérait pas les deux “fi” de la même façon — le logiciel les interprétait comme *nancials et of*ce. Il y a des milliers de caractères comme celui ci, et on les retrouve dans énormément de pages, surtout sur les documents PDF générés.
Mais plus maintenant — après plusieurs phases de test, nous prenons finalement en charge ce type de caractères ; vos recherches pourront maintenant trouver ces documents. Une étape de plus dans notre mission d’organiser les informations mondiales et les rendre universellement accessibles et utiles.
Et nous sommes prêts à faire la fête dès que l’Unicode aura atteint les 50% !
Par Mark Davis, architecte logiciel international sénior
Traduction non automatique (y compris graphique) :
http://hapax.qc.ca/Unicode-quasi-majoritaire.html
Salut Vincent ! C’est Cyril d’Image. Comment vas-tu ???
Je recherchais une info sur le Ï trema majuscule. Quelle différence entre UTF8_unicode_ci et UTF8_general_ci
Lequel des deux prends le Ï ???
Je suppose que c’est le UTF8_unicode_ci mais je veux en être sûr !
Bonne journée ;)
Cyril
Hello Cyril :)
Je prends toujours le general, mais je ne connais pas vraiment la différence…
Peut-être plus d’infos pour toi ici : http://www.davidtan.org/differences-between-utf8_unicode_ci-and-utf8_general_ci/
Merci beaucoup ! Au fait, certains disent que la requête “$req = mysql_query(“SET NAMES ‘UTF8′”);”
ne sert à rien. Et bien je peux t’assurer qu’elle sert !!!!
ça ne mange pas de pain et c’est toujours plus prudent ! Qu’en penses tu???
Et t’as vu un peu la nouvelle page d’accueil de Google??? J’adore !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Google : c’est plus fort que toi ;)
Que signifie « prendre » dans « Lequel des deux prends le Ï ??? »
Le ï est toujours codé dans Unicode…
Pour ce qui est du tri (et de la comparaison) car c’est ce que détermine cette valeur, utf8_general_ci est la version la plus rapide et la plus simple (elle replie toutes les formes accentuées vers le caractère de base : Ï devient identique à I).
utf8_unicode_ci, pour sa part, va distinguer le Ï du I quand les deux lettres sont présentes dans une liste (ou même un couple) de mots. Il va également distinguer les é des è ou des e mais uniquement comme différences de second ordre (quand deux mots ne se distinguent que par les accents : côté et cote, élève et élevé) et les trier dans un ordre déterminé.
Contrairement à ce que dit la documentation de MySQL utf8_unicode_ci n’est pas suffisant pour trier parfaitement le français (les accents se trient en considérant d’abord les derniers accents d’un mot dans les dictionnaires ce qui n’est pas le défaut), bien que pour l’immense majorité des applications ceci est une subtilité sans importance.
Pour plus de détails voir la très bonne introduction sur le sujet dans le livre de référence en français sur Unicode :
Unicode 5.0 de P. Andries
http://www.amazon.fr/Unicode-5-0-pratique-Patrick-Andries/dp/2100511408/ref=sr_1_2?ie=UTF8&s=books&qid=1276175813&sr=8-2