Your browser doesn't support the features required by impress.js, so you are presented with a simplified version of this presentation.
For the best experience please use the latest Chrome, Safari or Firefox browser.
Appréhension de l'information
La notion d'information comme quantité mesurable nécessite de comprendre certaines limitations de ces mesures.
## Qu'est-ce qu'une information ?
Claude Shannon a été l'un des premiers à définir l'information comme une quantité mesurable (1948).
L'information au sens de Shannon n'est pas associée au sens ou à la cognition
* Il s'est intéressé à quantifier des sources aléatoires
* L'information diminue l'incertitude sur une source aléatoire
* On mesure donc la quantité d'information relative à un événement dans une série
* Par exemple, si on a six possibilités pour un dé, l'information permet de savoir quelle face a été choisie ; ou au moins d'éliminer des possibilités.
## La vision cognitive de l'information
* On ne sait pas mesurer le sens (la signification) des choses.
* Une même information peut avoir plusieurs représentations très distinctes
* Le nombre *quatorze* : 14 ou XIV ou IIIIIIIIIIIIII
* Une même donnée peut être interprétée de plusieurs façons comme des informations très distinctes/
* XIV est un mot ou un nombre
L'information mesurée est liée à l'entropie de la source. On ne peut pas inventer d'information lors d'un traitement : on peut éventuellement en combiner.
**Illustration** : 2+2 contient plus d'information que 4 ;
effectuer l'opération réduit l'information disponible. Mais la
forme choisie à la fin peut être plus utile.
## Transformation de l'information
Un **algorithme** est un procédé qui agit sur des représentations de l'information, pas sur l'information elle-même. L'algorithme doit être une suite *finie* et *non ambiguë* d'opérations qui agissent sur ces représentations. Les algorithmes doivent préciser la nature des entrées et des sorties (par extension, souvent, la représentation et l'interprétation qui leur est associée).
L'**interprétation** et la **représentation** permettent de passer d'une
information (conceptuelle) à une représentation (effective) ou
inversement. Leur formalisme est souvent exprimé à l'aide des
mathématiques.
Algorithme et fonction
%% This is a comment in mermaid markup
graph LR
A(Concept)
B(Concept)
C(Donnée)
D(Donnée)
A-.fonction.->B
C--algorithme-->D
A--représentation-->C
D--interprétation-->B
Une même fonction peut correspondre à plusieurs algorithmes qui vont agir sur des représentations différentes *ou identiques*.
**Exemple:** un labyrinthe peut être représenté comme des endroits (vides) reliés entre eux, ou comme une grille de murs et de trous. Selon la représentation choisie, les algorithmes vont différer pour résoudre un même problème (trouver un chemin par exemple).
## L'information numérique
Les systèmes d'information (et les ordinateurs en particulier)
ne sont pas équipés pour traiter n'importe quel type de données.
Toutes les informations sont représentés sous forme de nombres
pour être traitées. On parle alors d'information **numérique** (on
emploie aussi le mot *digitale* par anglicisme : *digit* en
anglais = chiffre).
Le monde réel n'est pas numérique, il est **analogique**. On le
modélise sous forme numérique. La plupart de ces modèles sont
robustes, mais certains cas s'y prêtent mal. On va souvent
inclure dans la modélisation un facteur de précision ; pour
certaines données, le facteur de précision permettent de bâtir
un modèle fiable à une certaine échelle.
## Exemple d'informations
Un nombre d'élèves est très bien représenté par un nombre ;
c'est une donnée numérique.
La taille d'un individu est très bien représentée à une
précision près (millimètre, micromètre, nanomètre…). C'est une
donnée qu'on peut qualifier de *quantifiable*.
L'orientation politique d'un individu est difficile à quantifier
et ne donne pas toujours des modèles efficaces, on pourrait dire
que c'est *intrinsèquement analogique*.
L'information est une quantité qui se mesure, donc avec une
unité. Cette unité est le **bit**, abréviation de *binary
digit*. C'est la quantité d'information qui permet de répondre à
une question oui/non sur un événement.
Pour exprimer un choix parmi \(k\) possibilités distinctes, on a besoin d'une quantité d'information qui est de \(\left\lceil\log_{2}(k)\right\rceil\) bits d'information. Inversement, \(k\) bits d'information permettent de distinguer jusqu'à \(2^k\) possibilités.
Lorsqu'on combine deux sources indépendantes, on multiplie
les possibilités, mais on additionne l'information. Cette nature
multiplicative de la mesure en bits est très importante.
Les fractions de bits sont utilisées dans certains contextes,
mais en général on ne s'intéresse qu'à des bits entiers.
⚠️ Le mot *byte* un octet (le mot *octet*
existe en anglais britannique, mais aux US il est remplacé par byte et
signifie un mot de 8 bits). Son abréviation est B, à ne pas confondre
avec l'abréviation de bit qui est b et qui vaut donc 8 fois moins.
## Les multiples
Les bits sont regroupés en diverses unités. Le principal
multiple du bit est l'**octet**, qui est un groupe de 8 bits. On
utilise aussi les préfixes SI des unités (kilo, méga, giga,
etc.), à la fois pour les bits et pour les octets.
$$8\\,b=1\\,o=1\\,B$$
L'échelle binaire
Pour des raisons historiques, les premiers comptes de bits et octets étaient souvent des puissances de 2. Comme \(2^{10}\simeq 10^{3}\), on a abusivement confondu les 2. Les unités ont été renormalisées avec une abréviation avec un i (comme binaire), mais l'ancienne notation reste utilisée (notamment les capacités mémoires sous Windows, mais pas sur l'emballage des disques durs).
Préfixe
Valeur
Valeur développée
Abréviation
kilo, kibi
\(2^{10}\)
\(1\,024\)
Ki,K
méga, mebi
\(2^{20}\)
\(1\,048\,576\)
Mi
giga, gibi
\(2^{30}\)
\(1\,073\,741\,824\)
Gi
téra, tebi
\(2^{40}\)
\(1\,099\,511\,627\,776\)
Ti
péta, pebi
\(2^{50}\)
\(1\,125\,899\,906\,842\,624\)
Pi
L'échelle décimale
Cette échelle est à utiliser pour toutes les unités, sauf, dans certains contextes, les bits.
Préfixe
Valeur
Abréviation
Français
Anglais
kilo
\(10^3\)
k,K
Milliers
Thousands
méga
\(10^6\)
M
Millions
Millions
giga
\(10^9\)
G
Milliards
Billions
téra
\(10^{12}\)
T
Billions
Trillions
péta
\(10^{15}\)
P
Billiards
Quadrillions
exa
\(10^{18}\)
E
Trillions
Quintillions
milli
\(10^{-3}\)
m
Millièmes
Thousandths
micro
\(10^{-6}\)
µ
Millionièmes
Millionths
nano
\(10^{-9}\)
n
Milliardièmes
Billionths
pico
\(10^{-12}\)
p
Billionièmes
Trillionths
## Quelques ordres de grandeur
### Capacité
* \\(10^3\\) bits : carte à bande magnétique
* \\(10^9\\) bits : CD, génome humain
* \\(10^{13}\\) bits : disque dur
* \\(10^{17}\\) bits : le cloud de Google
* \\(10^{22}\\) bits : trafic internet annuel en 2016
### Densité
* Habituellements en bits par pouce-carré.
* Disque dur magnétique : 1-2 Tbit/in²
* Disque dur SSD/clé USB : 3 Tbit/in²
* Mémoire vive (DiffDRAM) : 0,3 Tbit/in²
* Bande magnétique : de 256 à 0,1 Tbit/in²
## Quelques ordres de grandeur
### Débit d'information
* \\(10\\,b.s^{-1}\\) : communication en morse, sonde spatiale XXe siècle
* \\(10^6\\,b.s^{-1}\\) : Bluetooth
* \\(10^7\\,b.s^{-1}\\) : câble USB, ADSL, Ethernet
* \\(10^{9}\\,b.s^{-1}\\) : Fibre optique, USB3, 5G, Wifi
* \\(10^{10}\\,b.s^{-1}\\) : mémoire DDR4, réseau infiniband
⚠️ Il y a une différence
entre le débit brut et la quantité d'information *utile*
effectivement transportée.
L'information n'est pas toujours sous forme de nombres dans la nature. Alors il faut prendre des modèles simplificateurs.
## Passage de l'analogue au numérique
Le procédé pour passer d'une donnée analogue à une donnée numérique utilise presque toujours les mêmes étapes :
* Filtrage perceptuel physique : ce qui ne peut pas être détecté par les capteurs ne l'est pas
* Découpage volumique (pour les phénomènes à plusieurs dimensions)
* Échantillonnage (pour les phénomènes avec une dimension temporelle)
* Quantification (réduction à un nombre d'états finis)
* Filtrage perceptuel numérique : ce qui ne peut pas être détecté à l'utilisation est parfois enlevé pour réduire la quantité d'information.
## Les étapes de la numérisation (1)
Le filtrage perceptuel (physique, en pré-traitement ou
numérique, en post-traitement), permet de se débarasser d'une
information inatteignable, inutile ou même gênante. La taille
sur la carte d'identité en centimètres entiers est bien
suffisante pour le besoin exprimé. La granularité de la couleur
des yeux aussi. Lorsqu'on numérise un son, on peut se débarasser
des subtilités inaudibles par l'oreille humaine.
-----
## Pixelisation
Le **découpage volumique** ou **temporel** permet de passer à
une seule dimension à mesurer (répétée autant de fois que
nécessaire). Il y a beaucoup de subtilités difficiles à
expliquer pour optimiser le découpage volumique (place prise par
les capteurs), mais on favorise souvent les découpages
rectangulaires. On obtient ainsi des pixels (en 2D), des voxels
(en 3D). [L'information est
perdue](https://www.youtube.com/watch?v=I_8ZH1Ggjk0) : on ne
peut pas reconstituer l'information *entre les sites de
numérisation*. On peut à la rigueur essayer d'en donner des
interpolations, mais on ne redonne pas d'information sans source externe.
Découpage volumique(image: JC Dubacq+USC)
Agrandissement(image: JC Dubacq+USC)
L'échantillonnage
Lorsqu'on a un phénomène temporel, on va prendre des mesures
à intervalles réguliers :
c'est l'échantillonnage. Les limites sont bien
connues pour les signaux périodiques, et le théorème
d'échantillonnage de Nyquist-Shannon nous dit que si
\(f_e\geqslant 2f_{max}\), alors on a une reconstruction unique
du signal d'origine à partir des données
Deux écueils : \(f_{max}\) n'est pas toujours définissable (on se le donne souvent comme précision), et les signaux ne sont pas périodiques (mais on espère qu'ils évoluent suffisamment lentement pour être presque périodiques.
Quantification
Une des dernières étapes est de transformer la valeur de la mesure en une valeur qui rentre sur un nombre fini d'états. En général, on utilise une échelle linéaire divisé en quanta de taille égale. Par exemple, 20 quanta de 0,1 V couvrent des valeurs de -1 V à +1 V.
Si on a des valeurs qui vont de \(V_{min}\) à \(V_{max}\), alors le nombre de quanta \(n\) et la taille d'un quantum \(Q\) sont liés par $$n=\left\lceil\frac{V_{max}-V_{min}}{Q}\right\rceil$$
Pour la plupart des signaux temporels, la quantification permet de reconstituer un signal proche de celui d'origine. On passe d'une information analogique à une information numérique au comportement proche.