lundi, septembre 28, 2009

Facebook: (futur) propriétaire du graphe social mondial?

Je sais que Facebook suscite beaucoup de craintes et de critiques. Toutes ne sont pas injustifiées. Ce sont des soucis de jeunesse que le temps corrigera.

Malgré tout je suis ce site de très près car il est pour moi un cas unique. Je "joue" beaucoup (par mon métier...) avec Internet: après le courrier électronique (mais de très près...), Facebook est le seul site / service que je vois utilisé par tous mes amis alors qu'ils sont pour la plupart très loin du cercle de geeks que vous pourriez imaginer....

Je ne parle même pas des ados comme mon fils: l'addiction est là intégrale.

Donc, pour comprendre les tendances, je collecte des chiffres que je publie à intervalles réguliers. Ceux que j'ai accumulé depuis l'été:


  • Facebook est maintenant en termes de trafic le 4ème site du monde (340 millions de visiteurs en juillet) derrière le trio de tête éternel du Web (Google crédité de 844 millions, Microsoft de 691 millions, Yahoo de 581 millions) avec le dépassement progressif des autres grands du web selon l'historique ci-dessus.
  • 300 millions de membres y sont actifs sur une base très régulière
  • le business est maintenant positif au niveau du cash-flow (hors investissements): Facebook génère donc les liquidités nécessaires au paiement de ces frais courants (salaires, administration, hébergement, bande passante, etc....). On peut donc en déduire que les frais de fonctionnement de la machine Facebook doivent être à ce moment aux alentours du chiffre de 500 millions de dollars précédemment annoncé en tant que chiffre d'affaires 2009.
  • avec une amplitude certes plus faible que celle de l'Hydre Google qui phagocyte déjà 150'000 sites avec sa seule API de cartographie, Facebook commence également à "capillariser" le web: 15'000 sites utilisent activement Facebook Connect, son service de délégation centralisée d'authentification.
  • en termes d'utilisation moyennes, 130 "amis" par utilisateur, au moins 1 visite au site tous les 2 jours et presque 6 heures par mois au total.
  • ... et environ seulement 300 ingénieurs sur 1'000 employés pour piloter ce monstre!
  • pour les serveurs, on doit maintenant approcher les 60'000 si j'applique une règle de 3 par rapport à la situation de juin.
  • cette même règle de 3 produit alors environ 1.3 milliard de photos par mois parmi 6 milliards d'éléments d'information mensuels publiés par les membres.

Toutes les pièces du puzzle d'une prochaine entrée en bourse fructueuse(après la crise...) se mettent donc en place!

Au vu de ces chiffres, la question qui me taraude: le Giant Global Graph (GGG) de Tim Berners-Lee n'est-il pas en train naître de manière privée (i.e commerciale) plutôt qu'avec la vision humaniste (i.e ouverte) de Sir Tim ? Y-a-t-il une chance pour que les Forces du Libre finissent (comme dans le Logiciel) par l'emporter pour les réseaux sociaux ? Opensocial est très discret actuellement....

Vu la "masse inertielle" en cours d'acquisition par Facebook, la partie sera (très) rude !

Source: blog Media & Tech (par didier durand)

jeudi, septembre 24, 2009

Google: cartographie des acquisitions avant la reprise....

A l'entrée de la crise, Google avait annoncé une période de thésaurisation intense. Cela semble terminé: le ceo E. Schmidt a annoncé hier une reprise des acquisitions (signe de fin de crise ? Au moins pour le géant de Mountain View) avec l'achat prévisible d'une startup de petite taille par mois à partir de maintenant. Sans compter les plus gros rachats que E. Schmid qualifie de "moins prévisibles"...

C'était On2 pour Août et reCaptcha en Septembre. Au tour de qui en Octobre?

En attendant, MeetTheBoss a fabriqué une carte des acquisitions et investissements passés de Google pour ceux qui veulent "réviser": AOL, Youtube, Writely, Feedburner, etc...

[Cliquez sur l'image pour l'agrandir dans une fenêtre séparée]



A chacun d'analyser et de voir si le "taux de déchet / gaspillage" est normal ou pas au vu de ce qu'il reste de certaines de ces startups. Ce genre de stratégie fait toujours de la casse: ce sont les règles du jeu quand on fait (une partie de) sa R&D par acquisitions externes.

Source: blog Media & Tech (par didier durand)

jeudi, septembre 17, 2009

Google acquiert reCaptcha: nous allons bosser "au black" pour Mountain View

Google annonce aujourd'hui l'acquisition de la société reCaptcha.

C'est une toute petite boîte de 6 personnes donc la taille de l'acquisition n'est pas le sujet.

Ce qui m'intéresse, c'est le modèle qui se cache derrière: nous faire bosser au noir pour le géant de Mountain View en améliorant la reconnaissance optique pour que les 10 millions de livres déjà digitalisés dans Google Books et ceux à venir soient encore de plus haute qualité.

En effet, un volume important (en millions...) de livres sont de vieux livres afin qu'ils soient libres de droit: la qualité du papier, de l'encre et de l'impression se sont dégradés. Le processus OCR est donc plus difficile.

L'idée que je trouve brillante est d'utiliser les captchas produits par le service reCaptcha pour "faire d'une pierre deux coups" selon le proverbe:
  • utiliser le captcha pour son but habituel: vérifier que celui qui veut commenter, écrire une contribution, etc... est bien un humain. Pour ceux qui sont encore perplexes, les détails de ce test de Turing automatisé sont abondants sur cette page de Wikipedia.
  • utiliser simultanément la conversion de l'image en texte faite par l'humain en information destinée à convertir un passage flou traité avec peu de fiabilité.

Comment ? Regardez bien les captchas de reCaptcha (cf ci-dessus): contrairement à d'autres, ils comportent 2 mots. Et donc, dans l'idée Google: l La transcription d'un des 2 mots est pour l'authentication à partir d'un mot connu et défini par le service, l'autre est la bitmap scannée (mais nettoyée du bruit numérique...) issue d'un mot "douteux" trouvé dans Google Books.

En saisissant les deux mots, l'utilisateur du site communautaire sert les 2 buts: il s'authentifie par le mot déjà connu d'un côté et il bosse un peu pour Google de l'autre.... Bien sûr, un même mot sera vérifié plusieurs fois pour "blinder" le processus avant de le confirmer à Google Books.

Avec 30 millions de captchas servis chaque jour par reCaptcha sur plus de 100'000 sites, Google recrute ainsi une myriade de travailleurs clandestins! Je charrie peut-être un peu avec le mot "clandestin" mais c'est pour la force de la métaphore... ;-) [Note pour les tire-au-flanc: on n'est bien sûr pas sûr à tous les coups que l'un des 2 mots servent vraiment à la reconnaissance. Il n'est donc pas possible de "saloper" le boulot en ne saisissant qu'un mot...]

[Précision utile de Gallypette: ce modèle de fonctionnement est le modèle originel de reCaptcha - créée par des chercheurs de Carnegie-Mellon - que Google rachète purement et simplement pour l'utiliser à son profit]

Le modèle est donc finalement à 2 niveaux:
  • Google offre un service d'authentification anti-spam gratuit à des sites communautaires du Web Squared
  • Il le fait payer (avec une vraie valeur business pour le géant de Mountain View...) par les utilisateurs du site....
Les 2 y gagnent sur notre dos finalement. Mais, puisqu'on peut finalement placer notre commentaire ultra-brillant sur ce site très en vue, c'est "win-win", non? ;-)

On avait les fourmis-taggueuses de del.icio.us. Maintenant on a les fourmis-OCR de Google!

C'est donc du crowdsourcing canonique ! Puisque sa définition est selon Wikipedia:. "le crowdsourcing consiste à utiliser la créativité, l'intelligence et le savoir-faire d'un grand nombre d'internautes, et ce, au moindre coût". Bon, en même temps, tant avec la Base de Données des Intentions que le PageRank, Google n'en est vraiment pas à son coup d'essai avec cette "technologie"....

PS: C'est aussi une forme améliorée du Mechanichal Turk d'Amazon!

Source: blog Media & Tech (par didier durand)

mardi, septembre 15, 2009

Google Street View en Suisse: ultimatum de l'administration fédérale!

Avec son service Street View, Google poursuit sa technique duale standard:
  • augmenter "l'ombre informationnelle" (au sens "Web squared") du monde physique (ici, les zones urbaines) sur l'Internet pour offrir de nouveaux services à valeur ajoutée attractive aux utilisateurs
  • garnir ensuite les pages de contenus créés par ces nouveaux services de publicité pour augmenter ses revenus.
Puisque les photos de Google StreetView sont prises "en live" durant la journée, la protection de la sphère privée est posée depuis le début: Google y a réagi positivement en floutant les visages et les plaques d'immatriculation.

Cependant, on est par nécessité (pécuniaire) parfois conduit à faire des métiers peu honorables : la prostitution potentiellement capturée par les caméras de Google en est un exemple. Les Googlers doivent donc tout faire pour protéger la vie privée des individus qu'ils photographient avec les voitures-caméras sans prendre le temps d'une autorisation préalable....

Mais, la technologie de floutage automatique de Google est encore imparfaite: juste après le lancement en Suisse au mois d'Août, il y a eu une première vague de protestation sur les attentes à la sphère privée générée par ces imperfections technologiques.

Les premières discussions qui s'en sont suivies entre Google et l'administration helvétique n'ont pas vraiment porté leurs fruits. Alors, le préposé fédéral à la protection des données et à la transparence (PFPDT) lance maintenant un ultimatum en 6 points vers Moutain View:

"le PFPDT exige ainsi dans sa recommandation du 11 septembre 2009 que Google :
  • développe une meilleure solution pour rendre les visages et les plaques d'immatriculation complètement non reconnaissables,
  • apporte une attention particulière à l'anonymisation des installations sensibles telles que par exemple les hôpitaux, les écoles ou les prisons,
  • efface les images de rues privées prises en l'absence de consentement,
  • élimine les images de lieux fermés (cours, jardins) et diminue à l'avenir la hauteur de montage des caméras,
  • informe les villes et villages concernés une semaine avant d'effectuer les prises de vue et une semaine avant leur mise en ligne,
  • ne publie pas de nouvelles images prises en Suisse jusqu'au moment où les questions juridiques auront été clarifiées.

Google Inc est invité à communiquer au PFPDT dans un délai de 30 jours s'il accepte la recommandation. S'il rejette la recommandation ou ne la respecte pas, le PFPDT peut porter l'affaire au Tribunal administratif fédéral pour décision."

Pour respecter tout ceci, il y a un sacré boulot d'innovation technologique (mais pas seulement...) à réaliser au QG de Mountain View ou au labo de Zurich!

C'est un véritable coup d'arrêt qui est porté au service: si tout est respecté (abaissement des caméras, effacement des zones sensibles ou privées, etc.) , la valeur du service va s'en trouver drastiquement diminuée!

On va donc à mon avis vers une Google qui traîne des pieds au maximum en demandant un calendrier très étalé (avec quand même de bonnes raisons techniques pour ces délais...) et/ou un PFPDT qui se dirige vers le tribunal dont on verra si il confirme ou infirme alors la jurisprudence internationale naissante autour de Streetview

A suivre donc....

PS: je suis étonné que mon pays de vie privée (France) ne soit pas aussi actif que mon pays de vie professionelle (Suisse) sur ce thème: je croyais finalement l'Hexagone lui aussi farouchement attaché au respect de la sphère privée...

Source: blog Media & Tech (par didier durand)

mercredi, septembre 09, 2009

Microsoft SenseCam: bientôt tous des petits "Big Brothers" ?

Un des thèmes fondamentaux du "Web Squared" (nouvelle génération de l'Internet) est "l'ombre informationnelle" projetée par chaque composant du monde physique (y.c. les êtres vivants) sur son dual virtuel qu'est l'Internet. Cette "ombre informationelle" est composée des "empreintes numériques" (photos, textes, tags, etc...) que ces composants capturent puis déposent (i.e téléchargent) progressivement sur le réseau des réseaux, dans ses parties publiques ou privées, grâce à leurs senseurs toujours connectés.


Le projet Sensecam de Microsoft (que je découvre par cet article de Business Week) s'annonce comme un magnifique contributeur à cette "traçabilité parfaite"; en effet, on pourra tous dans quelques années porter ce petit pendentif en permanence autour du cou (cf. ci-dessus) afin qu'il puisse prendre des photos (très proches de ce que nous voyons avec nos propres yeux) à intervalles très réguliers ou lors d'évenements importants détectés par des senseurs sonores ou infra-rouges. Ces photos sont géo-localisées et situées dans l'espace puisque le gadget contient un GPS, un accéléromètre, etc.


Ensuite, les interfaces de communication idoines permettent le téléchargement de ces éléments pour mettre en sécurité .... ou publier le journal de sa vie.

Conclusion possible: dans 10 ans, nous portons tous autour du cou ... et notre vie privée n'existe plus!

Vous pensez: "il délire, Durand ... c'est impossible". Impossible, pourquoi ?
  • La taille du "bignou": laissez quelques générations de loi de Moore passer et vous pourrez l'avoir en piercing sur la partie du corps de votre choix (...) alors qu'il ne capturera plus seulement des photos mais de la vidéo HD...
  • Parce que tout le monde va penser "Moi, jamais! Je tiens trop à ma vie privée..."
Vous êtes bien sûr de ce deuxième point ? Qui aurait dit il y a dix ans que plus de 250 millions de personnes iraient étaler une bonne partie de leur vie privée à leurs "amis" sur Facebook ou leur signaler leur position géographique précise en temps réel via Google Latitude.... Nous publions tous une partie toujours plus importante de notre vie privée en échange de la valeur ajoutée que nous y percevons ou, du moins, croyons y percevoir.

D'ailleurs, ce genre de SenseCam est déjà en action dans le milieu professionnel: les policiers de Londres en sont par exemple déjà équipés depuis 2 ans.... Et puis, il y a eu la célèbre expérience de Justin Kan qui a diffusé sa vie en live pendant plusieurs mois, une caméra accrochée sur le front avant de lancer sa boîte Justin.tv sur ce thème du "Lifecasting"....


Donc, je délire... On en reparle dans 10 ans? D'ici là, coupez votre téléphone portable: comme "buvard" numérique de de votre empreinte géographique auprès de votre opérateur mobile, il n'y a franchement pas mieux.

Source: blog Media & Tech (par didier durand)

vendredi, septembre 04, 2009

Internet et contrôle parental: mon avis (très) personnel

Un post inhabituel pour ce blog bien que totalement lié à son thème de fond (media & technologie): je vais vous donner mon avis sur le contrôle parental et Internet pour nos chères "têtes blondes". [ Même si mon fils fait bientôt ma taille (1m84) et me dépasse déjà largement dans certains domaines, c'est encore un peu ma chère "tête blonde"....]

Revenons à nos moutons: ce billet est stimulé par l'excellente analyse de mon camarade Henri sur les meilleurs outils de verrouillage du PC familial (extension Glubble pour Firefox, etc...) pour éviter des "découvertes inopinées" (etc...) par vos enfants sur Internet. Je vous conseille de la lire pour découvrir les détails techniques et fonctionnels de ce blindage".

Maintenant, ma position que d'aucun qualifieront d'inconsciente voire motivée par la seule fainéantise de ne pas faire le boulot....

Elle est en tout cas clairement iconoclaste:

J’ai personnellement toujours fait attention à NE PAS protéger l’ordinateur autour du thème de la navigation Internet depuis que mon fils est petit (il a 16 ans maintenant…). Pourquoi ?

a) parce que je ne voulais pas donner l’impression à sa mère (non-geek) que tout était “blindé” sur le sujet. J’ai fait plein d’essais à l'époque : ça ne l’est pas ! facilement contournable…. Et Henri reconnaît lui-même que nos chères têtes blondes en savent souvent beaucoup plus que leurs parents sur ce sujet...

b) SURTOUT, je ne voulais pas donner de curiosité malsaine à mon fils: même si c’était blindé chez moi (il parait que je devrais savoir faire…) , il a des tonnes de copains dont les parents ne savent faire car ce n'est tout simplement pas leur job: il se serait donc rué chez ses potes en l’absence des parents pour consulter (longuement…) les sites bloqués à la maison! Quelqu'un ose-t-il me soutenir qu'il est sûr à 100% de pouvoir contrôler tous les PCs connectés auxquels son enfant pourrait avoir accès ?....

Il a donc appris "en live" que l’on tombait sur des sites pornos, racistes, nazis, etc… sur l’Internet et semble vivre bien avec cela sans être particulièrement déséquilibré dans ces directions perverses…. Le dialogue avec lui sur ces sujets nous (sa mère et moi) paru préférable à la répression totalitaire. Avec du recul (i.e il a 16 ans), cela me paraît ok.

J’ai tout faux ou quoi ? Qui lance le débat?

Source: blog Media & Tech (par didier durand)

jeudi, septembre 03, 2009

"Web Squared" et rentrée des classes: livre "Web 2.0 et au-delà" de David Fayon

[Si ce que je raconte ci-dessous vous paraît "ésotérique" alors passez directement au paragraphe final pour le pointeur vers le livre de D. Fayon. Après sa lecture, vous pourrez revenir à cet article !]

En grands gourous du marketing de l'Internet, Tim O'Reilly et John Battelle ont senti qu'à cause de la crise il était temps d'en "remettre une couche" sur le concept du Web 2.0 afin de re-booster leur conférence Web 2.0 Summit dont le prestige va sûrement souffrir en 2009 à cause de la réduction des coûts donc des frais de voyage qui sévit dans les entreprises.

Alors, ils tapent fort: on passe de l'époque linéaire web 1.0, web 2.0, etc... à l'ère exponentielle: ils évoquent donc le "Web squared" ("web au carré" - désolé, je n'arrive pas à mettre de caractères en exposants sur ce blog!) pour quitter cette litanie du N+1.

Pour ce faire, ils ont publié un white paper très intéressant (à télécharger ici - update: traduction française signalée par Clochix qui donne aussi son avis ) à la fois détaillé et synthétique (i.e abstrayant bien ces tendances vers leur concept général respectif) dont je vous recommande la lecture détaillée pour une remise à jour sur les toutes dernières tendances technologiques d'Internet.

On peut résumer le "Web squared" avec l'image ci-dessous qui schématise l'évolution à partir du web 2.0.

Tout d'abord, il faut noter que l'on est dans la continuité ( qui consiste à "mettre le monde réel et l'Internet bout à bout") plutôt que dans la rupture:
  • le Web devient temps réel dans sa propagation des informations : je le constatais déjà il y a fort longtemps avec l'indexation de Google, c'est maintenant un mécanisme de base et la valeur ajoutée fondamentale de Twitter.
  • l'interaction de l'utilisateur avec le système n'est plus seulement facilitée par le système: elle est carrément remplacée par les machines et gadgets connectés qui amènent directement l'information sur le Net et qui réciproquement s'approvisionnent sur le Net
  • la vraie valeur ajoutée du web 2.0 était basé sur des données difficiles à recréer par les compétiteurs (les articles et leurs fiabilité sur Wikipedia, les recommandations du filtrage collaboratif d'Amazon, etc.) le plus souvent créée par la participation des utilisateurs (le fameux UGC) . Dans le "web squared", la valeur ajoutée sera basée sur la mise en synergie de ces différentes données ainsi créée pour dériver une valeur ajoutée encore plus grande.
  • les milliards de photos accumulées sur l'Internet (pour ne citer qu'elles sans parler des autres formes de contenus) permettent de créer une "ombre informationnelle" ["Information shadow"] virtuelle très fidèle du monde réel pour créer de nouveaux services hyper-intelligents: la réalité augmentée (exemple concret ici) en est actuellement le meilleur exemple
  • les méta-donnnées implicites ["implied metadata"], i.e. découvertes au fil du contenu Internet permettront d'extraire une nouvelle forme de valeur ajoutée d'ores et déjà présente mais encore cachée dans les pages. Le phénomène n'est pas nouveau: le PageRank de Google ("1 lien = 1 vote" sur la qualité du contenu) en est le meilleur exemple. Sa valeur ajoutée en dizaines de milliards de dollars annuelles n'est plus à décrire...
Alors. réchauffé ou pas le "Web Squared" ? A chacun de juger....

Maintenant, si tout ce qui précède est du charabia et que vous voulez une bonne synthèse, précise et relativement courte, des 5-6 ans qui ont conduit à ce "Web Squared", je vous conseille le bouquin de David Fayon "Web 2.0 et au-delà" (dont il m'a fait parvenir une copie). Cela permettra à tous ceux qui n'ont pas fait leurs devoirs de vacances (je l'ai lu à cette occasion) de se rattraper en ce jour de rentrée des classes.....

Dans son bouquin, David présente avec une vision grand public:
  • les mécanismes fondamentaux du web 2.0: la collaboration, la viralité, etc.
  • les grands acteurs et comment ils mettent ces mécanismes en action
  • les modèles économiques qui découlent de l'application de ces mécanismes et principes
  • ...et aussi, pour ceux qui ont besoin de leur "dose de techno", un peu de bon vieux code au ras des pâquerettes (au bon sens du terme!)
Le tout abondamment illustré d'exemples concrets voire pratiques pour pouvoir réellement "toucher" à ces abstractions de notre monde actuel...

A lire (ou relire) donc!

Source: blog Media & Tech (par didier durand)

mercredi, septembre 02, 2009

Google: 30'000 requêtes de recherche par seconde et 1.4 cents par requête!

Je reviens sur les pharamineux 113 milliards de recherches par mois sur les moteurs pour les remettre en perspective à l'échelle de la seconde:

  • 113'685'000'000 / (30 * 86'400) = 44'000 requêtes par seconde sur l'ensemble des moteurs de recherche de la planète
  • chez Google qui en reçoit les 2/3, ce sont donc près de 30'000 requêtes par seconde auxquelles il faut répondre en quelques centaines de millisecondes.
On voit alors mieux pourquoi le géant de Moutain View utilise un parc de 2 millions de serveurs pour ce faire!

Côté monétisation, si on accepte l'approximation que le 90% des revenus vient des recherches (pas si faux si on considère la quote-part publicitaire et la répartition de l'activité), on calcule alors que chaque requête de recherche rapporte 1.4. cents soit (0.9 * 3.653 milliards de revenus trimestriels hors Adsense / 230 milliards de requêtes).

Finalement, cela reste très palpable le revenu par requête: je voyais seulement des pouilliémes de cents...

Cela me fixe les idées! Vous aussi?....

Source: blog Media & Tech (par didier durand)

mardi, septembre 01, 2009

100+ milliards de recherches sur les moteurs chaque mois!

Selon Comscore, 113 milliards de requêtes de recherche ont été effectuées sur la planète au mois de Juillet 2009 avec une croissance de 41% sur 1 an!

77 milliards soit les 2/3 tiers pour Google: on peut bien parler d'une hégémonie ancienne qui se poursuit et s'intensifie! (triple d'ailleurs...) . En effet, le géant de Mountain View prend des parts de marché à Yahoo et Microsoft puisqu'il augmente de 58% alors que les 2 autres ne croissent que de 2% et 8% sur des volumes beaucoup plus faibles. A noter que le sino-chinois Baidu vient au rang 3 entre Yahoo et MS: l'orientalisation du web prédite par Yahoo et déjà récemment évoquée est encore prouvée!


Google "distille" ensuite à partir de ces recherches un milliard de visites par mois vers les sites de la presse: il l'a parfaitement réussit sa ré-intermédiation du 4ème pouvoir, ce qui lui vaut les foudres des éditeurs en ce moment .... comme toujours!

Géographiquement, l'Europe est la plus grosse chercheuse avec 1/3 du marché suivie de près par l'Asie: les USA sont maintenant seulement à la 3 ème place. Les sud-américains sont les plus actifs avec 130 recherches mensuelles par internaute.

Une nuée de chiffre à mettre en réserve pour donner du contexte à des analyses ultérieures...

Source: blog Media & Tech (par didier durand)