¿Cómo funciona Google?

Rueda radial del saber «La melcocha» del 27 de abril de 2019.

¿Cómo funciona Google?
Los Centros de datos de Google (o Google Data Center) son instalaciones especialmente creadas por Google para el almacenamiento y gestión de sus servidores. Constan de distintos elementos electrónicos tales como sistemas de almacenamiento, dispositivos de comunicación, elementos de climatización y dispositivos de seguridad.
En el 2013 Google tiene 13 centros de datos en los que, según las estimaciones realizadas sobre los últimos datos energéticos emitidos se calcula que habría un total de 900,000 servidores.
Los servidores que se usan en los centros de datos son montados a medida por Google y funcionan bajo una distribución de Linux también completamente personalizada por Google.
Ventajas
Distribuir los servidores de forma deslocalizada en vez de en una única estructura tiene una serie de ventajas.
Rapidez de acceso, la distancia al punto de conexión con un servidor es uno de los factores que influyen en la velocidad con la que obtendremos los datos, cuanto más cerca estemos del centro de datos correspondiente, más rápida será nuestra búsqueda.
Fiabilidad del sistema, tener varios centros de datos en vez de uno solo de un tamaño mucho mayor, protege al sistema frente a caídas inesperadas, provocadas desde fallos en servidores, cortes de corriente, o incluso catástrofes naturales.
Coste reducido, construir un único centro de datos centralizado y de un tamaño desmesurado es mucho más caro que construir varios más pequeños.
Distribución en distintas franjas climáticas, los centros de datos están distribuidos a lo largo de diversas franjas climáticas con diferente estacionalidad, esto permite compensar altas temperaturas en un área, desviando el trabajo a las zonas más frías en esa época, lo cual repercute directamente en el gasto energético.
Distribución en distintas franjas horarias, existe también la posibilidad de desplazar carga hacia los centros de datos que puedan aprovechar tarifas más bajas de electricidad, como por ejemplo durante horas nocturnas de bajo consumo.
Flujo de Datos
Google tiene esencialmente dos grandes redes separadas, la primera conecta los usuarios a los servicios ofrecidos por Google (Búsqueda, Gmail, Youtube, etc.) la segunda conecta los centros de datos entre sí. El sentido de esta separación de redes en vez de la integración de ambas en una sola red es debido a las diferentes características de demanda de tráfico que se aprecian entre lo que los consumidores necesitan y las necesidades de Google.
La red de usuarios tiene un tráfico constante aunque diferenciado en dos tramos, nocturno y diurno, el segundo con una mayor carga. Los niveles de exigencia así mismo son muy altos, todos los paquetes han de llegar intactos y en el menor tiempo posible. A pesar de los tramos mencionados, el tráfico en esta red es constante, el volumen dentro de uno de los tramos no varía excesivamente de forma imprevisible ya que depende del número de usuarios de la zona que es relativamente constante.
Sin embargo el tráfico interno es completamente cambiante frente a la regularidad del externo. Google tiene que mover petabytes de datos (índices de la WWW, backups, o incluso los datos derivados del lanzamiento de un nuevo producto) y necesita saber cuánto tiempo tardara el proceso y poder priorizar el tráfico más importante, lo cual es imposible con el sistema tradicional de transporte de datos.
Para ello Google usa OpenFlow, un sistema Open Source desarrollado por científicos de las Universidades de Stanford y Berkley. OpenFlow se basa en la llamada Red Definida por Software (SDN, Software Defined Networking) que consiste en separar las funciones de direccionamiento de la red, aislándolas en servidores que conocen el estado completo de la red, en vez de dejándolas a decisión de los router como en el sistema tradicional.
Tomando como ejemplo una compañía de taxis, el sistema tradicional seria en el que el taxista decide la ruta, sin saber si la calle por la que decide ir estará cortada por obras o congestionada por el tráfico. En el sistema Open Flow, el taxista preguntara su ruta a una central que conoce el estado exacto de tráfico en cada una de las calles, pudiendo tomar la decisión óptima. Esta central de tráfico podría incluso ordenar a los taxis (datos con poca importancia) permanecer en el garaje mientras pasan los camiones de bomberos (datos con mucha importancia).
Seguridad del Sistema y Protección de los Datos
Google posee una importante infraestructura que no solo contiene el valor físico del hardware que la compone, sino también el valor de los datos que almacena. Algunos de esos datos son propios de la empresa (estadísticas, índices, etc.) mientras que otros son datos privados de los usuarios (correos de Gmail, videos de Youtube, etc.).
El funcionamiento de todos los servicios depende de este hardware y los datos que almacena, por tanto la gestión de la seguridad en estos centros de datos es una de las prioridades de la empresa.
Tal y como Google cuenta en uno de sus videos su política de seguridad se basa en tres áreas principales:
Física
Dentro de un centro de datos hay miles de máquinas que ejercen de servidores para los servicios ofrecidos por Google, contienen los datos privados de millones de usuarios con un valor económico incalculable, que además están protegidos bajo las leyes de protección de datos por ser material privado. El acceso está altamente controlado, no se permiten turistas o visitas, el perímetro esta vallado y fuertemente vigilado, incluso los trabajadores de Google tienen que ser perfectamente identificados en los puntos de acceso, en los cuales hay personal de seguridad 24 horas al día que disponen de una red de vídeo cámaras que monitorizan el acceso de todos los vehículos.
Una vez dentro del recinto, al acceder al edificio el personal de seguridad tiene que verificar de nuevo su identidad, no solo mediante las tarjetas electrónicas de identificación sino mediante análisis biométricos tales como el análisis de retina. Ya en las oficinas, un último control se impone antes de pasar a las salas de servidores (donde se guardan los datos).
Además del personal en los puntos de acceso, una sala de seguridad se encarga de la revisión de las cámaras de la instalación, un equipo de seguridad está presente 24 horas al día y actuaría en caso de alguna anomalía.
Protección de datos
Google se toma en serio la protección de los datos, que se guardan en múltiples localizaciones para asegurar su disponibilidad. Además Google tiene en cada uno de sus centros un equipo automático de vigilancia anti incendios, en caso de detectarse alguna anomalía en alguna de las secciones, automáticamente la actividad hace un puente a esa sección. Estos datos son críticos para el funcionamiento de la empresa, por tanto se guardan no solo con las medidas de seguridad físicas, sino además mediante algoritmos de encriptación, los datos no están guardados en texto plano sino cifrados
Los datos se guardan en discos duros que siguen un ciclo de vida, se monitoriza tanto su estado como su localización para evitar la pérdida o sustracción de alguno de ellos, cuando uno empieza a fallar, es reformateado y si supera una serie de pruebas, puesto de nuevo a funcionar.
En caso de no superar la prueba dada la cantidad de datos que contiene y la posible importancia de ellos pasa a un proceso para eliminar completamente la información que pudiera contener. Primero los datos serán sobrescritos y seguidamente los discos serán destruidos físicamente, una máquina aplastará y deformará el disco para que su contenido no pueda ser leído y seguidamente el equipo triturador que convertirá el disco duro en «viruta» metálica, imposible de recuperar.
Fiabilidad en las operaciones
Google mantiene una serie de generadores de emergencia, así como duplicidad en las conexiones tanto a la red eléctrica como a la red de datos, para evitar errores debidos a fallo en una conexión, todo ello destinado que sus servicios estén disponibles 24 horas al día, 365 días al año.
Eficiencia Energética y Sostenibilidad
La mayoría de los centros de datos utiliza la misma cantidad de energía general o de no computación (conversión de energía, refrigeración, etc) que la utilizada para suministrar energía a sus servidores.
En Google se ha reducido esta energía general a un 12%. De esta forma, el 88% de la energía que utiliza va dirigida a los equipos que suministran los productos y las búsquedas de Google.
El promedio ponderado de energía del PUE (siglas en inglés de Power Usage Effectiveness, Eficiencia en el Uso de Energía) de los últimos doce meses para todos los centros de datos de Google es de solo 1,12, lo que hace de estos centros de datos los más eficientes del mundo ya que según la encuesta sobre centros de datos de 2012 del Uptime Institute, el promedio global de los mayores centros de datos encuestados se encuentra entre el 1,8 y el 1,89.
Generalmente, todos los grandes servidores de otras empresas se suelen concentrar en una sala denominada sala fría, con una temperatura de unos 22 o 23 grados, una forma de mejorar la eficiencia energética de los servidores es tan simple como elevar la temperatura, en general las zonas de servidores de Google funcionan con una temperatura de 27 grados.
Sin embargo elevar la temperatura únicamente no es suficiente, la manera utilizada por Google para conseguir este rendimiento energético es el uso del entorno en el que emplazan sus centros de datos. En marzo de 2009, comenzaron la transformación de la fábrica de papel Summa Mill, de 60 años de antigüedad, para convertirla en un centro de datos. la actualidad, el centro de datos presta sus servicios a usuarios de Google de toda Europa y del resto del mundo.
La particularidad de esta planta es que utiliza el agua marina procedente de la bahía de Finlandia, aprovechando directamente la baja temperatura en la que se encuentra para enfriar sus equipos, una vez utilizada se mezcla con agua cogida nuevamente de la bahía para suavizar su temperatura y así devolverla con una temperatura parecida, minimizando el impacto ecológico.
Otro ejemplo de cómo Google usa nuevas formas para refrigerar sus instalaciones, es la ventilación por evaporación. Frente al uso de aire acondicionado, que puede aumentar entre un 30% y un 70% el consumo de energía, Google usa un sistema parecido al que usa nuestro propio organismo para refrigerarse.
Unos sistemas de refrigeración personalizados almacenan temporalmente el aire caliente que sale de los servidores y lo aíslan del resto del espacio del centro de datos. Los ventiladores situados sobre cada una de estas unidades extraen el aire caliente de la parte trasera de los servidores a través de conductos refrigerados con agua, que absorbe el calor del aire.
Esta agua caliente procedente del centro de datos baja a través de un material que acelera la evaporación y se convierte en parte en vapor, que es sacado al exterior mediante ventiladores. Finalmente se envía el agua refrigerada de vuelta al centro de datos para volver a empezar el ciclo.
Localización
La localización de los Google Data Center construidos en 2013 es la siguiente:
Estados Unidos:
• Berkeley County, Carolina del Sur
• Council Bluffs, Iowa
• Douglas County, Georgia
• Mayes County, Oklahoma
• Lenoir, North Carolina
• The Dalles, Oregon
Sur América:
• Quilicura, Chile
Europa:
• St. Ghislain, Bélgica
• Hamina, Finlandia
• Dublin, Irlanda
Asia
• Kowloon, Hong Kong
• Jurong West, Singapur
• Changhua County, Taiwan


In English

How does Google work?
The Data Centers of Google (or Google Data Center) are facilities specially created by Google for the storage and management of their servers. They consist of different electronic elements such as storage systems, communication devices, air conditioning elements and safety devices.
In 2013 Google has 13 data centers in which, according to estimates made on the latest emitted energy data, it is estimated that there would be a total of 900,000 servers.
The servers that are used in the data centers are assembled to measure by Google and work under a distribution of Linux also completely customized by Google.
Advantage
Distributing the servers in a delocalised way instead of in a single structure has a series of advantages.
Quick access, the distance to the point of connection with a server is one of the factors that influence the speed with which we obtain the data, the closer we are to the corresponding data center, the faster our search will be.
Reliability of the system, having several data centers instead of just one of a much larger size, protects the system against unexpected drops, caused by failures in servers, power cuts, or even natural catastrophes.
Reduced cost, building a single centralized data center and an excessive size is much more expensive than building several smaller ones.
Distribution in different climatic zones, the data centers are distributed along different climatic zones with different seasonality, this allows compensating high temperatures in an area, diverting the work to the colder zones at that time, which directly affects the energy expenditure.
Distribution in different time zones, there is also the possibility of moving cargo to data centers that can take advantage of lower electricity rates, such as during night hours with low consumption.
Data flow
Google has essentially two large separate networks, the first connecting users to the services offered by Google (Search, Gmail, YouTube, etc.). The second connects the data centers with each other. The sense of this separation of networks instead of the integration of both in a single network is due to the different characteristics of traffic demand that are appreciated between what consumers need and the needs of Google.
The network of users has a constant traffic although differentiated in two sections, night and day, the second with a greater load. The levels of demand are very high, all packages must arrive intact and in the shortest possible time. Despite the mentioned sections, the traffic in this network is constant, the volume within one of the sections does not vary excessively in an unpredictable way since it depends on the number of users in the area that is relatively constant.
However, internal traffic is completely changeable compared to the regularity of the external one. Google has to move petabytes of data (WWW indexes, backups, or even data derived from the launch of a new product) and needs to know how long the process will take and prioritize the most important traffic, which is impossible with the system traditional data transport.
For this, Google uses OpenFlow, an Open Source system developed by scientists from the Universities of Stanford and Berkley. OpenFlow is based on the so-called Software Defined Network (SDN), which consists of separating the routing functions of the network, isolating them in servers that know the complete state of the network, instead of leaving them to the decision of the routers as in the traditional system.
Taking as an example a taxi company, the traditional system would be in which the taxi driver decides the route, without knowing if the street he decides to go to will be cut off by traffic or congested by traffic. In the Open Flow system, the taxi driver will ask his route to a switchboard that knows the exact traffic status in each of the streets, being able to make the optimal decision. This central traffic could even order taxis (data with little importance) to remain in the garage while the fire trucks pass (data with great importance).
System Security and Data Protection
Google has an important infrastructure that not only contains the physical value of the hardware that composes it, but also the value of the data it stores. Some of these data are specific to the company (statistics, indexes, etc.) while others are private data of users (Gmail emails, Youtube videos, etc.).
The operation of all services depends on this hardware and the data it stores, therefore the management of security in these data centers is one of the priorities of the company.
As Google tells in one of its videos, its security policy is based on three main areas:
Physical
Within a data center there are thousands of machines that act as servers for the services offered by Google, they contain the private data of millions of users with an incalculable economic value, who are also protected under the laws of data protection because they are private material . The access is highly controlled, no tourists or visitors are allowed, the perimeter is fenced and heavily guarded, even Google workers have to be perfectly identified in the access points, in which there are security personnel 24 hours a day that have of a network of video cameras that monitor the access of all vehicles.
Once inside the premises, when entering the building, the security personnel has to verify their identity again, not only by means of the electronic identification cards but by means of biometric analysis such as retina analysis. Once in the offices, a last control is imposed before going to the server rooms (where the data is stored).
In addition to the staff at the access points, a security room is responsible for reviewing the cameras of the installation, a security team is present 24 hours a day and would act in case of any anomaly.
Data Protection
Google takes the protection of data seriously, which is stored in multiple locations to ensure availability. In addition, Google has in each of its centers an automatic fire surveillance equipment, in case of detecting any anomaly in any of the sections, automatically the activity makes a bridge to that section. These data are critical for the operation of the company, therefore they are saved not only with physical security measures, but also by encryption algorithms, the data is not stored in plain text but encrypted
The data is stored on hard drives that follow a life cycle, it is monitored both its status and its location to avoid the loss or theft of any of them, when one begins to fail, is reformatted and if it passes a series of tests, put again to work.
In case of not passing the given test, the amount of data it contains and the possible importance of it passes to a process to completely eliminate the information it may contain. First the data will be overwritten and then the disks will be physically destroyed, a machine will crush and deform the disk so that its contents can not be read and then the crushing equipment that will convert the hard disk into metallic «chip», impossible to recover.
Reliability in operations
Google maintains a series of emergency generators, as well as duplicity in the connections both to the electrical network and to the data network, to avoid errors due to failure in a connection, all aimed at making their services available 24 hours a day, 365 days a year.
Energy Efficiency and Sustainability
Most data centers use the same amount of general power or non-computation (power conversion, cooling, etc.) as used to power their servers.
Google has reduced this general energy to 12%. In this way, 88% of the energy used is directed to the teams that supply the products and Google searches.
The weighted average energy of the PUE (Power Usage Effectiveness, Energy Efficiency) of the last twelve months for all Google data centers is only 1.12, which makes these centers the most efficient data in the world, since according to the 2012 data centers survey of the Uptime Institute, the global average of the largest data centers surveyed is between 1.8 and 1.89.
Generally, all the major servers of other companies are usually concentrated in a room called cold room, with a temperature of about 22 or 23 degrees, a way to improve the energy efficiency of servers is as simple as raising the temperature, in general the Google server zones operate with a temperature of 27 degrees.
However raising the temperature alone is not enough, the way used by Google to achieve this energy efficiency is the use of the environment in which they place their data centers. In March 2009, they began transforming the 60-year-old Summa Mill paper mill into a data center. Currently, the data center serves Google users throughout Europe and the rest of the world.
The particularity of this plant is that it uses seawater from the Finnish bay, taking advantage of the low temperature it is in to cool its equipment. Once it is used, it is mixed with fresh water from the bay to soften its temperature and so return it with a similar temperature, minimizing the ecological impact.
Another example of how Google uses new ways to cool its facilities is evaporative ventilation. Faced with the use of air conditioning, which can increase energy consumption between 30% and 70%, Google uses a system similar to the one our own body uses to cool down.
Custom cooling systems temporarily store the hot air leaving the servers and isolate it from the rest of the data center space. The fans located on each of these units extract the hot air from the back of the servers through water cooled ducts, which absorb heat from the air.
This hot water from the data center goes down through a material that accelerates evaporation and becomes part of the steam, which is blown out by fans. Finally the cooled water is sent back to the data center to start the cycle again.
Location
The location of the Google Data Center built in 2013 is as follows:
U.S:
• Berkeley County, South Carolina
• Council Bluffs, Iowa
• Douglas County, Georgia
• Mayes County, Oklahoma
• Lenoir, North Carolina
• The Dalles, Oregon
South America:
• Quilicura, Chile
Europe:
• St. Ghislain, Belgium
• Hamina, Finland
• Dublin, Ireland
Asia
• Kowloon, Hong Kong
• Jurong West, Singapore
• Changhua County, Taiwan

Deja un comentario

Tu email nunca se publicará.