La compañía de Silicon Valley | SwiftSummit Innovaciones Inc.

Si desea tener una idea de lo que las empresas realmente están haciendo con la infraestructura de IA y los problemas de procesamiento y capacidad de la red, energía y enfriamiento a los que se enfrentan, lo que debe hacer es hablar con algunos proveedores de centros de datos de ubicación conjunta. Entonces, vamos a hacer eso comenzando con Colovore, que tiene su sede en Santa Clara, en el corazón de Silicon Valley y quizás el peor lugar para ejecutar un centro de datos.

O, si lo haces bien, tal vez el mejor lugar porque la demanda de los clientes está por las nubes. Y así es precisamente como lo ve Ben Coughlin, cofundador, presidente y director financiero de Colovore.

Colovore llamó nuestra atención porque es el lugar donde Cerebras Systems aloja su grupo "Andromeda" de dieciséis de sus sistemas informáticos a escala de oblea CS-2, que ofrece más de 1 exaflops de matemática de punto flotante FP16 de precisión media para entrenar modelos de IA. , que se muestra en la imagen principal de arriba en el centro de datos en Space Park Drive cerca del Aeropuerto Internacional de San José Mineta, y curiosamente al otro lado de la calle de la tienda de computadoras UNIXSurplus y muy cerca de los centros de datos administrados por Digital Realty, Equinix, Evocative y Tata Communications.

Fundada en 2012, justo cuando comenzaba el auge de la IA acelerada por GPU, Colovore ha recaudado $ 8 millones en fondos hasta la fecha y hasta ahora solo tiene un centro de datos. El centro de datos SJC01 de la compañía pesa 24 000 pies cuadrados, es compacto gracias a la refrigeración líquida y ha estado en funcionamiento desde 2014. La instalación SJC01 se ha ampliado gradualmente, con una expansión de 2 megavatios dentro de la instalación que se realizó en febrero de 2022, para acercarse a su carga completa de 9 megavatios. Los racks comenzaron con 20 kilovatios de potencia y refrigeración, y se han expandido a 35 kilovatios. Su centro de datos SJC02, que se abrirá en el segundo trimestre de 2024, ocupará ese edificio UNIXSurplus, que está alquilando a Ellis Partners. (Hay una metáfora si alguna vez vimos uno. . . . ) Tiene alrededor de 29,000 pies cuadrados de espacio y, al igual que SJC01, solo ofrecerá racks refrigerados por líquido y posiblemente algo de refrigeración líquida directa si los clientes lo solicitan. (Y creemos que lo harán). Los racks escalan a 50 kilovatios en el nuevo centro de datos desde el primer momento.

Colovore fue cofundado por Sean Holzknecht, quien fue vicepresidente de operaciones en Evocative y fundó otro operador de centro de datos llamado Emerytech Data Center después de un período al frente de varias oficinas centrales en San Francisco para Pacific Bell. Coughlin es la persona del dinero y fue socio de Spectrum Equity Investors, una firma de capital privado con un capital de $ 5 mil millones que se centró en las telecomunicaciones y los medios digitales. Peter Harrison, el tercer cofundador de Colovore, administró la huella del centro de datos global de Google, su proyecto de fibra hasta las instalaciones y la red de entrega de contenido de YouTube. Harrison fue director de operaciones en eBay y también ayudó a Netflix a lanzar su servicio de transmisión de video.

Coughlin se acercó a nosotros porque ve que todos quieren comenzar con la IA, pero no se han dado cuenta de los problemas de enfriamiento con estos monstruos matemáticos matriciales que necesitan para impulsar los motores de recomendación y los grandes modelos de lenguaje. Colovore está en el meollo del asunto, operando una instalación de 9 megavatios en el corazón de la acción, que está completamente refrigerada por líquido y lista para asumir la computación más densa que sus empresas necesitan. No estamos hablando de los 100 kilovatios por rack que una supercomputadora masiva de clase exaescala con placas frías refrigeradas por líquido y conectadas directamente podría necesitar en estos días, pero se está acercando. Y si lo necesita, Coughlin tiene el equipo y las instalaciones que pueden empujar ese sobre justo en el corazón de Silicon Valley.

Ben Coughlin: Obviamente hemos estado siguiendo su cobertura de esta industria por un tiempo. Y estamos en una intersección interesante en Colovore porque apoyamos gran parte de la infraestructura de IA más nueva aquí en Silicon Valley, en parte porque ofrecemos refrigeración líquida. Hay mucha discusión sobre el crecimiento de la IA y cómo están innovando en las plataformas de servidores subyacentes, pero hay una discusión muy limitada sobre el centro de datos. La gran mayoría de los centros de datos no están diseñados para admitir esos sistemas de IA. Si el centro de datos no puede admitirlo, Houston, tenemos un pequeño problema aquí.

En general, todo el mundo ve el centro de datos como un edificio, una propiedad inmobiliaria. No es muy emocionante, no es muy divertido hablar de eso, todos se ven y se sienten iguales. Y en su mayor parte, eso es correcto. Excepto que ahora que prolifera este tipo de infraestructura de IA, las cosas tendrán que cambiar.

Timoteo Prickett Morgan: Bien, hablemos de eso. Tiene un centro de datos en Santa Clara, lo que significa que está atendiendo a algunos de los clientes con mayor uso de datos y computación que han descubierto que no quieren tener su propio centro de datos. Los tienes justo donde los quieres, y ellos te tienen justo donde te quieren.

Entonces, ¿por qué diablos pagaría los precios de California por bienes raíces, por agua, por electricidad? Eso parece una locura a primera vista, pero siempre existe ese límite en la velocidad de la luz que obliga a ciertas cosas a ser razonablemente locales.

Ben Coughlin: Brindamos servicios a empresas emergentes de Fortune 500. Es como una gran variedad de clientes, algunos gastan unos pocos miles de dólares al mes, otros gastan cientos de miles al mes. Y varios de nuestros clientes están en Fortune 500: grandes empresas que cotizan en bolsa con grandes capitalizaciones de mercado que están liderando la revolución de la IA. Pero la verdad es que no tienen departamentos de TI que puedan administrar centros de datos en ubicaciones remotas. Es impactante para las empresas de su escala y complejidad, pero cuando analizas un poco la cebolla de TI en estas empresas y observas a las personas de operaciones técnicas que pueden manejar la infraestructura, no es tan profundo como crees. Y esa es una de las razones discretas por las que no todo el mundo va a Fargo, Dakota del Norte, o consigue cualquier fuente de energía que sea mucho más barata y en un lugar mucho más fácil de construir en comparación con Silicon Valley. Y es por eso que todavía hay mucha demanda local.

TPM:¿Qué porcentaje de la infraestructura que actualmente tiene bajo administración en SJC01 es material de IA?

Ben Coughlin: Si calculo el recuento de mi unidad de rack en todos los servidores del centro de datos, la IA probablemente represente el 80 por ciento. Tenemos algunos sistemas pesados con miles de GPU ejecutándose aquí.

TPM: Bien, eso significa que no tengo que terminar esta llamada ahora. Lo que es bueno.

Ben Coughlin: Cuando iniciamos el negocio hace diez años, todos habíamos estado administrando centros de datos durante mucho tiempo. Y lo que estábamos viendo años atrás era esto. Con los servidores blade y los entornos virtualizados, las plataformas de servidor se estaban volviendo más pequeñas y más poderosas, se podía condensar la huella y hacer más con un espacio físico más pequeño. Y nos dimos cuenta de que esto iba a requerir energía en un gabinete y más enfriamiento en un gabinete. Nadie vio venir toda esta revolución de la IA, pero como comenzamos a hacer refrigeración líquida desde el primer día, estábamos listos.

Aquí está la cosa: al final del día, todo esto se trata realmente de enfriar dentro del centro de datos. Siempre puede entregar más circuitos de energía a una ubicación. Y en eso nos enfocamos.

TPM: Espera un segundo. Pensé que ustedes en el Valle y en otros lugares como Ashburn en Virginia tenían energía limitada, y también que era cada vez más difícil obtener más energía en los racks, incluso cuando se puede enviar al edificio.

Ben Coughlin: No precisamente. Silicon Valley Power, como empresa de servicios públicos, tiene algunas limitaciones, ahora no como lo que está sucediendo en el norte de Virginia, donde literalmente no pueden entregar más energía. Si desea llevar más energía a la ubicación en el centro de datos, generalmente puede hacerlo. El problema es cómo lidias con el calor.

TPM: He leído las especificaciones sobre la potencia que el centro de datos SJC01 podría entregar a los racks: dónde comenzó y dónde se encuentra hoy. Sigo pensando que 100 kilovatios es mucho para manejar en un rack, tanto por razones de refrigeración como de energía. ¿Qué está haciendo realmente la gente?

Ben Coughlin: Déjame darte los bloques de construcción. La mayoría de los centros de datos comunes admiten 5 kilovatios en un gabinete.

TPM: Eso es estúpido. Una CPU empuja 400 vatios y una GPU empuja 800 vatios.

Ben Coughlin: Oye, créeme, estás cantando nuestra melodía. Pero hace diez años, un servidor típico tenía quizás 250 vatios, y la CPU de un servidor tenía quizás 75 vatios, quizás a veces 100 vatios.

TPM:Sí, recuerdo cuando la gente se estaba volviendo loca porque una CPU quemaba más energía que una maldita bombilla incandescente, y ahora, es como si fueran un secador de pelo y ni siquiera nos inmutamos.

Ben Coughlin: Cuando abrimos las puertas por primera vez, construimos cada rack para manejar 20 kilovatios. Luego, un par de años más tarde, cuando nos expandimos y pusimos en línea nuestra siguiente fase, construimos a 35 kilovatios. Ahora apoyamos 50 kilovatios. Entonces, solo en nuestra evolución en la última década, hemos ido internamente de 20 a 35 a 50 años. Y podemos entregar 250 kilovatios por gabinete. Esa es realmente una función de esas plataformas y de cómo se enfrían. Esos son sistemas refrigerados por líquido directo, tenemos varios en funcionamiento. Algunos descargan 35 kilovatios o 50 kilovatios en un gabinete, pero estamos diseñando e implementando un cliente en este momento que tiene más de 200 kilovatios por gabinete. Y no, no es criptominería, que es una base de clientes terrible.

TPM: No podría estar más de acuerdo. Si desea iniciar una nueva moneda, vaya con Elon Musk a Marte. Los ayudaré a empacar y los llevaré a la plataforma de lanzamiento. . . .

Ben Coughlin:Todas estas son cargas de trabajo reales de IA de empresas reales.

TPM: Estás sólo en el Valle. ¿Cómo es que no estás en otros lugares?

Ben Coughlin: Ya sabes, un paso a la vez. Somos rentables y estamos creciendo. He estado en Silicon Valley durante mucho tiempo y conozco el modelo de capital de riesgo de crecer a toda costa. Ese no es nuestro enfoque.

Pero en cuanto a su punto, debido a que estamos viendo que la IA pasa de la creación de prototipos a las primeras pruebas y a algunas implementaciones, estamos viendo que los clientes se mueven a múltiples gabinetes. Todo se está expandiendo bastante rápido, por eso estamos construyendo otra ubicación al lado. Más allá de eso, creo que nuestro próximo movimiento estaría un poco fuera del mercado, pero aún de naturaleza regional. Así que tal vez vayamos a Reno, hay un área allí donde la energía es más barata, pero todavía es relativamente local. El noroeste del Pacífico es una buena ubicación para nosotros. Pero no vamos a plantar una bandera en cada ciudad de la NFL y volvernos locos. Un paso a la vez. . . .

TPM:Conozco un montón de empresas que creen esto, y para la computación perimetral, diría, como lo hace VaporIO, que deberían estar en todas las ciudades de la NFL porque los permisos y las molestias de construcción de una red perimetral son inmensos.

Tema diferente: ¿Qué parte del mercado de centros de datos se irá en forma conjunta? Creo que podría ser un tercio en la nube, un tercio en las instalaciones y un tercio co-lo en las ejecuciones más largas.

Ben Coughlin: Buena pregunta. Diría que es más grande de lo que piensas, y esta es la parte que debes recordar. De la huella de la nube, y no sé exactamente qué número es, pero entre el 0 y el 40 por ciento de sus centros de datos en la nube en realidad se ejecutan en instalaciones co-lo que esos grandes alquilan. Construirán sus propios centros de datos en mercados donde la energía y la tierra son súper baratas y pueden transportar el tráfico hacia ellos. Pero están arrendando capacidad de proveedores co-lo en las principales áreas metropolitanas porque no tiene sentido que gasten todo ese dinero y paguen esa prima en espacio y energía.

Mi punto durante años fue que las nubes no eran la panacea para co-los. Siempre hemos dicho que en realidad es una marea creciente. Sí, hay algunas personas que tomarán la decisión de hacer solo la nube pura. Pero, de nuevo, un montón de esos proveedores de nube están usando co-los. . . .

TPM: Estaba ignorando ese fenómeno y realmente pensando en Global 20000 que no ejecutan sus propias nubes y proveedores de servicios, y pensando en lo que podrían hacer. Nadie va a pasar de las instalaciones a la nube y luego repatriarse a las instalaciones. Van a volver a la mitad de un co-lo, creo, cuando el costo de la nube llegue a ser demasiado alto.

Ben Coughlin: En primer lugar, todos nuestros clientes son híbridos. Están usando la nube para ciertas aplicaciones y co-lo para ciertas aplicaciones. Es realmente una especie de multiplataforma. Con la IA en particular y este tipo de cargas de trabajo, la nube tiene algunas limitaciones, y no es solo el costo. Todo el mundo sabe que la nube es súper cara. Pero esa es solo una variable, aunque es muy importante.

TPM:¿Cuánto más barato puede hacer IA para sus clientes?

Ben Coughlin: Mensualmente, la mayoría de nuestros clientes ahorran entre un 50 % y un 70 % en comparación con su factura mensual de la nube. Hay una inversión inicial cuando compran su equipo, pero esa recuperación puede ser en solo tres a seis meses. Entonces, la economía es tan clara como el día en que el ROI es enorme.

Si solo observa los aspectos financieros, la nube no tiene sentido para este tipo de cargas de trabajo de IA. Pero nuevamente, también hay otras variables: debe tener el conjunto de habilidades para ejecutar su infraestructura. El personal de muchas de estas empresas en la nube son jóvenes de 20 años que ni siquiera han tocado un servidor y ni siquiera saben cómo funciona. Algunas personas tienen el asunto CapEx-OpEx. La latencia es otra, y para la IA, vemos la latencia como una gran ventaja para los co-los. La gente habla de autos sin conductor y ChatGPT, lo cual está bien, pero es una porción muy pequeña de la carga de trabajo de la IA. Pero para las aplicaciones en tiempo real, no es ideal usar la nube, tener esa infraestructura residiendo en el centro del país, y tienes que ir y venir. La latencia es importante para algunas de estas aplicaciones. Entonces, la nube no es perfecta para cosas de IA para varias dimensiones diferentes.

Aquí está la cosa. Hagas lo que hagas, necesitas esa densidad de motores de cómputo en las áreas metropolitanas, porque ahí es donde se generan los datos. Ahí es donde necesita ser analizado y almacenado. Y la mejor manera de hacerlo es hacer que esos centros de datos coincidan con lo que está sucediendo con la plataforma del servidor, haciéndola más pequeña y más poderosa. Al final del día, lo que estamos haciendo es imitar lo que sucede en estos servidores. Simplemente estamos reduciendo el centro de datos y lo estamos haciendo más eficiente en general. Y aprovechamos el agua para hacer eso. No necesitamos construir estos, ya sabes, Cadillacs de cientos y cientos de miles de pies cuadrados.

Tenemos un ejemplo perfecto justo enfrente de nosotros en una instalación de Digital Realty, que tiene seis pisos y 150,000 pies cuadrados. Tenemos 25,000 pies cuadrados, tenemos exactamente la misma cantidad de energía que ellos. Lo que significa que son, para la misma cantidad de cómputo, 6 veces más grandes que nosotros.

TPM:¿Cuál es su costo incremental y cuál es el costo incremental que se transfiere al cliente?

Ben Coughlin: Es más barato. Hay otra pequeña falacia. Porque normalmente, cuando construyes centros de datos enfriados por aire, es algo lineal: si tengo más capacidad, me cuesta más. Pero debido a que el agua es un medio de enfriamiento tan eficiente y tiene tanta capacidad, no es necesario seguir construyendo más y más. Hay economías de escala allí. Entonces, cuando analizamos nuestros costos para entregar un megavatio de energía crítica que consume el cliente, somos un 30 por ciento más baratos que la industria porque nuestra huella es más pequeña.

La otra cosa que debe recordar es que en nuestra industria de centros de datos, muchos de los gigantes son profesionales de bienes raíces. Construyeron edificios y saben cómo construir sus edificios y ejecutar sus centros de datos de una manera que funcione para ellos. Y cuando están construyendo a esa escala, tienen un enfoque y así es como los eliminan. No son los más ágiles en términos de incorporar algunas de estas nuevas tecnologías como líquido en el centro de datos. Entonces, lo que para usted y para mí parecía muy lógico y necesario (refrigeración líquida en el centro de datos) les da que pensar. Sin embargo, estamos empezando a ver algunas grietas. Digital Realty, en su conferencia telefónica trimestral más reciente, finalmente dijo que este material de alta densidad se está volviendo importante en nuestros centros de datos.

Mientras tanto, seguiremos avanzando por debajo del radar y seguiremos construyendo gradualmente y yendo en la dirección correcta.

TPM:Última pregunta: si quisiera hacer refrigeración líquida directa en mis sistemas, ¿pueden hacerlo o no?

Ben Coughlin: Tenemos varios megavatios en funcionamiento hoy en día con servidores refrigerados por líquido directo que utilizan diferentes metodologías. Hay muchas maneras diferentes de despellejar a ese gato.

Hasta la fecha, lo que hemos visto es que los chasis del servidor en sí tienen refrigeración líquida, hacen funcionar sus propios intercambiadores de calor internamente y, por lo tanto, estamos entregando agua al chasis y luego la está manejando en el interior. Estamos viendo más interés en que sucedan cosas de placas frías, logrando que el agua se distribuya aún más en el sistema. Y es un poco como un salvaje oeste en este momento. Para ser honesto, en este momento, no ha habido una gran estandarización porque son los primeros días.

Lo importante es que tenemos el agua y las cañerías para poder distribuirla. Si viene a nuestro centro de datos y mira debajo del piso, tenemos tres o cuatro pies de tubería allí.

Pero esta es la parte más complicada de todo esto, que la gente no acaba de entender y creo que puede ser interesante para ti. Hay agua en todos los centros de datos. Las unidades de aire acondicionado son a base de agua. No se trata solo de obtener agua allí: debe filtrar el agua y agregar productos químicos y asegurarse de que el agua sea pura para que no haya corrosión. Pero lo más importante cuando distribuye el agua es que tiene que tomar muchas decisiones sobre qué tan grandes son sus tuberías, cuál es el caudal del agua, cuál es la temperatura del agua, y eso afecta directamente a los enfriados por líquido directo. plataformas

Y así, una vez que te metes en el meollo de la cuestión de la gestión del agua, hay muchas decisiones que tienes que tomar sobre esas variables. Y esto se remonta al comentario que hice sobre las normas. Si tiene uno de estos proveedores de CDU diciendo que quiere agua súper rápida en tuberías delgadas, material de alta presión a una temperatura realmente fría, eso requiere una configuración de infraestructura. Si alguien más está diciendo que me den un río perezoso de tubería grande, como un flujo lento a una temperatura más moderada, eso requiere algo más. Si tiene uno u otro, no es tan fácil para el centro de datos cambiar de enfoque.

Afortunadamente, nuestro sistema es del tipo de río perezoso de tubería más grande, y lo que hemos visto hasta ahora con la mayoría de las plataformas de enfriamiento ha consistido en entradas de agua de caudal más bajo.

Presentando aspectos destacados, análisis e historias de la semana directamente de nosotros a su bandeja de entrada sin nada en el medio. Suscríbase ahora

Ben Coughlin: Timothy Prickett Morgan: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: TPM: Ben Coughlin: