Sam Altman, ChatGPT và cuộc đua của các phòng lab AI
Mình thường xuyên theo dõi Blog của Sam Altman, cựu chủ tịch của vườn ươm nổi tiếng Y Combinator (YC). Tổ chức này do huyền thoại Paul Graham sáng lập, vừa đối trọng vừa hợp tác trong việc thu hút nhân tài hay công ty khởi nghiệp trẻ với Thiel Fellowship của nhóm Mafia Paypal, do Peter Thiel dẫn dắt. Sam khởi sự OpenAI cùng với nhân vật nổi tiếng khác trong giới công nghệ là Elon Musk (trùng hợp thay dòng vốn đầu tiên rót vào cũng từ Peter Thiel). Mạng lưới Stanford đã kiến tạo nên những kết nối đầu tư hay hợp tác công nghệ cần thiết. YC đã cho ra lò hơn 3000 công ty, trong đó có những cái tên nổi tiếng như Airbnb, Coinbase, Cruise, DoorDash, Dropbox, Instacart, Quora, PagerDuty, Reddit, Stripe and Twitch. Ngôi nhà của Atman là nơi tụ tập của nhóm chuyên gia có cái tên là Covenant (đặt theo kinh điển Do Thái - lời hứa mà Chúa cam kết với Abraham), một tập hợp các lãnh đạo hay chuyên gia trong những ngành quan trọng như AI, robot, điều khiển học (cybernetics), máy tính lượng tử quantum computing), AI và sinh học tổng hợp (synthetic biology), nghiên cứu gen (genomics), du hành vũ trụ (space travel) cùng các triết gia. Họ thường xuyên trao đổi về tiến bộ công nghệ, mối liên hệ với đạo đức của con người cùng viễn cảnh tương lai nơi AI và một phiên bản con người nâng cao (enhanced homo sapiens) cạnh tranh hay thay thế lẫn nhau. Quan điểm của Altman khi dẫn dắt YC rất gắt gao: "một phần năm các công ty trong danh mục đầu tư của YC thất bại, rủi ro thế này còn thấp, chúng ta cần chấp nhận mức độ rủi ro điên rồ hơn, đến 90%. Đối với tối ưu lợi nhuận, phải khiến cho những công ty tốt nhất (trong mỗi đợi đầu tư - batch) hút hết tiền mọi nơi về." Altman (một người Do Thái đồng tính thích ăn chay) cũng thừa nhận: "não tôi có một sợi dây bị đứt, đó là sợi dây khiến tôi quan tâm đến suy nghĩ của người khác, trong một số trường hợp đó lại là món quà của tạo hóa đối với tôi. Ai cũng muốn được chấp nhận, họ không dám đón nhận rủi ro có thể khiến mình trông điên rồ, nhưng thực ra sợi dây não đó lại khiến họ tính toán sai mức độ rủi ro thực sự trên đường dài."
ChatGPT, cái tên đang rầm rồ hiện nay trên khắp thế giới (và cả Việt Nam), là sản phẩm của OpenAI. Tổ chức này hình thành trước tiên dưới hình thức phi lợi nhuận, sau đó đã gây kinh ngạc cho các game thủ hàng đầu khi đánh bại họ trong trò chơi DotA 2 trực tuyến. Các sản phẩm sơ khởi của OpenAI như Gym và Universe rất lượt ra đời năm 2016, đã góp phần khiến Elon Musk và một số chuyên gia như Stephen Hawking bắt đầu cảnh báo về mức độ nguy hiểm của AI cho loài người. Sau khi Satya Nadella của Microsoft bắt đầu nhảy vào OpenAI với khoản đầu tư 1 tỷ $, tổ chức này bắt đầu chuyển hướng phát triển, một số giải pháp mới ra đời như DALL-E (công cụ cho phép người dùng tạo tác phẩm nghệ thuật từ các chuỗi văn bản), rồi đến GPT-3, mô hình AI có khả năng tạo văn bản giống con người và có nhiều ứng dụng, bao gồm dịch ngôn ngữ, mô hình hóa ngôn ngữ và tạo văn bản. ChatGPT là ứng dụng chatbot xây trên nền GPT-3. Bài viết dưới đây của The Economist sẽ cho chúng ta bức tranh lớn hơn về cuộc chiến ngầm phía sau giữa Big Tech ở Mỹ (các công ty công nghệ lớn), các nhà đầu tư đang rót vốn vào các công ty khởi nghiệp tiên phong trong mảng mới mẻ này, và chính quyền Trung Quốc. Dường như, ChatGPT do OpenAI (cùng Sam Altman) tạo ra đang có ưu thế một chút, nhưng đang bị so kè căng thẳng với các nền tảng khác. Bài cũng có đề cập đến dịch chuyển dòng chảy công nghệ mà Peter Thiel cảnh báo, từ tập trung vào khoa học cơ bản (R - nghiên cứu) đến việc chạy theo các địa hạt xu thời (D - chạy theo xu hướng hay đang có đà phát triển).
Các công nghệ mới thường kích thích trí tưởng tượng của thế giới. Ví dụ gần đây nhất chính là Chat GPT, nền tảng đang được bàn tán xôn xao tại thung lũng Silicon, phố Wall, các văn phòng tập đoàn, báo chí và trong các lớp học. Chỉ trong vòng 5 ngày sau khi được phát hành, nền tảng tạo bởi công ty khởi nghiệp có cái tên OpenAI đã thu hút hơn một triệu người dùng, một trong những sản phẩm được phát hành nhanh nhất trong lịch sử. (chỉ sau 40 ngày ra mắt, siêu AI này đã đạt 10 triệu người dùng mỗi ngày, con số mà Instagram đã mất đến 355 ngày mới đạt được). Micorsoft, tổ chức đã rót vào OpenAI 10 tỷ $, mong muốn có được sức mạnh của ChatGPT, bao gồm việc tạo ra câu chữ, hình ảnh, âm nhạc, và video mà trông có vẻ như được tạo ra bởi con người, để nhúng (infuse) vào các phần mềm mà họ bán. Vào ngày 26/01, Google đã công bố các văn bản mô tả một mô hình tương tự cho phép tạo ra nhạc từ đoạn lời của bài hát. Cùng lúc đó Alphabet, công ty mẹ, khi trình bày về lợi nhuận hàng quý vào ngày 02/02, phải mô tả cách tiếp cận ChatGPT của mình tới các nhà đầu tư. Vào ngày 29/01, Bloomberg đưa tin Baidu, gã tìm kiếm khổng lồ của Trung Quốc, cũng mong muốn tích hợp chatbot vào công cụ tìm kiếm của mình trong tháng ba.
Còn quá sớm để nhận định mức độ phóng đại (hype) của công nghệ này. Cho dù những công nghệ trên nền AI tạo sinh (generative AI) như ChatGPT cùng những đối thủ tương tự có thể chuyển hóa kinh doanh, văn hóa và xã hội ra sao, thì trước hết nó đã tác động đến suy tư của địa hạt công nghệ trong việc sáng tạo (innovation). Các cỗ máy (engines) của ngành này như OpenAI và Google Research đang kết hợp sức mạnh xử lý của Big Tech với sức mạnh trí não của những người sáng dạ nhất trong ngành khoa học máy tính. Những phòng thí nghiệm (labs) này, thuộc về Big Tech (các công ty công nghệ lớn), kết hợp với công ty mẹ hay chạy bởi các công ty khởi nghiệp độc lập (independent startups) - đang cùng nhau dự phần vào cuộc đua kỳ vĩ hướng đến thế giới thống trị bởi AI (AI supremacy). Kết quả của cuộc đua này sẽ quyết định tốc độ của kỷ nguyên AI chảy vào mỗi máy tính ở khắp nơi và ai là kẻ thống trị.
Bộ phận nghiên cứu và phát triển (R&D) của các tập đoàn từng là nguồn gốc của các cải tiến khoa học, đặc biệt ở Hoa Kỳ. Cách đây một thế kỷ rưỡi, Thomas Edison đã dùng những gì gặt hái được từ các phát minh của mình, bao gồm điện tín (telegraph) và bóng đèn dây tóc (lightbulb), để rót vốn vào các chương trình tập huấn (workshop) ở Menlo Park, New Jersey. Sau thế chiến hai, Tập đoàn Hoa Kỳ (American Inc) đã đầu tư mạnh mẽ vào khoa học cơ bản với hy vọng nó có thể tạo ra những sản phẩm thực tiễn. DuPont (nhà sản xuất hóa chất), IBM và Xerox (sản xuất phần cứng) đều có những phòng lab trong công ty. Phòng thí nghiệm Bell của AT&T đã cho ra đời transistor, laser và các tế bào quang điện (photovoltaic cell) cùng nhiều phát kiến khác, đưa về cho các nhà nghiên cứu tại đó 9 giải Nobel.
Vào cuối thế kỷ 20, bộ phận R&D của các tập đoàn đã ít hướng đến chữ R (nghiên cứu) hơn chữ D (phát triển). Vào năm 2017, Ashish Arora, một nhà kinh tế, và các đồng nghiệp của mình đã nghiên cứu chuyển dịch "khoa học" giai đoạn 1980 tới 2006. Họ phát hiện ra các công ty đã dịch chuyển từ khoa học cơ bản đến các ý tưởng đang tồn tại và phát triển (chạy theo xu hướng). Theo Arora và các đồng tác giả khác, lý do nằm ở việc chi phí gia tăng trong nghiên cứu và độ khó khăn của việc gặt hái thành quả (capturing its fruits) đã tăng lên. Xerox tạo ra các biểu tượng (icons) và cửa sổ (windows) quen thuộc trên máy tính cá nhân nhưng các công ty kiếm nhiều tiền nhất từ chúng lại là Apple và Microsoft. Khoa học cũng quan trọng không kém sáng tạo, nhưng nó lại bị xếp vào địa hạt không sinh ra lợi nhuận nhiều trong trường học.
Sự trỗi dậy của AI đã khấy động mọi thứ trở lại. Các tập đoàn lớn không phải là người chơi duy nhất trong địa hạt này. Các công ty khởi nghiệp như Anthropic và Character AI đã xây dựng nên các đối thủ của ChatGPT. Stability AI là công ty khởi nghiệp đã tập hợp nhóm các công ty mã nguồn mở (consortium) nhỏ, các trường đại học và tổ chức phi lợi nhuận để chia sẽ nguồn lực tính toán (computing resources), từ đó tạo ra mô hình thông dụng giúp chuyển hóa chữ thành hình ảnh. Ở Trung Quốc, tổ chức BAAI (Học viện Bắc Kinh về Trí Tuệ Nhân Tạo) do chính quyền chống lưng đang ngày càng vươn lên.
Nhưng hầu hết các phát kiến hay ho gần đây đều đến từ các công ty lớn, phần nhiều đến từ sức mạnh tính toán có sẵn (computing power). Amazon, tổ chức sở hữu trợ lý giọng nói Alexa (dùng sức mạnh AI) và Meta, công ty làm dậy sóng công chúng gần đây khi một trong các mô hình của họ đã đánh bại người chơi trò chơi chiến thuật Diplomacy (với Cicero), đã lần lượt tạo ra gần 2/4 và 4/5 các nghiên cứu AI khi so với trường Stanford, đơn vị đầu tàu của khoa học máy tính. Alphabet và Microsoft thậm chí còn đóng góp nhiều hơn, đó là chưa tính DeepMind, phòng lab chị em của Google Research mà công ty mẹ thâu tóm năm 2014, và OpenAI của Microsoft.
Các chuyên gia đang tranh cãi xem ai đang dẫn đầu cuộc đua này. Các phòng lab của Trung Quốc có vẻ như đang dẫn đầu trong một số nhánh con của "tầm nhìn máy tính" (Computer Vision), liên quan đến phân tích hình ảnh, nhóm này đang chiếm phần lớn nhất các trích dẫn nghiên cứu trong ngành. Theo xếp hạng của Microsoft, 5 công ty đứng đầu trong mảng CV đều là của Trung Quốc. BAAI cũng xây dựng mô hình ngôn ngữ tự nhiên (natural-language model) lớn nhất trên thế giới có tên gọi Wu Dao 2.0. Người chơi "Diplomacy" của Meta với tên gọi Cicero, được ngưỡng mộ bởi khả năng lý luận chiến thuật (strategic reasoning) và mưu mẹo (deception) để chống lại đối thủ người thật. Mô hình của DeepMind cũng đã đánh bại con người ở trò chơi cờ vây Go, một trò chơi trên bàn cờ siêu khó, cũng như có thể tiên đoán được hình dạng của protein, một thách thức lâu dài trước đó trong địa hạt khoa học đời sống (life sciences).
Đó là những bước tiến đáng kinh ngạc. Tuy nhiên, khi nhắc đến "tạo sinh" (generative), phải gửi lời cảm ơn đến ChatGPT, cuộc chiến lớn nhất hiện nay đang diễn ra giữa Microsoft và Alphabet. Để hiểu rõ hơn công nghệ của tổ chức nào đang vượt trội hơn, The Economist đã dõi theo sự phô diễn khả năng AI của cả hai (paces). Với sự giúp đỡ của các kĩ sư tại Google, chúng tôi đã hỏi cả mô hình của OpenAI là GPT-3.5 và chat-bot chưa được ra mắt của Google, thứ được xây dựng dựa trên LAMDA, một loạt các câu hỏi. Trong đó bao gồm 10 vấn đề từ cuộc thi toán của Mỹ (tìm cặp số nguyên tố có tổng à 60 - đáp án là 29 và 31) cùng 10 câu liên quan đến đọc các bài luận của SAT, kì thi đầu vào các trường ở Hoa Kỳ (đọc đoạn văn và quyết định xem câu nào dưới đây mô tả chính xác nội dung đoạn văn). Để làm mọi thứ thêm thi vị, chúng tôi cũng hỏi các mô hình một số bí kiếp hẹn hò (dựa trên các cuộc hội thoại trong ứng dụng hẹn hò, làm thế nào để hẹn đối phương đi chơi với mình?).
Không có AI của ai vượt trội hơn. Google có vẻ nhỉnh hơn về toán, trả lời 5 câu hỏi đúng hoàn toàn, so với 3 của ChatGPT. Các lời khuyên hẹn hò của hai mô hình cũng không giống nhau: khi đưa đầu vào là các trao đổi trên ứng dụng hẹn hò, mỗi mô hình đưa ra gợi ý khác nhau cho cùng một tình huống đồng thời mặt khác cũng tạo ra những cụm từ vô vị như "hãy cởi mở" (open-minded) và "giao tiếp hiệu quả". Tuy nhiên, ChatGPT lại trả lời 9 câu hỏi SAT chính xác so với 7 của đối thủ Google. Nền tảng này dường như cũng phản hồi nhanh hơn (responsive) và trả lời chính xác một vài câu hỏi ở lần thử thứ hai. Một bài kiểm tra khác của Riley Goodside thuộc Scale AI, một công ty khởi nghiệp AI, cho rằng chatbot của Anthropic, Claude, hoạt động tốt hơn ChatGPT trong các cuộc hội thoại thực tế, mặc dù yếu hơn trong việc tạo ra mã máy tính (computer code).
Cho đến hiện nay, không có mô hình nào có thể chiếm được lợi thế vững chãi nhờ sự lan tỏa nhanh của kiến thức AI. Các nhà nghiên cứu từ các phòng lab đang cạnh tranh nhau thường xuyên gặp gỡ trao đổi kinh nghiệm. David Ha, đến từ Stability AI, người từng làm việc tại Google, đã di chuyển qua lại giữa các tổ chức, đem theo các kinh nghiệm và chuyên môn. Hơn nữa, những bộ óc giỏi nhất của AI thường thuần túy là các nhà khoa học, họ thỉnh thoảng cũng rời khỏi thế giới của mình để đi đến khu vực tư nhân thường để giới thiệu các nghiên cứu và chỉ ra các kết quả đạt được tại hội nghị. Đó là lý do tại sao Google đã trao cho công chúng những tiến bộ lớn mà họ đạt được, bao gồm "transformer" (chuyển đổi), khối quan trọng trong mô hình AI (chữ 'T" trong ChatGPT là viết tắt của transformer). Yann LeCun, nhân vật AI chủ chốt của Meta đã nhận xét về ngành: "không có ai dẫn trước ai trên 2 tới 6 tháng (by more than two to six months)."
Mặc dù còn trong giai đoạn sơ khai (early days). Các phòng thí nghiệm (labs) có thể không còn so kè ngang nhau nữa (remain neck and neck). Biến số có thể quyết định kết cục cuối cùng của cuộc cạnh tranh này nằm ở cách nó được tổ chức. Open AI, một công ty khởi nghiệp nhỏ, với một vài dòng doanh thu cần được bảo vệ, có vẻ như sẽ tìm được lợi thế cao hơn các đối thủ khi phát hành sản phẩm ra công chúng. Do đó, có khả năng tạo ra hàng tấn dữ liệu người dùng khiến cho mô hình lại càng trở nên tốt hơn ("khả năng học được tăng cường với phản hồi từ con người), rồi từ đó lại thu hút thêm người dùng.
Lợi thế của người đi đầu có thể được tăng cường theo cách khác. Những người trong cuộc cũng tiết lộ tốc độ phát triển nhanh của OpenAI đã cho phép tổ chức này dành giựt lấy các chuyên gia từ đối thủ trong đó có DeepMind, tổ chức này đã đạt được nhiều thành tựu khác nhưng vẫn muốn ra mắt phiên bản chatbot của riêng mình, có tên gọi Sparrow, sẽ ra mắt cuối năm nay. Để đuổi kịp, Alphabet, Amazon và Meta có thể cũng cần tái khám phá năng lực thích ứng nhanh và phá bỏ các rào cản trước kia của mình - kiểu như xé rào các hạn chế hay quy định mà chính quyền khắp thế giới tạo ra ngăn cản sự phát triển vô tổ chức của công nghệ.
Một nhân tố quyết định khác là đường hướng phát triển của công nghệ. Hiện tại trong ngành AI tạo sinh (generative AI), quy mô lớn hơn có nghĩa là tốt hơn. Điều này đã khiến cho các gã khổng lồ công nghệ có được lợi thế lớn. Nhưng kích cỡ không phải là tất cả trong tương lai. Trước tiên, sẽ có một số giới hạn quanh mức độ to lớn mà mô hình có thể đảm đương. Epoch, một viện nghiên cứu phi lợi nhuận, đã ước lượng với tốc độ hiện tại, các mô hình ngôn ngữ lớn sẽ cạn kiệt các nguồn chữ viết (text) với nội dung chất lượng cao trên internet vào năm 2026 (mặc dù các dạng thức ít cần nguồn đầu vào hơn, như video, có thể duy trì mức độ dồi dào trong một thời gian dài hơn). Quan trọng hơn cả, như quý ngài Ha của Stability AI đã chỉ ra, luôn có cách để điều chỉnh hợp lý (fine-tune) một mô hình hướng đến công việc cụ thể nào đó, khiến nó giảm đáng kể nhu cầu mở rộng (reduce the need to scale up) hay thêm nguồn tham chiếu. Một phương pháp lý tưởng (novel) để đạt được kết quả với ít nỗ lực hơn đang được nỗ lực phát triển liên tục.
Dòng vốn chảy vào các công ty công nghệ AI "tạo sinh", trong năm ngoái chạm đến mức 2,7 tỷ đô với tổng cộng 110 thương vụ, đã cho thấy các nhà đầu tư mạo hiểm (VC) không xem mọi giá trị đều thuộc về Big Tech. Alphabet, Microsoft cùng những gã khổng lồ công nghệ khác và CPP (đảng cộng sản trung quốc) sẽ làm tất cả để chứng minh nhóm kia đã sai. Cuộc đua AI chỉ mới bắt đầu.