ChatGPT, AGI và khả năng hất cẳng con người
Trong tác phẩm nổi tiếng "Bản năng ngôn ngữ" (The Language Instinct), nhà tâm lý học Steven Pinker đã đề cập đến khả năng ngôn ngữ bẩm sinh của con người (innate capacity), một loại năng lực độc đáo hình thành từ quá trình tiến hóa nhằm giải quyết các vấn đề giao tiếp cụ thể trong cộng đồng săn bắt - hái lượm nguyên thủy. Khả năng ngôn ngữ của con người cũng giống như cách con nhện giăng tơ hay hải ly xây đập, đều là bản năng (instinct). Tiếp theo đó, ông đào sâu vào cách con người ra các quyết định lý trí (rational) và phi lý trí (irrational) trong tác phẩm nối tiếp "Cách trí não hoạt động" (How the mind works). Cụ thể, điều gì khiến chúng ta hạnh phúc, sợ hãi, kinh tởm, bị lôi cuốn bởi điều gì đó (một tác phẩm nghệ thuật chẳng hạn) hay rơi vào lưới tình. Ông phân tích cách thức chúng ta đón nhận những thứ khó hiểu (imponderables) như đạo đức (morality), tôn giáo (religion) và các tầng nhận thức (consciousness). Hai cuốn sách trên của Steven sẽ giúp chúng ta hiểu sâu sắc hơn về tâm trí hay não bộ con người, rất đáng đọc. Steven Pinker cũng có một số nhận định rất thú vị trên "The Harvard Gazette", trang tin chính thức của trường Harvard nơi ông giảng dạy, về ChatGPT. Cụ thể ông xoáy sâu vào những "hiểm họa" cùng "lợi ích" to lớn mà công nghệ AI này đem đến cho nhân loại (liệu AI có thể bắt kịp bản năng ngôn ngữ của con người để hiểu về thế giới). Mình tổng hợp góc nhìn của ông dưới đây:
Theo Steven Pinker, ChatGPT thực sự đã rất ấn tượng với công chúng và còn có thể phát triển cao hơn nữa cho đến khi nó không còn cố bịa ra mọi thứ (making stuff up) và mắc ít lỗi hơn (less error-prone). Trong tháng 11 vừa qua, các học giả cũng như toàn thế giới đã rất kinh ngạc khi OpenAI cho ra mắt chatbot với tên gọi ChatGPT. Nó có khả năng trả lời các câu hỏi gần như ngay tức thì (mà thực ra là kết hợp các hình thức viết lách của nhiều loại hình - genres - khác nhau) trong nhiều lĩnh vực theo cách thức (fashion) đầy tính hội thoại (consersational - kiểu con người) và có chút chuyên chế (obstensibly authoritative). Tất cả là nhờ quá trình tối ưu hóa một hình thức AI (trí tuệ nhân tạo) có tên gọi mô hình ngôn ngữ lớn (LLM - large language model). ChatGPT có khả năng tiếp tục học hỏi và cải tiến các phản hồi của nó. Tuy nhiên, câu hỏi cần đặt ra là: liệu nó có thể tốt hơn được bao nhiêu? Pinker đã dành nhiều năm đào sâu vào kết nối giữa tâm trí, ngôn ngữ và khả năng tư duy trong cuốn sách bán chạy "Bản năng ngôn ngữ", ông có câu trả lời riêng cho băn khoăn: liệu loài người có nên lo lắng liệu ChatGPT có khả năng thay thế con người hay không, cụ thể là các nhà văn (writer) hay các triết gia (thinker). ChatGPT đã gây chú ý theo diện rộng, phủ cảm giác tiêu cực lên công chúng. Điều này cho thấy trực giác của chúng ta đã thất bại như thế nào khi cố gắng hình dung về cách thức hoạt động của các khuôn mẫu thống kê (statistical patterns) khi chìm ngập trong hàng nghìn tỷ câu từ (words of text) và hàng trăm tỷ tham số (100 billion parameters). Như phần lớn nhiều người, Steven không bao giờ tin lại có một hệ thống có thể viết diễn văn Gettysburg theo phong cách của Donald Trump (diễn từ nổi tiếng nhất của Tổng thống Hoa Kỳ Abraham Lincoln). Con người hầu như không thể xử lý khuôn mẫu của khuôn mẫu của khuôn mẫu của khuôn mẫu dữ liệu hay tầng tầng lớp lớp dữ liệu. Thật kinh ngạc khi ChatGPT có thể tạo ra đoạn văn tin cậy (plausible prose), hợp lý và có cấu trúc tốt, mà không hiểu biết thực sự về thế giới này - cụ thể nó không có các mục tiêu công khai như người (overt goals), các sự kiện đại diện rõ ràng (represented facts), hay những thứ mà chúng ta nghĩ rằng cần thiết để có thể tạo ra các tuyên bố ẩn chứa cái gọi là "sự thông minh" trong đó (intelligent-sounding prose).
Năng lực trên lại càng khiến cho các lỗi nghiêm trọng (blunders) của nó thêm phần nổi bật. ChatGPT đã rất tự tin vào những câu chuyện bịa (confabulations) như kiểu nước Mỹ có 4 nữ Tổng thống, bao gồm cả Luci Baines Johnson (nắm quyền từ 1973-77, thực ra là cô con út của ngài Lyndon B. Johnson). Nó cũng đồng thời mắc những lỗi sơ đẳng khác. Trong suốt 25 năm qua, trong các khóa học tâm lý của mình, Steven chỉ cho sinh viên thấy các mô hình trí tuệ nhân tạo tốt nhất không thể bắt chước những cảm giác về "lẽ thường" đơn giản nhất (common sense). Sự xuất hiện của ChatGPT đã khiến ông băn khoăn liệu bài giảng của mình có trở nên lỗi thời (obsolete). Tuy nhiên, Steven cũng chả cần phải lo lắng. Khi hỏi ChatGPT: "nếu Mabel còn sống lúc 9am và 5pm, thì liệu cô ta có còn sống lúc trưa". Mô hình này đã trả lời: "không thể xác định liệu Mabel có còn sống lúc trưa hay không. Cô ta được biết là còn sống lúc 9 và 5 giờ, nhưng không có thông tin nào chứng tỏ cô ta còn sống lúc trưa." Câu trả lời này cho thấy ChatGPT không thể hiểu những thông tin/sự kiện cơ bản (basic facts) của thế giới này - kiểu như con người sống trong khoản thời gian kéo dài liên tục (continuous stretches of time), và một khi chúng ta đã chết thì sẽ duy trì sự chết như vậy mãi mãi (hoặc có thể nó tin vào thuyết luân hồi) - có lẽ nó vẫn chưa chạm hay dò đến những đoạn văn bản (trong cơ sở dữ liệu hay internet) giúp hiểu điều cơ bản trên một cách rõ rệt (như việc Steven biết con cá vàng thì không thể mặc quần sịp).
Chúng ta đang đối phó với một trí tuệ xa lạ (alien intelligence) có khả năng làm được những điều kỳ tích, nhưng không phải theo cách của trí não con người (human mind). Con người không cần phải tiếp cận với nửa nghìn tỷ câu chữ của các văn bản (cụ thể cứ ba từ một giây, 8 tiếng một ngày thì sẽ mất đến 15000 năm để xử lý) để có thể nói năng hay giải quyết vấn đề. Cho dù thế nào đi chăng nữa, thật đáng kinh ngạc khi con người có khả năng nhìn ra rất nhiều khuôn mẫu thống kê có trật tự cao (high-order) trong một tập hợp dữ liệu khổng lồ.Việc OpenAI tuyên bố mục tiêu tạo ra "trí tuệ nhân tạo tổng quan" (artificial general intelligence - AGI - một cỗ máy có khả năng hiểu thế giới cũng như bất kỳ con người nào và có cùng khả năng học cách thực hiện một loạt các nhiệm vụ) nghe thật bất khả thi, ý tưởng "cái máy tổng quan" (general machine) nghe đã thấy lẩm cẩm. Chúng ta có thể hình dung về nhiều loại siêu năng lực khác nhau, như khả năng bay của Siêu Nhân, cơ thể bất khả xâm phạm và ánh mắt xuyên thấu (X-ray), nhưng không có nghĩa là điều này có khả năng hiện thực hóa được. Tương tự, chúng ta có thể hình dung về siêu trí tuệ nào đó có thể tìm cách khiến con người bất tử hay đem đến hòa bình cho thế giới hay xâm chiếm vũ trụ. Nhưng trí tuệ thực sự phải bao gồm một tập hợp các thuật toán nhằm giải quyết vấn đề cụ thể nào đó của các thế giới. Những gì chúng ta đang có bây giờ, và có lẽ luôn luôn có, chính là các thiết bị có thể qua mặt con người trong một số thách thức và không thể trong những thứ khác.
Cũng không cần lo lắng khi ChatGPT được sử dụng trong trường học. Điều này cũng không khác mấy với việc tải xuống các tài liệu từ internet. Các trường đại học đã yêu cầu các giáo sư nhắc nhở sinh viên rằng "tuyên bố danh dự" (honor pledge - cam kết không sử dụng hoặc nhận bất cứ sự trợ giúp nào không hợp lệ để hoàn thành luận án/dự án hay bài viết) là cực kỳ quan trọng, đừng nhận thành quả mà bạn không tự tạo ra. Tất nhiên, Steven không ngây thơ, ông biết một số sinh viên Harvard trông có vẻ lừa dối nhưng cho rằng thực sự không quá nhiều. Ít nhất cho đến lúc này, ChatGPT quá dễ để bị bóc mẽ bởi nó chỉ có khả năng pha trộn các trích dẫn và tham khảo mà chưa từng tồn tại. Nỗi sợ về các công nghệ mới luôn được lèo lái bởi các viễn cảnh tồi tệ có thể xảy ra, mà không đếm xỉa đến các giải pháp phòng vệ hay chống đối trỗi dậy trong thế giới thực (countermeasures). Đối với các mô hình ngôn ngữ lớn (LLMs), tiến trình này bao gồm những nghi hoặc liệu con người sẽ sử dụng nó để tạo ra các nội dung tự động (các nhà báo đã dừng sử dụng mánh lới GPT để viết bài về GPT bởi người đọc bắt đầu phàn nàn), sự phát triển của các làn ranh bảo vệ "đạo đức" cùng "sự chuyên nghiệp" (guardrails) - ví dụ như tuyên bố danh dự Harvard (honor pledge - thề không ăn cắp chất xám kể cả từ ChatGPT), và có lẽ những công nghệ mới có khả năng phát hiện hay in chữ chìm lên các nội dung tạo bởi LLM.
Cũng có những lực chống cự khác. Một trong số đó là chúng ta luôn có trực giác rất sâu sắc về kết nối "nhân quả" (causal connections) với con người. Một nhà sưu tập có thể trả $100k cho câu lạc bộ golf của John F. Kennedy mặc dù nó không có gì khác biệt so với các câu lạc bộ khác trong cùng kỷ nguyên. Nhu cầu về tính "chân thực" (authenticity) của các sản phẩm trí tuệ như các câu chuyện và bài bình luận ngày càng cao hơn: nhận thức rằng có những con người thực sự (real human) mà chúng ta có thể kết nối trong đó sẽ giúp nâng tầm câu chuyện và khả năng chấp nhận của nó với công chúng. Các lỗi nghiêm trọng như tát vào mặt (forehead-slapping) của mô hình AI cũng gây ra sự chống đối từ công chúng, kiểu như thông tin kính vỡ (crushed glass) đang dần phổ biến như một loại thực phẩm bổ sung hay chín người nữ có khả năng tạo ra em bé trong một tháng. Khi mà hệ thống được cải thiện từ các phản hồi của người dùng (thường đến từ những cú nhấp chuột lấy từ các quốc gia nghèo do tọc mạch hay tò mò), những sai sót ngớ ngẩn kiểu như vậy sẽ ít đi, nhưng cũng tạo ra không giới hạn các khả năng (possibilities) sai sót tinh tế hơn. Vấn đề cực kỳ nghiêm trọng là nội dung tạo bởi ChatGPT không thể kiểm tra trích dẫn, chúng ta gần như không có bất cứ giấy tờ truy vết nào (paper trail). Đối với nội dung viết bởi người cầm bút bình thường, bạn có thể hỏi chuyên gia nào đó và truy vết các tài liệu tham khảo. Tuy nhiên, trong LLM, "các thông tin" (fact) được kinh qua hàng tỷ các điều chỉnh nho nhỏ (tiny adjustments) và các biến số định lượng (quantitative variables), gần như không thể truy vết và xác thực nguồn.
Dù thế nào đi chăng nữa, có nhiều khuôn mẫu viết lách (boilerplate) tạo dễ dàng bởi LLM trông như người viết thực sự. Đây có thể là một điều tốt vì từ giờ chúng ta sẽ không còn phải trả phí theo giờ đắt đỏ cho luật sư để thảo các thỏa thuận thừa kế hay ly dị, hãy dành việc đó cho LLM. Một ví dụ khác là ChatGPT có thể được sử dụng như một cỗ máy tìm kiếm linh hoạt và có tính ngữ nghĩa hơn (semantic). Khác với cách thức của các công cụ tìm kiếm hiện tại, chủ yếu dò theo các chuỗi ký tự được nhập vào trong khung tìm kiếm. Hiện tại, nếu có một ý tưởng (chứ không một chuỗi ký tự) thì dường như chưa có cách nào thực sự tốt để khai phá/ tìm kiếm nó hiệu quả. Tuy nhiên, bộ máy tìm kiếm có tính ngữ nghĩa (semantic) có thể giúp khai phá ý tưởng rất tốt. Không giống như LLM, nó có một mô hình "khái niệm" của thế giới (conceptual model of the world). Trong đó, nó chứa đựng các biểu tượng về con người (symbols), nơi chốn, vật thể và các sự kiện, đại diện của các mục tiêu (representations of goals), quan hệ nhân quả (casual relations), một thứ gì đó gần với các trí não con người hoạt động. Nhưng nên nhớ, nó chỉ là một công cụ, như cỗ máy tìm kiếm, nơi bạn chỉ muốn những thông tin hữu dụng xuất hiện, LLM có thể rất hữu dụng, miễn là nó ngừng bịa ra mọi thứ.
Tất nhiên, ChatGPT hay LLM sẽ có những ảnh hưởng to lớn đến cách con người học tập, đón nhận tri thức và theo đuổi hành trình trở thành chuyên gia. Dù vậy, Steven Pinker tin nó khó có thể cải tiến như vũ bão. Rõ ràng, tương tự như việc sử dụng máy tính để bổ trợ cho trí tuệ con người trong quá khứ, quay trở lại giai đoạn tiến bộ về tính toán và lưu trữ số liệu trong thập niên 60, công nghệ tìm kiếm của những năm 90 và các bước tiến khác. Các giới hạn của con người đã được đẩy tăng lên. Nó khiến chúng ta phải chân nhận ra trí nhớ hay khả năng tính toán hạn chế của mình hay chân nhận ra khả năng lục lại hay tiêu hóa một lượng lớn thông tin của chúng ta đã tốt rồi nhưng những bộ não nhân tạo có thể làm tốt hơn nhiều. LLM hoạt động rất khác não bộ chúng ta nên sẽ giúp con người hiểu sâu sắc hơn về bản chất của trí tuệ. Nó sẽ khiến chúng ta đề cao năng lực hiểu biết của con người khi so sánh với những hệ thống nhân tạo đang cố gắng mô phỏng trí não. Trong đó, có những thứ làm tốt hơn, có những thứ lại không thể bắt kịp. Cách đóng khung kiểu "con người không thể bị thay thế bởi AGI, chúng ta vẫn là giống loài thống trị" là sai. Không có kiểu phát triển trí tuệ một chiều nào có thể vượt qua tất cả các bộ óc trên hành tinh (conceivable minds). Chúng ta sử dụng IQ để đo lường khác biệt giữa người với người, nhưng nó không thể phát triển đi lên theo kiểu trở thành cái gì đó có thể ra quyết định đúng đắn hay khôn ngoan về mọi thứ (an everything-deducer), bởi kiến thức hay hiểu biết về thực tiễn dựa trên kinh nghiệm (empirical reality) bị giới hạn bởi những gì nó có thể quan sát. Không có cái gọi là thuật toán tuyệt vời chứa đựng mọi kiến thức (omniscient) và quyền lực vô hạn (omnipotent) trong đó tổng hợp hết nhiều loại hình trí tuệ, mục tiêu và các thế giới.