trong cuộc đời chúng ta, lớn hơn nhiều so với sự chuyển đổi sang thiết bị di động hoặc web trước đó. AI có tiềm năng tạo ra cơ hội — từ những điều thường ngày đến những điều phi thường — cho mọi người ở khắp mọi nơi. Nó sẽ mang đến những làn sóng đổi mới và tiến bộ kinh tế mới, đồng thời thúc đẩy kiến thức, học tập, sáng tạo và năng suất ở quy mô mà chúng ta chưa từng thấy trước đây.
Đó là điều khiến tôi phấn khích: cơ hội giúp AI trở nên hữu ích cho mọi người, ở mọi nơi trên thế giới.
Gần tám năm trong hành trình trở thành công ty ưu tiên AI của chúng tôi, tốc độ tiến bộ ngày càng tăng nhanh: Hàng triệu người hiện đang sử dụng AI tổng quát trên các sản phẩm của chúng tôi để làm những việc mà họ thậm chí không thể làm cách đây một năm, từ tìm câu trả lời cho đến những việc phức tạp hơn. câu hỏi về cách sử dụng các công cụ mới để cộng tác và sáng tạo. Đồng thời, các nhà phát triển đang sử dụng các mô hình và cơ sở hạ tầng của chúng tôi để xây dựng các ứng dụng AI tổng quát mới, đồng thời các công ty khởi nghiệp và doanh nghiệp trên khắp thế giới đang phát triển nhờ các công cụ AI của chúng tôi.
Đây là động lực đáng kinh ngạc, tuy nhiên, chúng tôi chỉ mới bắt đầu khám phá những gì có thể thực hiện được.
Chúng tôi đang tiếp cận công việc này một cách táo bạo và có trách nhiệm. Điều đó có nghĩa là chúng tôi phải có tham vọng trong nghiên cứu và theo đuổi những khả năng sẽ mang lại lợi ích to lớn cho con người và xã hội, đồng thời xây dựng các biện pháp bảo vệ và hợp tác với các chính phủ cũng như chuyên gia để giải quyết rủi ro khi AI trở nên có năng lực hơn. Và chúng tôi tiếp tục đầu tư vào các công cụ, mô hình nền tảng và cơ sở hạ tầng tốt nhất, đồng thời đưa chúng vào các sản phẩm của chúng tôi và các sản phẩm khác, được hướng dẫn bởi Nguyên tắc AI của chúng tôi.
Giờ đây, chúng tôi đang thực hiện bước tiếp theo trên hành trình với Gemini, mô hình chung và có năng lực nhất của chúng tôi, với hiệu suất vượt trội trên nhiều tiêu chuẩn hàng đầu. Phiên bản đầu tiên của chúng tôi, Gemini 1.0, được tối ưu hóa cho các kích cỡ khác nhau: Ultra, Pro và Nano. Đây là những mô hình đầu tiên của kỷ nguyên Song Tử và là sự hiện thực hóa đầu tiên về tầm nhìn mà chúng tôi có khi thành lập Google DeepMind vào đầu năm nay. Kỷ nguyên mới của các mô hình này thể hiện một trong những nỗ lực khoa học và kỹ thuật lớn nhất mà chúng tôi đã thực hiện với tư cách là một công ty. Tôi thực sự vui mừng vì những gì phía trước và những cơ hội mà Song Tử sẽ mở ra cho mọi người ở khắp mọi nơi.
– Chủ nhật
Giới thiệu Song Tử
Bởi Demis Hassabis, Giám đốc điều hành và Đồng sáng lập của Google DeepMind, thay mặt cho nhóm Gemini
AI là trọng tâm trong công việc cả đời của tôi cũng như đối với nhiều đồng nghiệp nghiên cứu của tôi. Kể từ khi lập trình AI cho trò chơi máy tính khi còn là thiếu niên và trong suốt những năm làm nhà nghiên cứu khoa học thần kinh cố gắng tìm hiểu hoạt động của não, tôi luôn tin rằng nếu chúng ta có thể chế tạo những cỗ máy thông minh hơn, chúng ta có thể khai thác chúng để mang lại lợi ích đáng kinh ngạc cho nhân loại. cách.
Lời hứa về một thế giới được hỗ trợ bởi AI một cách có trách nhiệm tiếp tục thúc đẩy công việc của chúng tôi tại Google DeepMind. Từ lâu, chúng tôi đã muốn xây dựng một thế hệ mô hình AI mới, lấy cảm hứng từ cách mọi người hiểu và tương tác với thế giới. AI có cảm giác không giống một phần mềm thông minh mà giống thứ gì đó hữu ích và trực quan hơn - một trợ lý hoặc trợ lý chuyên gia.
Hôm nay, chúng tôi đã tiến một bước gần hơn tới tầm nhìn này khi giới thiệu Gemini, mô hình tổng quát và có năng lực nhất mà chúng tôi từng xây dựng.
Gemini là kết quả của những nỗ lực hợp tác quy mô lớn của các nhóm trên khắp Google, bao gồm cả các đồng nghiệp của chúng tôi tại Google Research. Nó được xây dựng từ đầu để trở thành đa phương thức, có nghĩa là nó có thể khái quát hóa và hiểu liền mạch, vận hành và kết hợp các loại thông tin khác nhau bao gồm văn bản, mã, âm thanh, hình ảnh và video.
Giới thiệu Gemini: mô hình AI lớn nhất và có khả năng nhất của chúng tôi
Gemini cũng là mô hình linh hoạt nhất của chúng tôi — có thể chạy hiệu quả trên mọi thứ từ trung tâm dữ liệu đến thiết bị di động. Khả năng tiên tiến của nó sẽ nâng cao đáng kể cách các nhà phát triển và khách hàng doanh nghiệp xây dựng và mở rộng quy mô bằng AI.
Chúng tôi đã tối ưu hóa Gemini 1.0, phiên bản đầu tiên của chúng tôi, cho ba kích cỡ khác nhau:
Gemini Ultra — mô hình lớn nhất và có khả năng nhất của chúng tôi cho các nhiệm vụ có độ phức tạp cao.
Gemini Pro — mô hình tốt nhất của chúng tôi để mở rộng quy mô trên nhiều nhiệm vụ.
Gemini Nano — mô hình hiệu quả nhất của chúng tôi dành cho các tác vụ trên thiết bị.
Hiệu suất tiên tiến
Chúng tôi đã kiểm tra nghiêm ngặt các mô hình Gemini của mình và đánh giá hiệu suất của chúng trong nhiều nhiệm vụ khác nhau. Từ khả năng hiểu hình ảnh, âm thanh và video tự nhiên cho đến lý luận toán học, hiệu suất của Gemini Ultra vượt xa các kết quả hiện đại nhất trên 30 trong số 32 điểm chuẩn học thuật được sử dụng rộng rãi trong nghiên cứu và phát triển mô hình ngôn ngữ lớn (LLM).
Với số điểm 90,0%, Gemini Ultra là mô hình đầu tiên vượt trội hơn các chuyên gia con người về MMLU (hiểu ngôn ngữ đa nhiệm lớn), sử dụng kết hợp 57 môn học như toán, vật lý, lịch sử, luật, y học và đạo đức để kiểm tra cả thế giới. kiến thức và khả năng giải quyết vấn đề.
Cách tiếp cận chuẩn mới của chúng tôi đối với MMLU cho phép Gemini sử dụng khả năng suy luận của mình để suy nghĩ cẩn thận hơn trước khi trả lời những câu hỏi khó, dẫn đến những cải tiến đáng kể so với việc chỉ sử dụng ấn tượng đầu tiên.
Gemini vượt qua hiệu suất hiện đại trên một loạt các điểm chuẩn bao gồm văn bản và mã hóa.
Gemini Ultra cũng đạt được số điểm cao nhất là 59,4% trên tiêu chuẩn MMMU mới, bao gồm các nhiệm vụ đa phương thức trải rộng trên các lĩnh vực khác nhau đòi hỏi phải suy luận có chủ ý.
Với các điểm chuẩn hình ảnh mà chúng tôi đã thử nghiệm, Gemini Ultra vượt trội hơn các mẫu máy tiên tiến trước đó mà không cần sự hỗ trợ từ hệ thống nhận dạng ký tự quang học (OCR) giúp trích xuất văn bản từ hình ảnh để xử lý thêm. Những tiêu chuẩn này nêu bật tính đa phương thức bẩm sinh của Song Tử và cho thấy những dấu hiệu ban đầu về khả năng suy luận phức tạp hơn của Song Tử.
Khả năng thế hệ tiếp theo
Cho đến nay, cách tiếp cận tiêu chuẩn để tạo ra các mô hình đa phương thức bao gồm việc đào tạo các thành phần riêng biệt cho các phương thức khác nhau và sau đó ghép chúng lại với nhau để mô phỏng gần đúng một số chức năng này. Những mô hình này đôi khi có thể thực hiện tốt một số nhiệm vụ nhất định, chẳng hạn như mô tả hình ảnh, nhưng lại gặp khó khăn trong việc lập luận phức tạp và mang tính khái niệm hơn.
Chúng tôi đã thiết kế Gemini để trở thành người đa phương thức, được đào tạo trước ngay từ đầu về các phương thức khác nhau. Sau đó, chúng tôi tinh chỉnh nó bằng dữ liệu đa phương thức bổ sung để cải tiến hơn nữa tính hiệu quả của nó. Điều này giúp Gemini hiểu và suy luận một cách liền mạch về tất cả các loại đầu vào ngay từ đầu, tốt hơn nhiều so với các mô hình đa phương thức hiện có — và khả năng của nó là hiện đại trong hầu hết mọi lĩnh vực.
Tìm hiểu thêm về khả năng của Song Tử và xem nó hoạt động như thế nào.
Lý luận tinh vi
Khả năng suy luận đa phương thức phức tạp của Gemini 1.0 có thể giúp hiểu được thông tin bằng văn bản và hình ảnh phức tạp. Điều này khiến nó có kỹ năng độc đáo trong việc khám phá những kiến thức khó có thể phân biệt được giữa lượng dữ liệu khổng lồ.
Khả năng vượt trội của nó trong việc trích xuất thông tin chuyên sâu từ hàng trăm nghìn tài liệu thông qua việc đọc, lọc và hiểu thông tin sẽ giúp mang lại những đột phá mới với tốc độ kỹ thuật số trong nhiều lĩnh vực từ khoa học đến tài chính.
Hiểu văn bản, hình ảnh, âm thanh và hơn thế nữa
Gemini 1.0 được đào tạo để nhận dạng và hiểu văn bản, hình ảnh, âm thanh, v.v., để hiểu rõ hơn các thông tin có sắc thái khác nhau và có thể trả lời các câu hỏi liên quan đến các chủ đề phức tạp. Điều này giúp nó đặc biệt hiệu quả trong việc giải thích lý luận trong các môn học phức tạp như toán và vật lý.
Mã hóa nâng cao
Phiên bản Gemini đầu tiên của chúng tôi có thể hiểu, giải thích và tạo mã chất lượng cao bằng các ngôn ngữ lập trình phổ biến nhất thế giới, như Python, Java, C++ và Go. Khả năng làm việc trên nhiều ngôn ngữ và suy luận về thông tin phức tạp khiến nó trở thành một trong những mô hình nền tảng hàng đầu về mã hóa trên thế giới.
Gemini Ultra vượt trội ở một số điểm chuẩn mã hóa, bao gồm HumanEval, một tiêu chuẩn quan trọng trong ngành để đánh giá hiệu suất của các tác vụ mã hóa và Natural2Code, tập dữ liệu nội bộ của chúng tôi, sử dụng các nguồn do tác giả tạo thay vì thông tin dựa trên web.
Gemini cũng có thể được sử dụng làm công cụ cho các hệ thống mã hóa tiên tiến hơn. Hai năm trước, chúng tôi đã giới thiệu AlphaCode, hệ thống tạo mã AI đầu tiên đạt được mức hiệu suất cạnh tranh trong các cuộc thi lập trình.
Bằng cách sử dụng phiên bản chuyên biệt của Gemini, chúng tôi đã tạo ra một hệ thống tạo mã tiên tiến hơn, AlphaCode 2, hệ thống này vượt trội trong việc giải quyết các vấn đề lập trình cạnh tranh vượt ra ngoài phạm vi mã hóa để liên quan đến toán học phức tạp và khoa học máy tính lý thuyết.
Gemini vượt trội về mã hóa và lập trình cạnh tranh
Khi được đánh giá trên cùng nền tảng với AlphaCode ban đầu, AlphaCode 2 cho thấy những cải tiến vượt bậc, giải quyết được số vấn đề gần gấp đôi và chúng tôi ước tính rằng nó hoạt động tốt hơn 85% số người tham gia cuộc thi — tăng từ mức gần 50% của AlphaCode. Khi các lập trình viên cộng tác với AlphaCode 2 bằng cách xác định các thuộc tính nhất định cho các mẫu mã tuân theo, nó thậm chí còn hoạt động tốt hơn.
Chúng tôi rất vui khi các lập trình viên ngày càng sử dụng các mô hình AI có khả năng cao làm công cụ cộng tác có thể giúp họ giải quyết vấn đề, đề xuất thiết kế mã và hỗ trợ triển khai — để họ có thể phát hành ứng dụng và thiết kế dịch vụ tốt hơn, nhanh hơn.
Xem thêm chi tiết trong báo cáo kỹ thuật AlphaCode 2 của chúng tôi.
Đáng tin cậy hơn, có thể mở rộng và hiệu quả hơn
Chúng tôi đã đào tạo Gemini 1.0 trên quy mô lớn trên cơ sở hạ tầng được tối ưu hóa cho AI bằng cách sử dụng Bộ xử lý Tensor (TPU) v4 và v5e được thiết kế nội bộ của Google. Và chúng tôi đã thiết kế nó thành mô hình đáng tin cậy và có thể mở rộng nhất để đào tạo cũng như phục vụ hiệu quả nhất.
Trên TPU, Gemini chạy nhanh hơn đáng kể so với các mẫu trước đó, nhỏ hơn và kém hiệu năng hơn. Các bộ tăng tốc AI được thiết kế tùy chỉnh này là trọng tâm của các sản phẩm hỗ trợ AI của Google nhằm phục vụ hàng tỷ người dùng như Tìm kiếm, YouTube, Gmail, Google Maps, Google Play và Android. Họ cũng cho phép các công ty trên khắp thế giới đào tạo các mô hình AI quy mô lớn với chi phí hiệu quả.
Hôm nay, chúng tôi xin công bố hệ thống TPU mạnh mẽ, hiệu quả và có khả năng mở rộng nhất cho đến nay, Cloud TPU v5p, được thiết kế để đào tạo các mô hình AI tiên tiến. TPU thế hệ tiếp theo này sẽ đẩy nhanh sự phát triển của Gemini và giúp các nhà phát triển cũng như khách hàng doanh nghiệp đào tạo các mô hình AI tổng hợp quy mô lớn nhanh hơn, cho phép các sản phẩm và khả năng mới tiếp cận khách hàng sớm hơn.
Được xây dựng với trách nhiệm và sự an toàn cốt lõi
Tại Google, chúng tôi cam kết thúc đẩy AI táo bạo và có trách nhiệm trong mọi việc chúng tôi làm. Dựa trên Nguyên tắc AI của Google và các chính sách an toàn mạnh mẽ trên các sản phẩm của chúng tôi, chúng tôi đang bổ sung các biện pháp bảo vệ mới để giải quyết khả năng đa phương thức của Gemini. Ở mỗi giai đoạn phát triển, chúng tôi đều xem xét các rủi ro tiềm ẩn và nỗ lực kiểm tra cũng như giảm thiểu chúng.
Gemini có các đánh giá an toàn toàn diện nhất so với bất kỳ mô hình AI nào của Google cho đến nay, bao gồm cả độ sai lệch và độc tính. Chúng tôi đã tiến hành nghiên cứu mới về các lĩnh vực rủi ro tiềm ẩn như tấn công mạng, thuyết phục và tự chủ, đồng thời đã áp dụng các kỹ thuật thử nghiệm đối thủ tốt nhất của Google Research để giúp xác định các vấn đề an toàn quan trọng trước khi triển khai Gemini.
Để xác định những điểm mù trong phương pháp đánh giá nội bộ của mình, chúng tôi đang làm việc với một nhóm đa dạng gồm các chuyên gia và đối tác bên ngoài để kiểm tra kỹ lưỡng các mô hình của chúng tôi trong nhiều vấn đề.
Để chẩn đoán các vấn đề về an toàn nội dung trong các giai đoạn đào tạo của Gemini và đảm bảo kết quả đầu ra tuân thủ chính sách của chúng tôi, chúng tôi đang sử dụng các tiêu chuẩn như Lời nhắc về độc tính thực sự, một bộ gồm 100.000 lời nhắc với các mức độ độc hại khác nhau được lấy từ web, được phát triển bởi các chuyên gia tại Viện Allen cho AI. Thông tin chi tiết về công việc này sẽ sớm được thông báo.
Để hạn chế tác hại, chúng tôi đã xây dựng các bộ phân loại an toàn chuyên dụng để xác định, gắn nhãn và phân loại nội dung liên quan đến bạo lực hoặc định kiến tiêu cực chẳng hạn. Kết hợp với các bộ lọc mạnh mẽ, phương pháp tiếp cận theo lớp này được thiết kế để giúp Gemini an toàn hơn và hòa nhập hơn cho mọi người. Ngoài ra, chúng tôi đang tiếp tục giải quyết những thách thức đã biết đối với các mô hình như tính xác thực, căn cứ, phân bổ và chứng thực.
Trách nhiệm và sự an toàn sẽ luôn là trọng tâm trong việc phát triển và triển khai các mô hình của chúng tôi. Đây là một cam kết lâu dài đòi hỏi phải hợp tác xây dựng, vì vậy chúng tôi đang hợp tác với ngành và hệ sinh thái rộng lớn hơn để xác định các phương pháp thực hành tốt nhất cũng như đặt ra các tiêu chuẩn về an toàn và bảo mật thông qua các tổ chức như MLCommons, Diễn đàn Mô hình Biên giới và Quỹ An toàn AI của nó cũng như của chúng tôi. Khung AI an toàn (SAIF), được thiết kế để giúp giảm thiểu rủi ro bảo mật dành riêng cho các hệ thống AI trong khu vực công và tư nhân. Chúng tôi sẽ tiếp tục hợp tác với các nhà nghiên cứu, chính phủ và các nhóm xã hội dân sự trên khắp thế giới khi chúng tôi phát triển Gemini.
Làm cho Song Tử có mặt trên thế giới
Gemini 1.0 hiện đang được triển khai trên nhiều sản phẩm và nền tảng:
Gemini Pro trong các sản phẩm của Google
Chúng tôi đang đưa Gemini đến với hàng tỷ người thông qua các sản phẩm của Google.
Bắt đầu từ hôm nay, Bard sẽ sử dụng phiên bản tinh chỉnh của Gemini Pro để lý luận, lập kế hoạch, hiểu biết nâng cao hơn và hơn thế nữa. Đây là bản nâng cấp lớn nhất của Bard kể từ khi nó ra mắt. Nó sẽ có sẵn bằng tiếng Anh ở hơn 170 quốc gia và vùng lãnh thổ, đồng thời chúng tôi dự định mở rộng sang các phương thức khác nhau cũng như hỗ trợ các ngôn ngữ và địa điểm mới trong tương lai gần.
Chúng tôi cũng đang đưa Gemini lên Pixel. Pixel 8 Pro là điện thoại thông minh đầu tiên được thiết kế để chạy Gemini Nano, hỗ trợ các tính năng mới như Tóm tắt trong ứng dụng Ghi âm và triển khai trong Trả lời thông minh trong Gboard, bắt đầu với WhatsApp, Line và KakaoTalk1 — cùng với nhiều ứng dụng nhắn tin khác sẽ ra mắt vào năm tới.
Trong những tháng tới, Gemini sẽ có mặt trong nhiều sản phẩm và dịch vụ của chúng tôi hơn như Tìm kiếm, Quảng cáo, Chrome và Duet AI.
Chúng tôi đã bắt đầu thử nghiệm Gemini trong Tìm kiếm, nơi nó giúp Trải nghiệm tạo tìm kiếm (SGE) của chúng tôi nhanh hơn cho người dùng, giảm 40% độ trễ bằng tiếng Anh ở Hoa Kỳ, cùng với những cải tiến về chất lượng.
Xây dựng với Song Tử
Bắt đầu từ ngày 13 tháng 12, các nhà phát triển và khách hàng doanh nghiệp có thể truy cập Gemini Pro thông qua API Gemini trong Google AI Studio hoặc Google Cloud Vertex AI.
Google AI Studio là một công cụ dành cho nhà phát triển dựa trên web, miễn phí để tạo nguyên mẫu và khởi chạy ứng dụng một cách nhanh chóng bằng khóa API. Khi đến lúc cần có nền tảng AI được quản lý hoàn toàn, Vertex AI cho phép tùy chỉnh Gemini với toàn quyền kiểm soát dữ liệu và hưởng lợi từ các tính năng bổ sung của Google Cloud để bảo mật, an toàn, quyền riêng tư cũng như quản trị và tuân thủ dữ liệu của doanh nghiệp.
Các nhà phát triển Android cũng sẽ có thể xây dựng với Gemini Nano, mô hình hiệu quả nhất của chúng tôi cho các tác vụ trên thiết bị, thông qua AICore, một chức năng hệ thống mới có sẵn trong Android 14, bắt đầu trên các thiết bị Pixel 8 Pro. Đăng ký để xem trước sớm AICore.
Gemini Ultra sắp ra mắt
Đối với Gemini Ultra, chúng tôi hiện đang hoàn tất các cuộc kiểm tra độ tin cậy và an toàn trên diện rộng, bao gồm cả việc hợp tác lại bởi các bên đáng tin cậy bên ngoài, đồng thời cải tiến thêm mô hình bằng cách tinh chỉnh và học hỏi tăng cường từ phản hồi của con người (RLHF) trước khi phổ biến rộng rãi mô hình này.
Là một phần của quy trình này, chúng tôi sẽ cung cấp Gemini Ultra cho một số khách hàng, nhà phát triển, đối tác cũng như các chuyên gia về an toàn và trách nhiệm để thử nghiệm và phản hồi sớm trước khi triển khai cho các nhà phát triển và khách hàng doanh nghiệp vào đầu năm tới.
Đầu năm tới, chúng tôi cũng sẽ ra mắt Bard Advanced, một trải nghiệm AI mới, tiên tiến cho phép bạn tiếp cận các mô hình và khả năng tốt nhất của chúng tôi, bắt đầu với Gemini Ultra.
Kỷ nguyên Song Tử: tạo điều kiện cho một tương lai đổi mới
Đây là một cột mốc quan trọng trong sự phát triển của AI và là sự khởi đầu cho một kỷ nguyên mới đối với chúng tôi tại Google khi chúng tôi tiếp tục đổi mới nhanh chóng và nâng cao khả năng của các mô hình của mình một cách có trách nhiệm.
Cho đến nay, chúng tôi đã đạt được tiến bộ lớn trên Gemini và chúng tôi đang nỗ lực mở rộng hơn nữa khả năng của nó cho các phiên bản trong tương lai, bao gồm những tiến bộ về lập kế hoạch và bộ nhớ, đồng thời tăng cửa sổ ngữ cảnh để xử lý nhiều thông tin hơn nhằm đưa ra phản hồi tốt hơn.
Chúng tôi rất vui mừng trước những khả năng tuyệt vời của một thế giới được trao quyền một cách có trách nhiệm bởi AI - một tương lai đổi mới sẽ nâng cao khả năng sáng tạo, mở rộng kiến thức, nâng cao khoa học và thay đổi cách hàng tỷ người sống và làm việc trên khắp thế giới.