Kỹ sư OpenAI Clive Chan Thách thức Khuyến nghị Phần cứng của V4, Trích dẫn Lỗi và Tính Mơ hồ so với V3

Tin tức cổng Gate, ngày 24 tháng 4 — Kỹ sư OpenAI Clive Chan đã đưa ra những phản đối chi tiết đối với chương khuyến nghị phần cứng trong báo cáo kỹ thuật V4, gọi chương này là “đáng ngạc nhiên là tầm thường và dễ gây lỗi” so với phiên bản V3 được ca ngợi. Hướng dẫn phần cứng của V3, bao gồm các buổi Q&A đã trở thành chủ đề thảo luận phổ biến nhất tại hội nghị học thuật ISCA, đưa ra các khuyến nghị cụ thể phù hợp với các tiêu chuẩn kết nối liên ngành trong ngành. Ngược lại, V4 lại còn mơ hồ hơn rất nhiều.

Chan đã phản biện có hệ thống ba khuyến nghị then chốt. Về mức tiêu thụ điện năng, báo cáo cho rằng việc tối ưu hóa phần mềm cho phép chip chạy đồng thời ở mức công suất tối đa cho tính toán, lưu trữ và truyền thông, đồng thời khuyến nghị các nhà sản xuất chip dành ra thêm phần dự trữ công suất. Chan lập luận rằng điều này phản tác dụng: tổng công suất của chip bị giới hạn bởi các hạn chế của quy trình vật lý, do đó việc dành thêm biên công suất chỉ làm giảm tần số hoạt động, cuối cùng kéo giảm hiệu suất tính toán. Đối với truyền dữ liệu GPU-GPU, báo cáo đề xuất mô hình kéo—trong đó các GPU chủ động nạp dữ liệu—thay vì mô hình đẩy, viện dẫn chi phí thông báo cao trong các thao tác đẩy. Chan phản bác điều này, cho rằng mô hình kéo thực ra còn chậm hơn và năng lực bộ điều hợp mạng được cải thiện sẽ là lựa chọn tốt hơn. Tuy nhiên, hai bên có thể đang thảo luận về những lớp khác nhau của vấn đề: báo cáo đề cập đến chi phí do cơ chế thông báo, còn Chan lại nói về độ trễ truyền tải.

Về các hàm kích hoạt, báo cáo khuyến nghị thay thế SwiGLU bằng các hàm đơn giản hơn để giảm gánh nặng tính toán. Chan không thấy có giá trị trong việc này, lưu ý rằng Sonic MoE đã chứng minh hiệu suất tối ưu khi sử dụng SwiGLU. Chan nghi ngờ DeepSeek có thể đã “cố ý làm suy yếu phần này.”

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Anthropic Hoàn Nguyên Thay Đổi Claude Code Sau Khi Chất Lượng Suy Giảm; Tất Cả Các Sửa Chữa Đã Xong

Tin tức Cổng, ngày 24 tháng 4 — Anthropic đã thừa nhận sự sụt giảm gần đây về chất lượng của Claude Code và xác nhận rằng tất cả các vấn đề liên quan đã được khắc phục thông qua các lần hoàn nguyên (rollbacks) và sửa lỗi. Các vấn đề bắt nguồn từ ba điều chỉnh về sản phẩm và lời nhắc (prompt) được thực hiện trong giai đoạn từ đầu đến giữa tháng 4. Vào ngày 4 tháng 3, the

GateNews1giờ trước

Đồng sáng lập NeoSoul Kaelan: Ngành AI nên cho phép sự tồn tại của đồ chơi, đổi mới thường bắt đầu từ các sản phẩm thử nghiệm

Tin tức Gate, ngày 24 tháng 4 — Tại một diễn đàn gần đây ở Hồng Kông về tài chính mã hóa thông minh, đồng sáng lập NeoSoul Kaelan đã chia sẻ những hiểu biết về việc đánh giá các dự án AI ở giai đoạn đầu, trong ngành AI phát triển nhanh chóng và liên tục thay đổi. Ngoài việc đánh giá các sản phẩm hiện tại, các nhóm phải chứng minh khả năng bắt kịp với các năng lực của mô hình nền tảng, ông cho biết. Kaelan nhấn mạnh rằng khởi nghiệp AI cần cả sự vững nền và tầm nhìn: vững nền nghĩa là có năng lực về triển khai kỹ thuật, thiết kế sản phẩm và hiểu biết thị trường để tạo ra các sản phẩm hữu hình; tầm nhìn nghĩa là xây dựng phù hợp với các xu hướng phát triển của các mô hình ngôn ngữ lớn. Kaelan lập luận rằng dù một số sản phẩm AI giai đoạn đầu có thể trông như đồ chơi, những hình thức như vậy nên được cho phép trong các ngành công nghiệp đang hình thành. Nhiều mô hình hoàn toàn mới thực sự lần đầu tiên xuất hiện dưới dạng sản phẩm thử nghiệm trước khi đạt đến độ trưởng thành.

GateNews1giờ trước

Meta sẽ triển khai hàng chục triệu chip AWS Graviton5 trong thỏa thuận đa năm trị giá hàng tỷ đô la

Tin tức Gate, ngày 24 tháng 4 — Meta đã ký một thỏa thuận nhiều năm với Amazon Web Services để triển khai hàng chục triệu bộ xử lý Graviton5 cho cơ sở hạ tầng AI của mình, khiến Meta trở thành một trong những khách hàng Graviton lớn nhất của AWS trên toàn cầu. Thỏa thuận này kéo dài từ ba đến năm năm, được định giá lên tới hàng tỷ đô la, theo Phó Chủ tịch AWS Nafea Bshara.

GateNews1giờ trước

DeepSeek V4-Flash lên Ollama Cloud, máy chủ Mỹ: Claude Code, OpenClaw tích hợp một lần

Ollama Cloud đã niêm yết DeepSeek V4-Flash, suy luận trên máy chủ tại Mỹ, cung cấp ba bộ lệnh một lần để kết nối Claude Code, OpenClaw, Hermes. V4-Flash/V4-Pro sử dụng kiến trúc MoE, hỗ trợ nguyên sinh ngữ cảnh 1M, và giảm chi phí bằng nén theo Token-wise + chú ý thưa DSA; trong bối cảnh 1M, FLOPs cho mỗi token giảm 27%, bộ nhớ đệm KV giảm 10%. API tương thích với OpenAI ChatCompletions và Anthropic, giúp chuyển đổi dễ dàng giữa nhiều quy trình làm việc, đồng thời giảm chi phí và rủi ro về chủ quyền dữ liệu.

ChainNewsAbmedia3giờ trước

Web3 AI Infrastructure AIW3 huy động $2M trong vòng seed do Buffalo Capital dẫn dắt

Tin tức từ Gate, ngày 24 tháng 4 — Nền tảng hạ tầng Web3 AI AIW3 thông báo hoàn tất vòng gọi vốn seed trị giá $2 triệu đô la. Vòng này do Buffalo Capital dẫn dắt, với GalaXin Capital và Three-stones Ventures tham gia với vai trò đồng đầu tư. AIW3 đang chuyển dịch sang mô hình thực thi trên chuỗi Agent-as-a-Service

GateNews3giờ trước

Cohere Mua Lại Công Ty AI của Đức Aleph Alpha, Nhận Được $600M Đầu Tư để Mở Rộng Tại Châu Âu

Tin tức Gate, ngày 24 tháng 4 — Công ty AI của Canada Cohere đã công bố kế hoạch mua lại công ty AI của Đức Aleph Alpha để củng cố sự hiện diện của mình tại châu Âu. Schwarz Group, một nhà đầu tư hậu thuẫn của Aleph Alpha, dự kiến sẽ đầu tư $600 triệu USD vào vòng gọi vốn Series E của Cohere. Vòng gọi vốn dự kiến sẽ được hoàn tất vào năm 202

GateNews4giờ trước
Bình luận
0/400
Không có bình luận