Cách sử dụng GPT-4o giúp bạn tăng hiệu suất làm việc

23/05/2024

Tuần qua, OpenAI đã công bố mô hình ngôn ngữ lớn mới nhất của mình, GPT-4o, kế nhiệm GPT-4 Turbo.

GPT-4o của OpenAI là gì?

GPT-4o là mô hình LLM mới nhất của OpenAI. Chữ 'o' trong GPT-4o đại diện cho "omni" - tiếng Latin có nghĩa là "mọi thứ" - ám chỉ thực tế rằng mô hình mới này có thể chấp nhận các lệnh nhắc bao gồm hỗn hợp văn bản, âm thanh, hình ảnh và video. Trước đây, giao diện ChatGPT sử dụng các mô hình riêng biệt cho các loại nội dung khác nhau.

1. GPT-4o cho phân tích dữ liệu và nhiệm vụ lập trình

Các mô hình GPT gần đây và các phiên bản dẫn xuất của chúng, như GitHub Copilot, đã có khả năng cung cấp hỗ trợ viết mã, bao gồm viết mã, giải thích và sửa lỗi. Khả năng đa phương tiện của GPT-4o mở ra những cơ hội thú vị.

Trong một video quảng cáo được tổ chức bởi CTO của OpenAI, Mira Murati, hai nhà nghiên cứu của OpenAI, Mark Chen và Barret Zoph, đã trình diễn việc sử dụng GPT-4o để làm việc với một số mã Python.

Mã được chia sẻ với GPT dưới dạng văn bản và tính năng tương tác bằng giọng nói được sử dụng để GPT giải thích mã. Sau đó, sau khi chạy mã, khả năng nhìn của GPT-4o được sử dụng để giải thích biểu đồ.

Tổng thể, việc hiển thị màn hình của bạn cho ChatGPT và đặt câu hỏi bằng giọng nói có thể là một quy trình đơn giản hơn so với việc lưu biểu đồ dưới dạng tệp hình ảnh, tải nó lên ChatGPT, rồi gõ câu hỏi.

Xem chi tiết tại đây: https://www.youtube.com/live/DQacCB9tDaw?si=IT0Ldlte-vsOwR1r&t=1103

2. GPT-4o cho dịch thuật thời gian thực

Hãy sẵn sàng mang GPT-4o đi du lịch. Khả năng nói với độ trễ thấp của GPT-4o có nghĩa là dịch thuật thời gian thực giờ đây trở nên khả thi (nếu bạn có dữ liệu di động trên gói điện thoại của mình!). Điều này có nghĩa là việc du lịch đến các quốc gia mà bạn không nói được ngôn ngữ trở nên dễ dàng hơn rất nhiều.

Xem chi tiết tại đây: https://youtu.be/eurVrO2iFz0?si=ZUJsukMyWvn8dMBI

3. Nhập vai với GPT-4o

ChatGPT đã là một công cụ hữu ích cho các kịch bản nhập vai, cho dù bạn đang chuẩn bị cho một buổi phỏng vấn công việc trong mơ trong lĩnh vực dữ liệu hay huấn luyện đội ngũ bán hàng của bạn để bán sản phẩm tốt hơn.

Cho đến nay, nó hoạt động tốt nhất cho các kịch bản nhập vai chỉ có văn bản, điều này không lý tưởng cho những trường hợp sử dụng này. Khả năng nói cải tiến có nghĩa là nhập vai bằng giọng nói giờ đây là một lựa chọn khả thi.

Xem chi tiết tại đây: https://youtu.be/wfAYBdaGVxs?si=z7jck94kHr9Oh8vp

4. GPT-4o hỗ trợ người khiếm thị và tích hợp thị giác

Khả năng của GPT-4o trong việc hiểu đầu vào video từ camera và mô tả cảnh bằng giọng nói có thể là một tính năng không thể thiếu cho người khiếm thị. Nó về cơ bản là tính năng mô tả âm thanh mà TV có, nhưng áp dụng cho đời thực.

Ngoài tích hợp giọng nói và văn bản, GPT-4o còn có các tính năng hình ảnh và video. Điều này có nghĩa là nếu bạn cung cấp cho nó quyền truy cập vào màn hình máy tính, nó có thể mô tả những gì hiển thị trên màn hình, trả lời các câu hỏi về hình ảnh trên màn hình hoặc hoạt động như một trợ lý hỗ trợ cho công việc của bạn.

Trong một video từ OpenAI có sự góp mặt của Sal Khan từ Khan Academy, GPT-4o hỗ trợ làm bài tập toán cho con trai của Sal.