Những phát triển mới nhất
App Store dành cho GPT 
OpenAI đã ra mắt GPT vào Ngày dành cho nhà phát triển, nơi mọi người có thể tạo GPT tùy chỉnh của riêng họ trên dữ liệu của riêng họ. Ngay sau đó, Internet tràn ngập hàng nghìn GPT do các cá nhân xây dựng cho nhiều mục đích khác nhau.
OpenAI đã thông báo rằng họ sẽ giới thiệu App Store dành cho GPT, nơi người sáng tạo có thể khởi chạy GPT của riêng mình và kiếm tiền thật. Tuy nhiên, vẫn chưa rõ liệu GPT Store có đi kèm hệ thống chia sẻ doanh thu nào hay không.
Hình đại diện toàn thân với biểu cảm điều khiển bằng giọng nói 
Hình đại diện chân dung toàn thân, sống động và chân thực, được tạo chỉ bằng giọng nói! Meta và Đại học California, Berkeley, đã giới thiệu một phương pháp tạo ra hình đại diện chân dung toàn thân sống động và sống động như thật, phản hồi các cử chỉ và biểu cảm thực tế trong các cuộc trò chuyện, chỉ sử dụng âm thanh nói làm đầu vào. Nó có thể tổng hợp chi tiết các nét mặt, cử chỉ cơ thể và chuyển động tay được đồng bộ hóa với đầu vào âm thanh, nâng cao tính chân thực và khả năng phản hồi của hình đại diện số hóa.
Điểm nổi bật:
– Nghiên cứu giới thiệu một mô hình chuyển động phức tạp gồm ba thành phần: mô hình chuyển động khuôn mặt, dự đoán trạng thái tinh thần và mô hình chuyển động cơ thể. Nó kết hợp đầu vào âm thanh động và mô hình tạo có điều kiện cho các chuyển động trên khuôn mặt cũng như quy trình sáng tạo sử dụng lượng tử hóa vectơ và mô hình tạo có điều kiện cho các chuyển động chi tiết của cơ thể.
– Nghiên cứu nhấn mạnh vai trò quan trọng của hình ảnh sống động như thật trong việc tạo hình đại diện. Nó chứng minh rằng những hình đại diện có độ chân thực cao là điều cần thiết để mô tả chính xác các cử chỉ đàm thoại mang nhiều sắc thái, với nghiên cứu chỉ ra rằng ưu tiên rõ ràng cho những hình đại diện này hơn những hình đại diện dựa trên lưới. Điều này nhấn mạnh những hạn chế của lưới không kết cấu trong việc ghi lại các cử chỉ chi tiết.
– Nghiên cứu này được hỗ trợ bởi một tập dữ liệu độc đáo và chi tiết về các cuộc trò chuyện đồng thời, được ghi lại trong thiết lập nhiều camera để cho phép theo dõi và tái tạo chính xác hình ảnh 3D thực tế của người tham gia. Bao gồm nhiều chủ đề và biểu hiện cảm xúc khác nhau, bộ dữ liệu này cung cấp nền tảng mạnh mẽ để phát triển và thử nghiệm các mô hình chuyển động.
Khuyến khích nghệ thuật để kích thích phản hồi LLM 
Các kỹ thuật kích thích thường bị bỏ qua nhưng chúng lại nắm giữ chìa khóa để mở ra tiềm năng thực sự của LLM. Nhận thức được điều này, một nghiên cứu gần đây đã giới thiệu một bộ toàn diện gồm 26 nguyên tắc hướng dẫn được thiết kế đặc biệt để nâng cao nghệ thuật kích thích LLM. Và nếu bạn cho rằng đây chỉ là những nguyên tắc lý thuyết thì việc áp dụng chúng đã giúp cải thiện trung bình 50% chất lượng phản hồi trên nhiều LLM khác nhau.
Điểm nổi bật:
-Nghiên cứu giới thiệu 26 nguyên tắc chi tiết về kỹ thuật kích thích, được phân thành 5 nhóm khác nhau. Các nhóm này bao gồm Cấu trúc và sự rõ ràng của kích thích, tính đặc hiệu và thông tin cũng như các nhiệm vụ phức tạp và lập trình kích thích. Những nguyên tắc này được thiết kế để giải quyết nhiều tình huống và tương tác khác nhau của người dùng với LLM, nhằm tối ưu hóa hiệu suất và mức độ liên quan của phản hồi mô hình.
Đánh giá hiệu suất của các nguyên tắc trên các quy mô LLM khác nhau
Hiệu suất của những nguyên tắc này đã được thử nghiệm trên các quy mô LLM khác nhau, bao gồm quy mô nhỏ (mô hình 7 tỷ tham số), quy mô trung bình (13 tỷ) và quy mô lớn (70 tỷ, GPT-3.5/4). Hai số liệu chính được sử dụng để đánh giá: Tăng cường, đo lường sự cải thiện về chất lượng phản hồi và Độ chính xác, tập trung vào tính chính xác của phản hồi.
Những nguyên tắc này đã giúp cải thiện hiệu suất lần lượt là 57,7% và 67,3% về chất lượng và độ chính xác cho GPT-4. Quá trình chuyển đổi từ LLaMA-2-7B sang GPT-4 đã vượt qua mức cải thiện hiệu suất 40%. Ngoài việc nâng cao hiệu suất của trí tuệ nhân tạo, những nguyên tắc này còn góp phần đáng kể vào sự hiểu biết và tương tác của người dùng với LLM. Bằng cách cung cấp các kích thích rõ ràng và có cấu trúc hơn, người dùng có thể hiểu rõ hơn về khả năng và hạn chế của các mô hình này.
Professional Tools
1.RAGatouille:
– Một công cụ được thiết kế để tích hợp các phương pháp truy xuất hiện đại (SOTA) vào bất kỳ quy trình RAG nào, tập trung vào sự tiện lợi và dễ sử dụng. Nó nhằm mục đích thu hẹp khoảng cách giữa nghiên cứu truy xuất thông tin phức tạp và các ứng dụng thực tế trong đường ống RAG.
2.Dashy:
– Ứng dụng tất cả trong một hợp nhất các công cụ, thông báo và dữ liệu vào một trang tổng quan có thể tùy chỉnh, nâng cao năng suất và hiệu quả với hơn 40 tiện ích chuyên biệt dành cho nhiều nhu cầu chuyên môn và cá nhân.
3.Tiếng vang AI:
– Trợ lý đào tạo và chuẩn bị phỏng vấn cá nhân của bạn, giúp cải thiện kỹ năng phỏng vấn bằng cách tập trung vào các câu hỏi hành vi với hơn 50 câu hỏi thực tế. Bạn có thể ghi lại câu trả lời của mình, chuyển chúng thành văn bản và nhận phản hồi cũng như điểm số. Nó đồng bộ hóa với iCloud để thực hành trơn tru trên nhiều thiết bị.
4.Wally:
– Được hỗ trợ bởi trí tuệ nhân tạo, công cụ này cho phép người dùng tạo các hình nền độc đáo có thể chia sẻ bằng cách chọn chủ đề, kiểu dáng và màu sắc, cung cấp nhiều tùy chọn nghệ thuật và giao diện dễ sử dụng.
