Việc sao chép dữ liệu thủ công từ một hình ảnh vào bảng tính Google Sheets không chỉ tốn thời gian mà còn dễ gây ra các lỗi nhập liệu. May mắn thay, bạn hoàn toàn có thể trích xuất thông tin này vào bảng tính của mình chỉ với vài bước đơn giản, sử dụng công cụ Nhận dạng Ký tự Quang học (OCR) tích hợp trong Google Drive. Bài viết này sẽ hướng dẫn bạn chi tiết cách thực hiện để tối ưu hóa quy trình làm việc và nâng cao hiệu quả công việc.
Những Lưu Ý Quan Trọng Trước Khi Bắt Đầu
Trước khi bạn bắt đầu chuyển đổi văn bản trong hình ảnh thành dữ liệu trong Google Sheets, dưới đây là một số điểm quan trọng cần lưu ý để đảm bảo quá trình này diễn ra suôn sẻ và đạt hiệu quả cao nhất:
Đảm bảo chất lượng hình ảnh
Chất lượng hình ảnh là yếu tố then chốt quyết định độ chính xác của quá trình chuyển đổi. Hình ảnh càng rõ nét, kết quả trích xuất càng tốt. Nếu bạn sử dụng ảnh chụp màn hình, vấn đề này thường không quá nghiêm trọng. Tuy nhiên, nếu bạn chụp ảnh bằng điện thoại hoặc máy ảnh, hãy đảm bảo rằng hình ảnh được chiếu sáng tốt, không bị che khuất bởi bóng đổ và không bị mờ do rung tay.
Sử dụng hình ảnh có độ phân giải văn bản cao
Dữ liệu văn bản trong ảnh phải có chiều cao tối thiểu 10 pixel. Văn bản quá nhỏ hoặc pixelated sẽ rất khó để công cụ OCR nhận diện chính xác.
Định dạng hình ảnh được hỗ trợ
Quá trình này hoạt động với các tệp định dạng JPEG, PNG, TIFF và GIF. Nếu hình ảnh của bạn không thuộc một trong các định dạng này, bạn cần chuyển đổi chúng trước khi thực hiện.
Kích thước hình ảnh
Google khuyến nghị kích thước tệp hình ảnh nên nhỏ hơn hoặc bằng 2MB để đảm bảo hiệu suất tốt nhất khi xử lý OCR. Các tệp quá lớn có thể gặp vấn đề khi tải lên hoặc xử lý.
Font chữ tiêu chuẩn
Nếu văn bản hoặc dữ liệu số trong hình ảnh sử dụng font chữ quá đặc biệt hoặc kiểu cách, quá trình chuyển đổi có thể không đạt được độ chính xác như mong đợi. Các font chữ tiêu chuẩn, dễ đọc sẽ cho kết quả tốt nhất.
Định dạng có thể không được bảo toàn
Hãy chuẩn bị tinh thần rằng định dạng của dữ liệu (ví dụ: bảng, cột, kiểu chữ) có thể không được giữ nguyên sau khi chuyển đổi. Bạn có thể cần thực hiện các chỉnh sửa thủ công để định dạng lại dữ liệu trong Google Sheets.
Yêu cầu tài khoản Google
Để tận dụng công cụ chuyển đổi OCR này, bạn cần đăng nhập vào tài khoản Google của mình. Đây là điều kiện tiên quyết để truy cập và sử dụng các dịch vụ của Google Drive và Google Docs.
Bạn cũng có thể áp dụng các bước trong hướng dẫn này để chuyển đổi văn bản và số từ các tệp PDF được quét (scan) thành dữ liệu trong Google Sheets một cách hiệu quả.
Bước 1: Tải Hình Ảnh Lên Google Drive
Giả sử bạn có một hình ảnh – ví dụ một ảnh chụp màn hình của tệp PDF chứa danh sách tên và địa chỉ ở định dạng PNG – và bạn muốn trích xuất cũng như chỉnh sửa dữ liệu đó trong Google Sheets.
Ví dụ hình ảnh PDF quét chứa danh sách tên và địa chỉ cần trích xuất dữ liệu.
Vì đây là tệp hình ảnh PNG, bạn không thể chỉ đơn giản chọn và sao chép văn bản, bởi vì tệp không chứa “dữ liệu văn bản thực” mà chỉ là dữ liệu hình ảnh. Tương tự, bạn cũng có thể gặp tình huống này khi sao chép dữ liệu từ một trang web – nếu nội dung được tải lên dưới dạng hình ảnh, sẽ không có văn bản thực để sao chép và dán trực tiếp vào Google Sheets.
Thay vào đó, bạn cần tải hình ảnh lên Google Drive. Trước khi thực hiện, hãy đảm bảo hình ảnh của bạn đang ở đúng chiều. Sau đó, hãy đăng nhập vào Google Drive của bạn, rồi kéo và thả tệp hình ảnh vào thư mục Google Drive tương ứng.
Kéo thả tệp hình ảnh từ máy tính vào giao diện Google Drive để tải lên.
Ngoài ra, bạn cũng có thể nhấp vào nút “Mới” (New) ở góc trên bên trái, chọn “Tải tệp lên” (File Upload), sau đó tìm và tải hình ảnh bạn muốn chuyển đổi.
Bước 2: Mở Hình Ảnh Bằng Google Docs
Sau khi hình ảnh của bạn đã được tải lên Google Drive, đã đến lúc kích hoạt quá trình chuyển đổi. Để làm điều này, bạn hãy nhấp chuột phải vào tệp hình ảnh, di chuyển con trỏ qua tùy chọn “Mở bằng” (Open With), và chọn “Google Tài liệu” (Google Docs). Mặc dù mục tiêu cuối cùng là đưa dữ liệu vào Google Sheets, đây là một bước trung gian cần thiết để Google Docs thực hiện chức năng OCR.
Menu chuột phải khi chọn hình ảnh trong Google Drive, chọn mở bằng Google Docs để trích xuất văn bản.
Tại thời điểm này, Google Docs sẽ mở ra trong một tab mới, hiển thị hình ảnh gốc ở đầu tài liệu và dữ liệu văn bản đã được trích xuất nằm ngay bên dưới. Điều này cho phép bạn xem lại kết quả OCR và thực hiện các chỉnh sửa ban đầu trước khi chuyển sang Google Sheets.
Tài liệu Google Docs hiển thị hình ảnh gốc và văn bản đã được OCR trích xuất tự động bên dưới.
Ngoài ra, nếu bạn quay lại thư mục Google Drive chứa hình ảnh, bạn sẽ thấy tệp Google Docs vừa tạo đã được lưu cùng vị trí với tên tương tự.
Bước 3: Rà Soát và Chỉnh Sửa Dữ Liệu
Mặc dù công nghệ OCR của Google thường khá chính xác, nhưng tùy thuộc vào cách bố cục dữ liệu trong hình ảnh gốc, kết quả không phải lúc nào cũng hoàn hảo. Vì vậy, hãy dành thời gian để rà soát kỹ lưỡng dữ liệu trong tệp Google Docs mà bạn vừa tạo.
Trong ví dụ minh họa, các tiêu đề cột trong hình ảnh đã được chèn vào những vị trí ngẫu nhiên trong danh sách dữ liệu được trích xuất. Do đó, tôi sẽ loại bỏ chúng ở bước này và thêm lại sau khi chỉnh sửa dữ liệu trong Google Sheets.
Ngoài ra, ở gần cuối danh sách, địa chỉ của các mục như Spongebob, Superman và Sweeney Todd đã bị trộn lẫn. Tôi cần sắp xếp lại thông tin này để dữ liệu dễ dàng làm việc hơn trong bước tiếp theo. Việc kiểm tra và chỉnh sửa dữ liệu tại bước này giúp tiết kiệm đáng kể thời gian và công sức khi xử lý trong Google Sheets sau này.
Ví dụ lỗi dữ liệu bị trộn lẫn hoặc không đúng thứ tự sau khi trích xuất OCR trong Google Docs, cần chỉnh sửa thủ công.
Bước 4: Sao Chép Dữ Liệu Sang Google Sheets
Sau khi dữ liệu đã được sắp xếp và tổ chức chính xác trong Google Docs, chúng đã sẵn sàng để chuyển sang Google Sheets. Để thực hiện, bạn hãy chọn toàn bộ dữ liệu, nhấp chuột phải vào bất kỳ đâu trong vùng đã chọn, sau đó chọn “Sao chép” (Copy).
Chọn và sao chép văn bản đã trích xuất từ Google Docs để chuẩn bị dán vào Google Sheets.
Nếu bạn muốn chèn dữ liệu vào một bảng tính mới, hãy nhấp chuột phải vào khoảng trống trong thư mục Google Drive tương ứng và chọn “Google Trang tính” (Google Sheets).
Menu chuột phải trong Google Drive, chọn tạo mới một tệp Google Sheets.
Mặt khác, nếu bạn đã có sẵn tệp Google Sheets, hãy tìm và mở nó.
Tiếp theo, nhấp chuột phải vào ô mà bạn muốn dán phần đầu tiên của dữ liệu đã sao chép, di chuột qua “Dán đặc biệt” (Paste Special), và chọn “Chỉ giá trị” (Values Only). Việc dán dữ liệu dưới dạng giá trị sẽ loại bỏ tất cả định dạng, bao gồm cả các thuộc tính khoảng cách dòng mà Google Docs tự động áp dụng. Điều này giúp bạn có một tập hợp dữ liệu sạch sẽ, dễ dàng làm việc hơn trong các bước định dạng tiếp theo.
Bước 5: Định Dạng Dữ Liệu Trong Google Sheets
Bước cuối cùng trong quá trình chuyển đổi hình ảnh sang dữ liệu là định dạng dữ liệu trong Google Sheets, để nó hiển thị và hoạt động đúng như bạn mong muốn.
Trong trường hợp ví dụ, danh sách dữ liệu hiện đang nằm trong một cột duy nhất, nhưng tôi muốn các thông tin về tên, địa chỉ và khu vực được phân tách thành ba cột riêng biệt.
Danh sách dữ liệu tên và địa chỉ chưa được sắp xếp, nằm trong một cột duy nhất trong Google Sheets.
Có nhiều cách khác nhau để biến đổi tập dữ liệu theo yêu cầu, nhưng trong trường hợp này, tôi sẽ sử dụng hàm TRANSPOSE, có chức năng chuyển đổi dữ liệu từ hàng ngang thành cột dọc (và ngược lại).
Nếu bạn cũng muốn thực hiện tương tự, tại ô B2, bạn hãy nhập công thức:
=TRANSPOSE(A1:A3)
và nhấn Enter.
Chọn ba ô trong Google Sheets và sử dụng tay cầm kéo (fill handle) để sao chép công thức TRANSPOSE.
Bây giờ, vì một tên mới xuất hiện sau mỗi ba hàng, hãy chọn các ô từ B1 đến B3 và nhấp đúp vào tay cầm điền (fill handle) ở góc dưới bên phải của vùng chọn để sao chép công thức TRANSPOSE vào các ô liên quan trong cột B.
Tiếp theo, chọn tất cả các ô đã được transpose, nhấn Ctrl+C
(hoặc Cmd+C
trên Mac) để sao chép, và nhấn Ctrl+Shift+V
(hoặc Cmd+Shift+V
) để dán chỉ giá trị. Thao tác này sẽ tách dữ liệu khỏi danh sách một chiều ban đầu, đồng nghĩa với việc bạn có thể xóa danh sách gốc mà không lo mất bất kỳ dữ liệu đã transpose nào của mình.
Sao chép các ô đã được transpose trong Google Sheets và dán dưới dạng giá trị để cố định dữ liệu.
Bây giờ, sau khi nhấp chuột phải vào tiêu đề cột A và chọn “Xóa cột” (Delete Column), bạn cần loại bỏ các hàng trống. Để làm điều này, hãy chọn tất cả các cột chứa dữ liệu. Trong tab “Dữ liệu” (Data), di chuột qua “Dọn dẹp dữ liệu” (Data Cleanup), và nhấp vào “Xóa trùng lặp” (Remove Duplicates).
Chọn 'Xóa trùng lặp' (Remove Duplicates) từ tab Dữ liệu trong Google Sheets để loại bỏ hàng trống.
Thao tác này sẽ để lại một hàng trống cuối cùng mà bạn có thể xóa thủ công bằng cách nhấp chuột phải vào bất kỳ ô nào trong hàng đó và nhấp vào “Xóa hàng” (Delete Row).
Cuối cùng, để chèn lại các tiêu đề cột, nhấp chuột phải vào bất kỳ ô nào trong hàng 1, chọn “Chèn 1 hàng bên trên” (Insert 1 Row Above), và nhập các tiêu đề cần thiết.
Sử dụng menu chuột phải trong Google Sheets để chèn thêm một hàng ở trên, chuẩn bị thêm tiêu đề cột.
Giờ đây, bạn có thể chuyển đổi dữ liệu thành một bảng Google Sheets được định dạng bằng cách chọn tất cả các ô (bao gồm cả tiêu đề cột), nhấp chuột phải vào vùng chọn, và nhấp vào “Chuyển đổi thành bảng” (Convert To Table).
Sau đó, nhấp vào mũi tên xuống trong mỗi tiêu đề cột và di chuột qua “Chỉnh sửa loại cột” (Edit Column Type) để đảm bảo kiểu dữ liệu chính xác được gán cho từng trường, và dữ liệu đã chuyển đổi của bạn đã sẵn sàng để sử dụng trong bảng tính Google Sheets của bạn!
Kiểm tra và thiết lập kiểu dữ liệu (ví dụ: Văn bản) cho cột trong bảng Google Sheets đã định dạng.
Với khả năng trích xuất dữ liệu từ hình ảnh sang Google Sheets một cách nhanh chóng và chính xác, công cụ OCR tích hợp trong Google Drive thực sự là một giải pháp mạnh mẽ giúp tối ưu hóa quy trình làm việc. Bằng cách làm theo các bước hướng dẫn chi tiết trên, bạn có thể biến các hình ảnh chứa văn bản thành dữ liệu có thể chỉnh sửa và phân tích được, tiết kiệm đáng kể thời gian và công sức so với việc nhập liệu thủ công. Hãy áp dụng ngay thủ thuật này để nâng cao hiệu quả công việc và làm chủ dữ liệu của bạn!