Jean-Baptiste Michel & Erez Lieberman Aiden: Điều chúng ta đã học từ 5 triệu cuốn sách



Bạn đã thử dùng Ngram viewer của Google Labs chưa? Đó là công cụ khiến người ta say mê. Nó cho phép bạn tìm kiếm từ vựng và ý tưởng trong nguồn dữ liệu của 5 triệu cuốn sách từ nhiều thế kỉ. Erez Lierberman AidenJean-Baptiste Michel cho chúng ta thấy nó hoạt động thế nào và một vài điều thú vị mà chúng ta có thể học được từ 500 tỉ từ.




Bài nói chuyện dí dóm nhưng không kém phần thuyết phục của Jean-Baptiste Michel và Erez Lieberman Aiden tại TEDxBoston 2011.


Vậy Jean-Baptiste Michel và Erez Lieberman Aiden là ai????


Jean-Baptiste Michel: Nhà nghiên cứu dữ liệu

Jean-Baptiste Michel quan tâm đến việc làm thế nào chúng ta có thể tận dụng khối lượng dữ liệu đồ sộ để hiểu rõ hơn về thế giới.


Jean-Baptiste Michel tổ chức các buổi họp nhóm học tập tại Đại học Harvard (FQEBFellow) và Google (Visiting Faculty). Nghiên cứu của anh tập trung vào việc sử dụng các cơ sở dữ liệu lớn như là những công cụ giúp chúng ta hiểu rõ hơn về thế giới xung quanh mình - từ tiến triển bệnh tình của người bệnh qua các năm, đến sự thay đổi của các nền văn hóa trong xã hội loài người qua nhiều thế kỷ.


Cùng với người đồng nghiệp của mình, Erez Lieberman Aiden, Jean-Baptiste là nhà sáng lập của Viện quan sát văn hóa Harvard (Harvard CulturalObservatory), nơi nhóm nghiên cứu tiên phong của họ sử dụng các phương pháp định lượng trong việc nghiên cứu văn hóa con người, ngôn ngữ và lịch sử. Nghiên cứu của anh đã được đưa trên trang bìa của tạp chí Science and Nature, trên các trang nhất của các tờ New York Times , Boston Globe, The Economist, Wired và nhiều tờ báo khác. Anh cũng hỗ trợ trong việc tạo ra  công cụ trực tuyến ngrams.googlelabs.com - được sử dụng hàng triệu lần để nghiên cứu các trào lưu văn hóa. Jean-Baptiste là một kỹ sư tốt nghiệp từ trường Bách Khoa Ecole (Paris), nhận bằng Thạc sĩ lĩnh vực Toán học ứng dụng và tiến sĩ ngành Hệ thống sinh học của Đại học Harvard.



Erez Lieberman Aiden: Nhà nghiên cứu


Erez Lieberman Aiden theo đuổi một loạt các nghiên cứu về sở thích cá nhân , sự mở rộng hệ gen, ngôn ngữ học, toán học...

Erez Lieberman Aiden là một nghiên cứu sinh thuộc Hiệp hội Nghiên cứu sinh Harvard và Visiting Faculty tại Google. Nghiên cứu của anh trải trên nhiều lĩnh vực ,đã giành được rất nhiều giải thưởng, trong đó bao gồm cả lĩnh vực được công nhận nằm trong top “20 công nghệ sinh học đột phá có thể thay đổi ngành Y" theo Popular Mechanics; giải thưởng Lemelson-MIT cho các sinh viên phát minh giỏi nhất tại MIT;  giải thưởng  của American Physical Society cho luận án  Tiến sĩ tốt nhất  trong lĩnh vực Sinh học vật lý, và là thành viên của ấn bản Technology Review’s 2009 TR35 được công nhận nằm trong top 35 nhà phát minh dưới 35 tuổi. Ba báo cáo khoa học gần đây nhất của anh - hai trong số đó là cùng với JB Michel - tất cả đều được in trên trang bìa của tạp chí Science and Nature.


Hai nhà phát minh tài năng này hiện cùng làm việc với nhau tại trường Đại học Harvard
Nguồn: www.ped.fas.harvard.edu

Giới thiệu về một trong những kết quả hợp tác giữa Jean-Baptiste Michel & Erez Lieberman Aiden 

Ngram Viewer

Sử dụng sở dữ liệu từ 5,2 triệu cuốn sách đã được số hóa, Ngram Viewer là công cụ giúp tìm kiếm tần suất xuất hiện một từ khóa nào đó trong kho sách đã được Google số hóa và trình bày trên 1 biểu đồ trực quan với các mốc thời gian cụ thể cho biết thời điểm nào từ khóa đó xuất hiện trên sách nhiều nhất.
Công cụ sẽ tìm kiếm trong 5 tỷ từ được in trong 5,2 triệu cuốn sách được viết bằng các ngôn ngữ như: Hoa, Anh, Đức, Pháp, Nga và Tây Ban Nha được xuất bản từ thế kỷ 16 cho đến nay. Dựa vào kết quả trả về người nghiên cứu có thể biết rõ tần xuất, mức độ phổ biến, xu hướng sử dụng từ khóa đó trong quá khứ. Ngoài ra người dùng còn được phép tải dữ liệu liên quan đến từ khóa về máy tính để có thể dùng làm tài liệu nghiên cứu.


* Bonus:
Một phát hiện thú vị của 1 người tên là Federico rằng nếu bạn tìm kiếm trong Books Ngram Viewer với từ khóa [never gonna give you up] thì sẽ được thưởng thức bài hát cùng tên do Rick Astley sáng tác và trình bày.




Không có nhận xét nào:

Đăng nhận xét